JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
JanusMesh是一种零样本、快速生成双语义3D视觉幻觉的框架,利用交叉空间去噪实现几何融合,仅需3-5分钟。
Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang 等
JanusMesh是一种零样本、快速生成双语义3D视觉幻觉的框架,利用交叉空间去噪实现几何融合,仅需3-5分钟。
Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang 等
UNIEGO采用多教师代理中介,通过层级蒸馏融合九个多模态、多视角和基础模型,显著提升自我中心视频理解性能。
Wenhao Chi, Arkaprava Sinha, Dominick Reilly 等
提出空间推测解码(SSD),通过二维空间预测加速图像自回归生成,最高提速13.3倍。
Shilong Xiang, Zirui Zhang, Lijun Yu 等
CalTennis是一个包含超11百万帧多视角网球视频的基准数据集,用于评估单目到3D姿态估计,揭示深度和足部接触的挑战。
Ilona Demler, Xinran Xie, Blake Werner 等
提出UniAR,采用单一离散视觉标记器实现视觉理解与生成的统一,显著提升图像生成与编辑性能。
Wujian Peng, Lingchen Meng, Yuxuan Cai 等
提出EventDrive,结合事件相机与视觉-语言模型,提升自动驾驶中的感知、理解、预测与规划能力。
Dongyue Lu, Rong Li, Ao Liang 等
提出Qwen-RobotWorld,基于双流MMDiT和大规模动作-语言映射,利用8.6M视频文本数据实现跨场景机器人模拟,性能优越。
Jie Zhang, Xiaoyue Chen, Anzhe Chen 等
MeshLoom是一种基于前馈神经网络的非刚性网格序列配准方法,能在秒级完成多帧Mesh的高精度变形重建。
Jianqi Chen, Jiraphon Yenphraphai, Xiangjun Tang 等
本研究发现VLM中的少数注意头(凝视头)通过追踪描述区域,提供可控的模型行为干预机制,利用漫画和自然图像验证其因果作用。
Rohit Gandikota, David Bau
提出OmniVideo-100K数据集,结合结构化脚本与证据链,提升音视频推理能力,模型性能提升达20.59%。
Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang 等
提出RATS(寄存器注意力变换器),通过N个可学习寄存器实现无监督的部件结构发现,在五个分割任务中平均提升12个mIoU。
Timing Yang, Predrag Neskovic, Jansen Seheult 等
Instruct-Particulate利用大规模异构数据集和指令控制,结合神经网络实现3D关节结构的高效预测,显著提升泛化能力。
Ruining Li, Yuxin Yao, Matt Zhou 等
InterleaveThinker通过多智能体框架实现图像生成的交错序列,利用规划器和批评者提升长序列生成质量。
Dian Zheng, Harry Lee, Manyuan Zhang 等
提出Modality Forcing,通过单一DiT模型实现稀疏深度数据的联合图像-深度生成,深度预测准确率提升57%。
Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski 等
SpatialClaw采用代码作为行动接口,提升20项空间推理任务的平均准确率至59.9%,超越现有方法11.2个百分点。
Seokju Cho, Ryo Hachiuma, Abhishek Badki 等
Flex4DHuman利用相对相机姿态编码,从单目或稀疏多视角视频生成同步密集多视角视频,无需几何先验,超越现有方法。
Jen-Hao Cheng, Yipeng Wang, Hao Zhang 等
提出一种结合空间和频域的EWSegNet,用于复杂背景下的废弃物分割,显著提升效率和精度。
Mamoona Javaid, Mubashir Noman, Abdul Hannan 等
VLGA引入密集3D几何专家,通过LiDAR监督实现 dense pointmap 重建,显著提升自动驾驶安全性和精度。
Jin Yao, Dhruva Dixith Kurra, Tom Lampo 等
提出Turbo-Inference策略,通过迭代利用检测与分割的互补信息,显著提升COCO、Cityscapes等数据集的检测和分割性能。
Zhen Zhao, Gang Zhang, Xiaolin Hu 等
本论文提出基于元数据感知的多提示推理框架,用于零样本监控视频事故理解,显著提升CVPR基准的综合评分。
Tarandeep Singh, Soumyanetra Pal, Soham Biswas 等