Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
VEGA-3D利用视频生成模型的隐式3D先验,提升场景理解能力。
Xianjin Wu, Dingkang Liang, Tianrui Feng 等
VEGA-3D利用视频生成模型的隐式3D先验,提升场景理解能力。
Xianjin Wu, Dingkang Liang, Tianrui Feng 等
Matryoshka Gaussian Splatting (MGS) 提供连续细节层次控制,保持全容量渲染质量。
Zhilin Guo, Boqiao Zhang, Hakan Aktas 等
MonoArt通过渐进结构推理实现单目3D重建,提升了PartNet-Mobility数据集上的重建精度和推理速度。
Haitian Li, Haozhe Xie, Junxiang Xu 等
SAMA通过语义锚定和运动对齐实现指令引导的视频编辑,显著提升编辑精度和运动一致性。
Xinyao Zhang, Wenkai Dong, Yuxin Song 等
MoTok方法在HumanML3D上将轨迹误差从0.72 cm降至0.08 cm,FID从0.083降至0.029。
Chenyang Gu, Mingyuan Zhang, Haozhe Xie 等
EffectErase通过逆向学习实现高质量视频对象移除与插入,基于VOR数据集。
Yang Fu, Yike Zheng, Ziyun Dai 等
基于光谱特性的逐像素扩散噪声调度提高了低步数生成质量。
Carlos Esteves, Ameesh Makadia
DriveTok通过3D可变形交叉注意力实现多视角重建和理解,在nuScenes数据集上表现出色。
Dong Zhuo, Wenzhao Zheng, Sicheng Zuo 等
DreamPartGen通过协同潜在去噪实现语义基础的部分级3D生成,几何保真度提高53%。
Tianjiao Yu, Xinzhuo Li, Muntasir Wahed 等
研究发现状态空间模型(SSM)作为视觉编码器在VLM中表现优于视觉变压器(ViT),尤其在VQA和定位任务中。
Shang-Jui Ray Kuo, Paola Cascante-Bonilla
ARIADNE利用DPO和RL实现冠状动脉造影分析,中心线Dice达到0.838。
Zhan Jin, Yu Luo, Yizhou Zhang 等
提出Spatio-Temporal Token Scoring (STTS),在不影响性能的情况下提高视频视觉语言模型效率62%。
Jianrui Zhang, Yue Yang, Rohun Tripathi 等
Loc3R-VLM通过单目视频输入实现语言定位和3D推理,表现优于现有方法。
Kevin Qu, Haozhe Qi, Mihai Dusmanu 等
LoST通过语义显著性排序3D形状的token,实现高效的自回归3D生成,仅需0.1%-10%的token。
Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero 等
通过Chain-of-Steps机制,视频生成模型在扩散去噪步骤中展现推理能力。
Ruisi Wang, Zhongang Cai, Fanyi Pu 等
SegviGen利用3D生成模型进行3D部件分割,仅需0.32%标注数据即可提升40%交互分割性能。
Lin Li, Haoran Feng, Zehuan Huang 等
MessyKitchens通过MOD算法实现了高精度的单目3D场景重建,显著提升了物体间接触的物理合理性。
Junaid Ahmed Ansari, Ran Ding, Fabio Pizzati 等
M^3方法结合多视图基础模型和单目高斯喷射SLAM,实现64.3% ATE RMSE降低。
Kerui Ren, Guanghao Li, Changjian Jiang 等
PUMA模型在动态环境中实现了6.3%的成功率提升,结合历史光流和世界查询。
Heng Fang, Shangru Li, Shuhan Wang 等
GlyphPrinter通过区域分组直接偏好优化提升字形精度,超越现有方法。
Xincheng Shuai, Ziye Li, Henghui Ding 等