Paper 解读 - Arxiv 论文中文解读平台

cs.CV 2603.19235

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

VEGA-3D利用视频生成模型的隐式3D先验，提升场景理解能力。

Xianjin Wu, Dingkang Liang, Tianrui Feng 等

2026-03-20 162

cs.CV 2603.19234

Matryoshka Gaussian Splatting

Matryoshka Gaussian Splatting (MGS) 提供连续细节层次控制，保持全容量渲染质量。

Zhilin Guo, Boqiao Zhang, Hakan Aktas 等

2026-03-20 41

cs.CV 2603.19231

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

MonoArt通过渐进结构推理实现单目3D重建，提升了PartNet-Mobility数据集上的重建精度和推理速度。

Haitian Li, Haozhe Xie, Junxiang Xu 等

2026-03-20 106

cs.CV 2603.19228

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

SAMA通过语义锚定和运动对齐实现指令引导的视频编辑，显著提升编辑精度和运动一致性。

Xinyao Zhang, Wenkai Dong, Yuxin Song 等

2026-03-20 98

cs.CV 2603.19227

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

MoTok方法在HumanML3D上将轨迹误差从0.72 cm降至0.08 cm，FID从0.083降至0.029。

Chenyang Gu, Mingyuan Zhang, Haozhe Xie 等

2026-03-20 50

cs.CV 2603.19224

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

EffectErase通过逆向学习实现高质量视频对象移除与插入，基于VOR数据集。

Yang Fu, Yike Zheng, Ziyun Dai 等

2026-03-20 47

cs.CV 2603.19222

Spectrally-Guided Diffusion Noise Schedules

基于光谱特性的逐像素扩散噪声调度提高了低步数生成质量。

Carlos Esteves, Ameesh Makadia

2026-03-20 48

cs.CV 2603.19219

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

DriveTok通过3D可变形交叉注意力实现多视角重建和理解，在nuScenes数据集上表现出色。

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo 等

2026-03-20 53

cs.CV 2603.19216

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen通过协同潜在去噪实现语义基础的部分级3D生成，几何保真度提高53%。

Tianjiao Yu, Xinzhuo Li, Muntasir Wahed 等

2026-03-20 42

cs.CV 2603.19209

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

研究发现状态空间模型(SSM)作为视觉编码器在VLM中表现优于视觉变压器(ViT)，尤其在VQA和定位任务中。

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

2026-03-20 45

cs.CV 2603.19169

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

ARIADNE利用DPO和RL实现冠状动脉造影分析，中心线Dice达到0.838。

Zhan Jin, Yu Luo, Yizhou Zhang 等

2026-03-20 38

cs.CV 2603.18004

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

提出Spatio-Temporal Token Scoring (STTS)，在不影响性能的情况下提高视频视觉语言模型效率62%。

Jianrui Zhang, Yue Yang, Rohun Tripathi 等

2026-03-19 49

cs.CV 2603.18002

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Loc3R-VLM通过单目视频输入实现语言定位和3D推理，表现优于现有方法。

Kevin Qu, Haozhe Qi, Mihai Dusmanu 等

2026-03-19 73

cs.CV 2603.17995

LoST: Level of Semantics Tokenization for 3D Shapes

LoST通过语义显著性排序3D形状的token，实现高效的自回归3D生成，仅需0.1%-10%的token。

Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero 等

2026-03-19 45

cs.CV 2603.16870

Demystifing Video Reasoning

通过Chain-of-Steps机制，视频生成模型在扩散去噪步骤中展现推理能力。

Ruisi Wang, Zhongang Cai, Fanyi Pu 等

2026-03-18 47

cs.CV 2603.16869

SegviGen: Repurposing 3D Generative Model for Part Segmentation

SegviGen利用3D生成模型进行3D部件分割，仅需0.32%标注数据即可提升40%交互分割性能。

Lin Li, Haoran Feng, Zehuan Huang 等

2026-03-18 112

cs.CV 2603.16868

MessyKitchens: Contact-rich object-level 3D scene reconstruction

MessyKitchens通过MOD算法实现了高精度的单目3D场景重建，显著提升了物体间接触的物理合理性。

Junaid Ahmed Ansari, Ran Ding, Fabio Pizzati 等

2026-03-18 34

cs.CV 2603.16844

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

M^3方法结合多视图基础模型和单目高斯喷射SLAM，实现64.3% ATE RMSE降低。

Kerui Ren, Guanghao Li, Changjian Jiang 等

2026-03-18 65

cs.CV 2603.15620

Towards Generalizable Robotic Manipulation in Dynamic Environments

PUMA模型在动态环境中实现了6.3%的成功率提升，结合历史光流和世界查询。

Heng Fang, Shangru Li, Shuhan Wang 等

2026-03-17 63

cs.CV 2603.15616

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

GlyphPrinter通过区域分组直接偏好优化提升字形精度，超越现有方法。

Xincheng Shuai, Ziye Li, Henghui Ding 等

2026-03-17 69