Paper Insights - AI Arxiv Paper Analysis

cs.CV 2603.19235

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

VEGA-3D leverages implicit 3D priors in video generation models to enhance scene understanding.

Xianjin Wu, Dingkang Liang, Tianrui Feng et al.

2026-03-20 163

cs.CV 2603.19234

Matryoshka Gaussian Splatting

Matryoshka Gaussian Splatting (MGS) enables continuous level of detail control without sacrificing full-capacity rendering quality.

Zhilin Guo, Boqiao Zhang, Hakan Aktas et al.

2026-03-20 42

cs.CV 2603.19231

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

MonoArt uses progressive structural reasoning for monocular 3D reconstruction, achieving improved accuracy and speed on the PartNet-Mobility dataset.

Haitian Li, Haozhe Xie, Junxiang Xu et al.

2026-03-20 107

cs.CV 2603.19228

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

SAMA achieves instruction-guided video editing through semantic anchoring and motion alignment, significantly enhancing editing precision and motion consistency.

Xinyao Zhang, Wenkai Dong, Yuxin Song et al.

2026-03-20 99

cs.CV 2603.19227

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

MoTok method reduces trajectory error from 0.72 cm to 0.08 cm and FID from 0.083 to 0.029 on HumanML3D.

Chenyang Gu, Mingyuan Zhang, Haozhe Xie et al.

2026-03-20 51

cs.CV 2603.19224

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

EffectErase uses reciprocal learning for high-quality video object removal and insertion, leveraging the VOR dataset.

Yang Fu, Yike Zheng, Ziyun Dai et al.

2026-03-20 48

cs.CV 2603.19222

Spectrally-Guided Diffusion Noise Schedules

Spectrally-guided per-instance diffusion noise schedules enhance low-step generative quality.

Carlos Esteves, Ameesh Makadia

2026-03-20 49

cs.CV 2603.19219

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

DriveTok leverages 3D deformable cross-attention for efficient multi-view reconstruction and understanding, excelling on the nuScenes dataset.

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo et al.

2026-03-20 54

cs.CV 2603.19216

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen achieves semantically grounded part-level 3D generation via collaborative latent denoising, improving geometric fidelity by 53%.

Tianjiao Yu, Xinzhuo Li, Muntasir Wahed et al.

2026-03-20 43

cs.CV 2603.19209

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

State Space Models (SSM) outperform Vision Transformers (ViT) as vision encoders in VLMs, especially in VQA and localization tasks.

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

2026-03-20 46

cs.CV 2603.19169

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

ARIADNE uses DPO and RL for coronary angiography, achieving a centerline Dice of 0.838.

Zhan Jin, Yu Luo, Yizhou Zhang et al.

2026-03-20 39

cs.CV 2603.18004

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Introduced Spatio-Temporal Token Scoring (STTS) to enhance video VLMs efficiency by 62% with minimal performance drop.

Jianrui Zhang, Yue Yang, Rohun Tripathi et al.

2026-03-19 50

cs.CV 2603.18002

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Loc3R-VLM enables language-based localization and 3D reasoning from monocular video input, outperforming existing methods.

Kevin Qu, Haozhe Qi, Mihai Dusmanu et al.

2026-03-19 74

cs.CV 2603.17995

LoST: Level of Semantics Tokenization for 3D Shapes

LoST efficiently tokenizes 3D shapes by semantic salience for autoregressive generation, using only 0.1%-10% of tokens.

Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero et al.

2026-03-19 46

cs.CV 2603.16870

Demystifing Video Reasoning

Video models exhibit reasoning via Chain-of-Steps mechanism during diffusion denoising steps.

Ruisi Wang, Zhongang Cai, Fanyi Pu et al.

2026-03-18 48

cs.CV 2603.16869

SegviGen: Repurposing 3D Generative Model for Part Segmentation

SegviGen repurposes 3D generative models for part segmentation, achieving a 40% improvement in interactive segmentation using only 0.32% labeled data.

Lin Li, Haoran Feng, Zehuan Huang et al.

2026-03-18 113

cs.CV 2603.16868

MessyKitchens: Contact-rich object-level 3D scene reconstruction

MessyKitchens achieves high-precision monocular 3D scene reconstruction using the MOD algorithm, significantly enhancing the physical plausibility of inter-object contacts.

Junaid Ahmed Ansari, Ran Ding, Fabio Pizzati et al.

2026-03-18 35

cs.CV 2603.16844

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

M^3 integrates multi-view foundation models with monocular Gaussian splatting SLAM, reducing ATE RMSE by 64.3%.

Kerui Ren, Guanghao Li, Changjian Jiang et al.

2026-03-18 66

cs.CV 2603.15620

Towards Generalizable Robotic Manipulation in Dynamic Environments

PUMA model improves success rate by 6.3% in dynamic environments using historical optical flow and world queries.

Heng Fang, Shangru Li, Shuhan Wang et al.

2026-03-17 64

cs.CV 2603.15616

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

GlyphPrinter enhances glyph accuracy using Region-Grouped Direct Preference Optimization, surpassing existing methods.

Xincheng Shuai, Ziye Li, Henghui Ding et al.

2026-03-17 70