Paper 解读 - Arxiv 论文中文解读平台

cs.CV 2606.20563

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

JanusMesh是一种零样本、快速生成双语义3D视觉幻觉的框架，利用交叉空间去噪实现几何融合，仅需3-5分钟。

Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang 等

2026-06-19 26

cs.CV 2606.20559

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

UNIEGO采用多教师代理中介，通过层级蒸馏融合九个多模态、多视角和基础模型，显著提升自我中心视频理解性能。

Wenhao Chi, Arkaprava Sinha, Dominick Reilly 等

2026-06-19 24

cs.CV 2606.20543

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

提出空间推测解码（SSD），通过二维空间预测加速图像自回归生成，最高提速13.3倍。

Shilong Xiang, Zirui Zhang, Lijun Yu 等

2026-06-19 20

cs.CV 2606.20542

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

CalTennis是一个包含超11百万帧多视角网球视频的基准数据集，用于评估单目到3D姿态估计，揭示深度和足部接触的挑战。

Ilona Demler, Xinran Xie, Blake Werner 等

2026-06-19 12

cs.CV 2606.18249

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

提出UniAR，采用单一离散视觉标记器实现视觉理解与生成的统一，显著提升图像生成与编辑性能。

Wujian Peng, Lingchen Meng, Yuxuan Cai 等

2026-06-17 37

cs.CV 2606.18242

EventDrive: Event Cameras for Vision-Language Driving Intelligence

提出EventDrive，结合事件相机与视觉-语言模型，提升自动驾驶中的感知、理解、预测与规划能力。

Dongyue Lu, Rong Li, Ao Liang 等

2026-06-17 42

cs.CV 2606.17030

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

提出Qwen-RobotWorld，基于双流MMDiT和大规模动作-语言映射，利用8.6M视频文本数据实现跨场景机器人模拟，性能优越。

Jie Zhang, Xiaoyue Chen, Anzhe Chen 等

2026-06-16 83

cs.CV 2606.17027

MeshLoom: Feed-Forward Non-Rigid Registration of Mesh Sequences

MeshLoom是一种基于前馈神经网络的非刚性网格序列配准方法，能在秒级完成多帧Mesh的高精度变形重建。

Jianqi Chen, Jiraphon Yenphraphai, Xiangjun Tang 等

2026-06-16 64

cs.CV 2606.14703

Gaze Heads: How VLMs Look at What They Describe

本研究发现VLM中的少数注意头（凝视头）通过追踪描述区域，提供可控的模型行为干预机制，利用漫画和自然图像验证其因果作用。

Rohit Gandikota, David Bau

2026-06-13 50

cs.CV 2606.14702

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

提出OmniVideo-100K数据集，结合结构化脚本与证据链，提升音视频推理能力，模型性能提升达20.59%。

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang 等

2026-06-13 35

cs.CV 2606.14701

RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers

提出RATS（寄存器注意力变换器），通过N个可学习寄存器实现无监督的部件结构发现，在五个分割任务中平均提升12个mIoU。

Timing Yang, Predrag Neskovic, Jansen Seheult 等

2026-06-13 45

cs.CV 2606.14699

Instruct-Particulate: Scaling Feed-Forward 3D Object Articulation with Kinematic Control

Instruct-Particulate利用大规模异构数据集和指令控制，结合神经网络实现3D关节结构的高效预测，显著提升泛化能力。

Ruining Li, Yuxin Yao, Matt Zhou 等

2026-06-13 56

cs.CV 2606.13679

InterleaveThinker: Reinforcing Agentic Interleaved Generation

InterleaveThinker通过多智能体框架实现图像生成的交错序列，利用规划器和批评者提升长序列生成质量。

Dian Zheng, Harry Lee, Manyuan Zhang 等

2026-06-12 72

cs.CV 2606.13676

Modality Forcing for Scalable Spatial Generation

提出Modality Forcing，通过单一DiT模型实现稀疏深度数据的联合图像-深度生成，深度预测准确率提升57%。

Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski 等

2026-06-12 101

cs.CV 2606.13673

SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning

SpatialClaw采用代码作为行动接口，提升20项空间推理任务的平均准确率至59.9%，超越现有方法11.2个百分点。

Seokju Cho, Ryo Hachiuma, Abhishek Badki 等

2026-06-12 158

cs.CV 2606.13655

Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

Flex4DHuman利用相对相机姿态编码，从单目或稀疏多视角视频生成同步密集多视角视频，无需几何先验，超越现有方法。

Jen-Hao Cheng, Yipeng Wang, Hao Zhang 等

2026-06-12 69

cs.CV 2606.13587

Towards Effective Waste Segmentation for Automated Waste Recycling in Cluttered Background

提出一种结合空间和频域的EWSegNet，用于复杂背景下的废弃物分割，显著提升效率和精度。

Mamoona Javaid, Mubashir Noman, Abdul Hannan 等

2026-06-12 51

cs.CV 2606.12396

VLGA: Vision-Language-Geometry-Action Models for Autonomous Driving

VLGA引入密集3D几何专家，通过LiDAR监督实现 dense pointmap 重建，显著提升自动驾驶安全性和精度。

Jin Yao, Dhruva Dixith Kurra, Tom Lampo 等

2026-06-11 74

cs.CV 2606.12371

A Turbo-Inference Strategy for Object Detection and Instance Segmentation

提出Turbo-Inference策略，通过迭代利用检测与分割的互补信息，显著提升COCO、Cityscapes等数据集的检测和分割性能。

Zhen Zhao, Gang Zhang, Xiaolin Hu 等

2026-06-11 58

cs.CV 2606.12047

Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding

本论文提出基于元数据感知的多提示推理框架，用于零样本监控视频事故理解，显著提升CVPR基准的综合评分。

Tarandeep Singh, Soumyanetra Pal, Soham Biswas 等

2026-06-10 55