排序: 最新 热门 引用
cs.CV 2606.14703

Gaze Heads: How VLMs Look at What They Describe

本研究发现VLM中的少数注意头(凝视头)通过追踪描述区域,提供可控的模型行为干预机制,利用漫画和自然图像验证其因果作用。

Rohit Gandikota, David Bau

2026-06-13 50
cs.CV 2606.13676

Modality Forcing for Scalable Spatial Generation

提出Modality Forcing,通过单一DiT模型实现稀疏深度数据的联合图像-深度生成,深度预测准确率提升57%。

Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski 等

2026-06-12 101