排序: 最新 热门 引用
cs.CV 2606.14703

Gaze Heads: How VLMs Look at What They Describe

本研究发现VLM中的少数注意头(凝视头)通过追踪描述区域,提供可控的模型行为干预机制,利用漫画和自然图像验证其因果作用。

Rohit Gandikota, David Bau

2026-06-13 47
cs.CV 2606.13676

Modality Forcing for Scalable Spatial Generation

提出Modality Forcing,通过单一DiT模型实现稀疏深度数据的联合图像-深度生成,深度预测准确率提升57%。

Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski 等

2026-06-12 96
cs.RO 2606.13675

Improving Robotic Generalist Policies via Flow Reversal Steering

提出Flow Reversal Steering(FRS)方法,通过反向流模型将粗略动作映射到高质量行动,显著提升机器人多任务策略的零-shot控制和快速学习能力。

Andy Tang, William Chen, Andrew Wagenmaker 等

2026-06-12 66
cs.CL 2606.13634

Operads for compositional reasoning in LLMs

提出运算子框架Q,用于描述问答中的问题分解,结合操作一致性提升多步推理可靠性。

Nathaniel Bottman, Kyle Richardson

2026-06-12 1 引用 61