Paper 解读 - Arxiv 论文中文解读平台

cs.CV 2605.12501

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

CUActSpot基准测试通过数据合成和多模态评估提升GUI复杂交互性能，Phi-Ground-Any-4B模型表现优异。

Miaosen Zhang, Xiaohan Zhao, Zhihong Tan 等

2026-05-13 70

cs.CV 2605.12496

CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives

CausalCine通过因果自回归框架实现实时多镜头视频生成，显著提升了跨镜头一致性和交互性。

Yihao Meng, Zichen Liu, Hao Ouyang 等

2026-05-13 156

cs.CV 2605.12495

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

AlphaGRPO通过分解验证奖励提升UMMs的多模态生成能力，显著提高GenEval等基准测试表现。

Runhui Huang, Jie Wu, Rui Yang 等

2026-05-13 84

cs.LG 2605.12492

Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation

Pion优化器通过正交等价变换保持光谱，提升大语言模型训练稳定性。

Kexuan Shi, Hanxuan Li, Zeju Qiu 等

2026-05-13 78

cs.CL 2605.12493

LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

LongMemEval-V2通过AgentRunbook-C实现72.5%的准确率，评估代理的长期记忆能力。

Di Wu, Zixiang Ji, Asmi Kawatkar 等

2026-05-13 806

cs.CL 2605.12487

Task-Adaptive Embedding Refinement via Test-time LLM Guidance

通过测试时LLM指导的任务自适应嵌入优化，提升零样本搜索和分类性能，提升达25%。

Ariel Gera, Shir Ashury-Tahan, Gal Bloch 等

2026-05-13 99

cs.LG 2605.12483

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

提出一种稀疏到密集奖励原则，结合GRPO和OPD，提升语言模型后训练性能。

Yuanda Xu, Hejian Sang, Zhengze Zhou 等

2026-05-13 205

cs.AI 2605.12481

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

ToolCUA通过分阶段训练实现GUI-工具路径选择，提升46.85%准确率。

Xuhao Hu, Xi Zhang, Haiyang Xu 等

2026-05-13 216

cs.CV 2605.12480

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

OmniNFT通过模态感知的在线扩散强化学习框架提升音视频生成的质量和同步性。

Guohui Zhang, XiaoXiao Ma, Jie Huang 等

2026-05-13 194

cs.LG 2605.12477

MEME: Multi-entity & Evolving Memory Evaluation

MEME通过多实体和动态记忆评估揭示现有系统在依赖推理任务上的不足。

Seokwon Jung, Alexander Rubinstein, Arnas Uselis 等

2026-05-13 168

cs.LG 2605.12476

Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts

本文提出了一种无参数在线K-Means路由器，通过几何耦合实现有效的专家分配，降低负载不平衡，仅略微增加困惑度。

Sagi Ahrac, Noya Hochwald, Mor Geva

2026-05-13 77

cs.AI 2605.12474

Reward Hacking in Rubric-Based Reinforcement Learning

研究提出了一种评估基于评分标准的强化学习中奖励欺骗的方法，发现即使在强验证下，奖励欺骗仍然存在。

Anas Mahmoud, MohammadHossein Rezaei, Zihao Wang 等

2026-05-13 223

cs.LG 2605.12471

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

KV-Fold：一种无需训练的长上下文推理协议，实现100%精确匹配检索。

Alireza Nadali, Patrick Cooper, Ashutosh Trivedi 等

2026-05-13 105

cs.LG 2605.12466

Solve the Loop: Attractor Models for Language and Reasoning

Attractor模型通过固定点求解提升语言建模和推理，训练效率提高46.6%，准确率提升19.7%。

Jacob Fein-Ashley, Paria Rashidinejad

2026-05-13 268

cs.AI 2605.12462

Towards Affordable Energy: A Gymnasium Environment for Electric Utility Demand-Response Programs

DR-Gym环境使用强化学习优化电力需求响应，提升电网灵活性和能源可负担性。

Jose E. Aguilar Escamilla, Lingdong Zhou, Xiangqi Zhu 等

2026-05-13 87

cs.LG 2605.12460

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

多流LLM通过并行思维、输入和输出流解锁语言模型，提升效率和安全性。

Guinan Su, Yanwu Yang, Xueyan Li 等

2026-05-13 114

cs.CR 2605.12456

TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection

TextSeal通过双密钥生成和熵加权评分实现LLM水印，提升检测强度且无失真。

Tom Sander, Hongyan Chang, Tomáš Souček 等

2026-05-13 193

eess.SP 2605.12453

Enabling AI-Native Mobility in 6G: A Real-World Dataset for Handover, Beam Management, and Timing Advance

提出基于AI/ML的6G移动性解决方案，使用真实数据集优化切换和波束管理。

Mannam Veera Narayana, Rohit Singh, Deepa M. R 等

2026-05-13 80

cs.CL 2605.12452

The Algorithmic Caricature: Auditing LLM-Generated Political Discourse Across Crisis Events

通过计算社会科学框架，审计LLM生成的政治话语在九个危机事件中的表现，发现其情感更负面且结构更一致。

Gunjan, Sidahmed Benabderrahmane, Talal Rahwan

2026-05-13 69

cs.CV 2605.12451

FuTCR: Future-Targeted Contrast and Repulsion for Continual Panoptic Segmentation

FuTCR框架在持续全景分割中提升新类全景质量达28%，同时提高基础类性能。

Nicholas Ikechukwu, Keanu Nichols, Deepti Ghadiyaram 等

2026-05-13 85