Paper 解读 - Arxiv 论文中文解读平台

cs.CL 2605.31387

Multi-Turn Multi-Agent Dialogue for Collaborative Reconstruction Improves VLM Performance on Spatial Reasoning, But Only Barely

本研究提出多轮多智能体对话框架，利用视觉语言模型（VLM）在空间推理任务中的表现，发现其提升有限，主要受限于视觉空间地面化能力。

Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen

2026-05-29 61

cs.NE 2605.31299

Memristor-Based Spiking Neural Network Accelerator for Bio-inspired Interception Task

提出基于忆阻器的模拟突触-神经元集成的SNN加速器，能耗降低12.7倍，延迟减少1.26倍，适用于实时边缘智能。

Qianhou Qu, Sheng Lu, Liuting Shang 等

2026-05-29 86

cs.LG 2605.31261

Why Linear Recurrent Memory Works in Partially Observable Reinforcement Learning

提出线性递归记忆单元（ALF）在部分可观测强化学习中的理论基础，构建两类线性滤波器实现对信念状态的精确重建。

Yike Zhao, Onno Eberhard, Malek Khammassi 等

2026-05-29 79

cs.NE 2605.31051

Linear Ordering Problem: Time for a Change

引入基于最新真实经济数据的多解集生成方法，利用先进的元启发式算法优化线性排序问题，显著提升解的多样性与质量。

Fabrizio Fagiolo, Marco Baioletti, Valentino Santucci

2026-05-29 76

cs.CV 2605.30351

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

VideoMLA采用低秩潜在KV缓存，显著降低92.7%的内存，用于长时长视频生成，保持高质量。

Hidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral 等

2026-05-29 118

cs.CV 2605.30347

NeuROK: Generative 4D Neural Object Kinematics

NeuROK通过学习低维潜在空间实现4D动态模拟，利用变换器编码器-解码器架构在大规模数据集上训练，突破传统物理模型限制。

Chen Geng, Guangzhao He, Yue Gao 等

2026-05-29 59

cs.CL 2605.30348

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

本文提出LLMSurgeon，通过逆问题方法估算大规模语言模型的预训练数据域比例，实验在LLMScan基准上达94.46%的准确率。

Yaxin Luo, Jiacheng Cui, Xiaohan Zhao 等

2026-05-29 82

cs.CV 2605.30346

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

YoCausal利用逆向视频和认知科学启发的双层指标，评估13个视频扩散模型的因果理解能力。

You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee 等

2026-05-29 69

cs.AI 2605.30345

SchGen: PCB Schematic Generation with Semantic-Grounded Code Representations

提出SchGen模型，基于语义编码的PCB原理图生成，从自然语言请求到可编辑电路图，实现82%的有效电路率。

Qinpei Luo, Ruichun Ma, Xinyu Zhang 等

2026-05-29 240

cs.AI 2605.30344

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

提出VisAnomReasoner，通过微调大规模视觉-语言模型实现时间序列异常检测，Precision提升21.23%，F1提升23.87%。

Xiaona Zhou, Muntasir Wahed, Tianjiao Yu 等

2026-05-29 97

cs.CV 2605.30341

GPIC: A Giant Permissive Image Corpus for Visual Generation

引入GPIC，包含约280亿像素的庞大图像语料库，用于推动视觉生成模型的发展。

Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal 等

2026-05-29 51

cs.LG 2605.30337

Efficient Test-Time Finetuning of LLMs via Convex Reconstruction and Gradient Caching

提出HullFT，通过凸包重建与梯度缓存，实现大规模语言模型的高效测试时微调，提升速度与质量的平衡。

Alaa Khamis, Alaa Maalouf

2026-05-29 178

cs.CL 2605.30333

COMPOSE: Composing Future Theorems from Citations and Formal Structure

提出COMPOSE框架，结合科学引用图与形式定理依赖图，生成更具数学深度的未来定理，基于108K对数据集和47K未来论文测试。

David Busbib, Michael Werman

2026-05-29 92

cs.CL 2605.30295

MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings

提出MedCase-Structured，基于LLMs生成符合FHIR R4标准的临床数据集，用于诊断推理评估，82.5%的成功率。

Valentina Bui Muti, Eugénie Dulout, Ziquan Fu

2026-05-29 94

cs.LG 2605.30119

Evolving Features vs Evolving Entire Trees with GP for Interpretable Survival Analysis

利用多目标遗传编程演化特征集与树结构，提升生存分析模型的可解释性与预测性能，基于两份真实临床数据集。

Thalea Schlender, Peter A. N. Bosman, Tanja Alderliesten

2026-05-28 57

cs.LG 2605.29543

SCOPE: A Lightweight-training LLM Framework for Air Traffic Control Readback Monitoring

SCOPE采用开集插件分类器结合上下文学习，提升空中交通管制回读异常检测准确率至91.05%，实现低延迟响应。

Qihan Deng, Minghua Zhang, Yang Yang 等

2026-05-28 84

cs.CV 2605.28820

From Pixels to Words -- Towards Native One-Vision Models at Scale

提出NEO-ov，一种端到端无外部编码器的原生一体化视觉-语言模型，支持单图、多图和视频理解，显著提升细粒度感知与空间推理能力。

Haiwen Diao, Jiahao Wang, Penghao Wu 等

2026-05-28 93

cs.CL 2605.28814

Self-Improving Language Models with Bidirectional Evolutionary Search

提出双向进化搜索（BES）框架，结合正向候选演化与逆向目标分解，有效突破模型探索与验证的局限。

Guowei Xu, Zhenting Qi, Huangyuan Su 等

2026-05-28 165

cs.AI 2605.28807

Calibrating Conservatism for Scalable Oversight

提出CCO，通过集成多重监督信号，利用Conformal Decision Theory实现在线校准，确保AI系统行为符合预设安全目标。

William Overman, Mohsen Bayati

2026-05-28 122

cs.CV 2605.28806

Personal Visual Memory from Explicit and Implicit Evidence

提出VisualMem，结合结构化视觉记忆模块，有效增强个性化AI的长期视觉记忆能力，显著优于现有方法。

Viet Nguyen, Thao Nguyen, Vishal M. Patel 等

2026-05-28 127