Multi-Turn Multi-Agent Dialogue for Collaborative Reconstruction Improves VLM Performance on Spatial Reasoning, But Only Barely
本研究提出多轮多智能体对话框架,利用视觉语言模型(VLM)在空间推理任务中的表现,发现其提升有限,主要受限于视觉空间地面化能力。
Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen
本研究提出多轮多智能体对话框架,利用视觉语言模型(VLM)在空间推理任务中的表现,发现其提升有限,主要受限于视觉空间地面化能力。
Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen
提出基于忆阻器的模拟突触-神经元集成的SNN加速器,能耗降低12.7倍,延迟减少1.26倍,适用于实时边缘智能。
Qianhou Qu, Sheng Lu, Liuting Shang 等
提出线性递归记忆单元(ALF)在部分可观测强化学习中的理论基础,构建两类线性滤波器实现对信念状态的精确重建。
Yike Zhao, Onno Eberhard, Malek Khammassi 等
引入基于最新真实经济数据的多解集生成方法,利用先进的元启发式算法优化线性排序问题,显著提升解的多样性与质量。
Fabrizio Fagiolo, Marco Baioletti, Valentino Santucci
VideoMLA采用低秩潜在KV缓存,显著降低92.7%的内存,用于长时长视频生成,保持高质量。
Hidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral 等
NeuROK通过学习低维潜在空间实现4D动态模拟,利用变换器编码器-解码器架构在大规模数据集上训练,突破传统物理模型限制。
Chen Geng, Guangzhao He, Yue Gao 等
本文提出LLMSurgeon,通过逆问题方法估算大规模语言模型的预训练数据域比例,实验在LLMScan基准上达94.46%的准确率。
Yaxin Luo, Jiacheng Cui, Xiaohan Zhao 等
YoCausal利用逆向视频和认知科学启发的双层指标,评估13个视频扩散模型的因果理解能力。
You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee 等
提出SchGen模型,基于语义编码的PCB原理图生成,从自然语言请求到可编辑电路图,实现82%的有效电路率。
Qinpei Luo, Ruichun Ma, Xinyu Zhang 等
提出VisAnomReasoner,通过微调大规模视觉-语言模型实现时间序列异常检测,Precision提升21.23%,F1提升23.87%。
Xiaona Zhou, Muntasir Wahed, Tianjiao Yu 等
引入GPIC,包含约280亿像素的庞大图像语料库,用于推动视觉生成模型的发展。
Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal 等
提出HullFT,通过凸包重建与梯度缓存,实现大规模语言模型的高效测试时微调,提升速度与质量的平衡。
Alaa Khamis, Alaa Maalouf
提出COMPOSE框架,结合科学引用图与形式定理依赖图,生成更具数学深度的未来定理,基于108K对数据集和47K未来论文测试。
David Busbib, Michael Werman
提出MedCase-Structured,基于LLMs生成符合FHIR R4标准的临床数据集,用于诊断推理评估,82.5%的成功率。
Valentina Bui Muti, Eugénie Dulout, Ziquan Fu
利用多目标遗传编程演化特征集与树结构,提升生存分析模型的可解释性与预测性能,基于两份真实临床数据集。
Thalea Schlender, Peter A. N. Bosman, Tanja Alderliesten
SCOPE采用开集插件分类器结合上下文学习,提升空中交通管制回读异常检测准确率至91.05%,实现低延迟响应。
Qihan Deng, Minghua Zhang, Yang Yang 等
提出NEO-ov,一种端到端无外部编码器的原生一体化视觉-语言模型,支持单图、多图和视频理解,显著提升细粒度感知与空间推理能力。
Haiwen Diao, Jiahao Wang, Penghao Wu 等
提出双向进化搜索(BES)框架,结合正向候选演化与逆向目标分解,有效突破模型探索与验证的局限。
Guowei Xu, Zhenting Qi, Huangyuan Su 等
提出CCO,通过集成多重监督信号,利用Conformal Decision Theory实现在线校准,确保AI系统行为符合预设安全目标。
William Overman, Mohsen Bayati
提出VisualMem,结合结构化视觉记忆模块,有效增强个性化AI的长期视觉记忆能力,显著优于现有方法。
Viet Nguyen, Thao Nguyen, Vishal M. Patel 等