Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft
SciCrafter基于Minecraft评估AI从发现到应用的能力,当前模型成功率仅26%。
Zhou Ziheng, Huacong Tang, Jinyuan Zhang 等
SciCrafter基于Minecraft评估AI从发现到应用的能力,当前模型成功率仅26%。
Zhou Ziheng, Huacong Tang, Jinyuan Zhang 等
提出了一种基于LLM的评估框架,提升数学推理评估的准确性,超越符号数学的局限。
Erez Yosef, Oron Anschel, Shunit Haviv Hakimi 等
AgentSearchBench通过执行信号提高代理搜索排名质量,填补语义与性能之间的差距。
Bin Wu, Arastun Mammadli, Xiaoyu Zhang 等
A-MAR框架通过结构化推理计划提升艺术品多模态检索的解释质量。
Shuai Wang, Hongyi Zhu, Jia-Hong Huang 等
SafetyALFRED评估多模态大语言模型在厨房环境中的安全规划,发现模型在识别危险方面表现良好,但在风险缓解上成功率较低。
Josue Torres-Fonseca, Naihao Deng, Yinpei Dai 等
大型语言模型展现规范性从众行为,研究揭示其内在机制。
Mikako Bito, Keita Nishimoto, Kimitaka Asatani 等
MathNet提供了一个全球多模态数学推理和检索基准,涵盖47国的30,676道奥数题。
Shaden Alshammari, Kevin Wen, Abrar Zainal 等
BLF系统通过序列贝叶斯更新语言信念,在ForecastBench基准上实现了最先进的二元预测性能。
Kevin Murphy
ClawEnvKit自动生成爪状代理环境,降低成本13800倍。
Xirui Li, Ming Li, Derry Xu 等
提出DeepInsightTheorem框架,通过识别核心技术提升非正式定理证明,显著优于基线。
Yunhe Li, Hao Shi, Bowen Deng 等
使用CompCQ框架对LLM生成的能力问题进行跨领域分析,揭示其生成特征。
Reham Alharbi, Valentina Tamma, Terry R. Payne 等
研究表明,语言模型在最短路径问题上表现出强大的空间迁移能力,但在长度扩展上由于递归不稳定性而失败。
Yao Tong, Jiayuan Ye, Anastasia Borovykh 等
使用一致性分析和保形预测集诊断LLM评判可靠性,揭示33%-67%文档存在至少一个3-循环。
Manan Gupta, Dhruv Kumar
研究揭示LLMs和VLMs在无视觉信息下理解视点旋转的困难,提出VRUBench数据集并通过选择性微调提升性能。
Zhen Yang, Ping Jian, Zhongbin Guo 等
引入IRS框架,通过不一致-解决监督提升多模态幽默理解,72B模型在NYCC上接近专家水平。
Hatice Merve Vural, Doga Kukul, Ege Erdem Ozlu 等
通过政策引导的混合仿真框架,PGHS在美团上实现了8.80%的群体仿真误差。
Ziyang Chen, Renbing Chen, Daowei Li 等
HippoCamp基准测试评估多模态文件管理代理,揭示当前模型在用户环境中的局限性,最高准确率仅48.3%。
Zhe Yang, Shulin Tian, Kairui Hu 等
提出了一种马尔可夫框架,用于审计代理AI的可靠性和监督成本,提升了12.53%的状态-动作盲点质量。
Biplab Pal, Santanu Bhattacharya
OS-Themis框架在AndroidWorld上提升10.3%,通过多代理批判机制优化GUI奖励。
Zehao Li, Zhenyu Wu, Yibo Zhao 等
Box Maze框架通过内存锚定、结构化推理和边界执行三层结构,显著降低LLM推理错误率至1%。
Zou Qiang