Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

TL;DR

SciCrafter基于Minecraft评估AI从发现到应用的能力，当前模型成功率仅26%。

cs.AI 🔴 高级 2026-04-28 20 次浏览

Zhou Ziheng Huacong Tang Jinyuan Zhang Haowei Lin Bangcheng Yang Qian Long Fang Sun Yizhou Sun Yitao Liang Ying Nian Wu Demetri Terzopoulos Xiaofeng Gao

AI 阅读器 Arxiv 原文下载 PDF

人工智能因果发现应用开发模型评估 Minecraft

核心发现

方法论

本研究提出了SciCrafter，一个基于Minecraft的基准测试平台，用于评估AI从科学发现到实际应用的能力。通过参数化的红石电路任务，要求智能体以指定的模式点亮灯泡。研究使用了包括GPT-5.2、Gemini-3-Pro和Claude-Opus-4.5在内的前沿模型，分析了知识差距识别、实验发现、知识整合和应用四个能力环节。

关键结果

所有模型在成功率上均停滞于约26%，表明现有AI在从发现到应用的循环中存在显著瓶颈。
通过引入“科学家”子代理和知识整合方法，实验发现可以将成功率提高到64%。
知识应用能力仍是所有模型的主要瓶颈，但前沿模型在知识差距识别上也开始出现显著障碍。

研究意义

本研究通过SciCrafter平台，首次系统性地评估了AI在从科学发现到实际应用的能力。这一研究填补了评估AI综合智能能力的空白，为未来AI系统的开发提供了重要的诊断工具。通过识别现有模型的能力瓶颈，研究为改进AI的发现和应用能力提供了新的方向。

技术贡献

研究提出了一个新的基准测试平台SciCrafter，能够自动调整难度以评估AI的综合能力。通过将Minecraft作为测试环境，研究有效地隔离了科学探究和工程设计的核心认知过程。此外，研究设计了“科学家”子代理和知识整合方法，显著提升了智能体的发现能力。

新颖性

本研究首次将Minecraft用于评估AI的发现到应用能力，提出了一个可扩展的任务框架。与以往的研究不同，SciCrafter通过参数化任务设计，确保了评估的公平性和难度的可控性。

局限性

当前模型在知识应用能力上仍存在显著不足，尤其是在复杂任务中表现不佳。
研究环境虽然模拟了真实世界的复杂性，但仍无法完全替代真实的工程应用场景。
四个能力环节的干预措施效果并非完全独立，测量的能力差距应被视为边际贡献。

未来方向

未来的研究可以通过引入视觉输入来评估多模态能力，并支持环境动态的随机化以防止基于记忆的解决方案。此外，研究还可以探索如何进一步提升AI在知识识别和应用方面的能力。

AI 总览摘要

在人工智能领域，如何评估AI从科学发现到实际应用的能力一直是一个挑战。现有的评估方法往往无法有效地模拟这一复杂的循环过程。为了解决这一问题，研究团队开发了SciCrafter，一个基于Minecraft的基准测试平台，通过参数化的红石电路任务，要求智能体在指定的模式下点亮灯泡。该平台的设计确保了任务难度的可控性和评估的公平性。

研究评估了包括GPT-5.2、Gemini-3-Pro和Claude-Opus-4.5在内的前沿模型，发现所有模型的成功率均停滞在约26%。这一结果表明，现有AI在从发现到应用的循环中存在显著瓶颈。为了诊断这些瓶颈，研究将循环分解为知识差距识别、实验发现、知识整合和知识应用四个能力环节，并设计了针对性的干预措施。

实验结果显示，通过引入“科学家”子代理和知识整合方法，可以将成功率提高到64%。然而，知识应用能力仍是所有模型的主要瓶颈，尤其是在复杂任务中表现不佳。对于前沿模型，知识差距识别也开始成为一个显著障碍，表明瓶颈正在从解决问题转向提出正确的问题。

这一研究的意义在于，它首次系统性地评估了AI在从科学发现到实际应用的能力，为未来AI系统的开发提供了重要的诊断工具。通过识别现有模型的能力瓶颈，研究为改进AI的发现和应用能力提供了新的方向。

尽管研究取得了显著进展，但也存在一些局限性。当前的研究环境虽然模拟了真实世界的复杂性，但仍无法完全替代真实的工程应用场景。此外，四个能力环节的干预措施效果并非完全独立，测量的能力差距应被视为边际贡献。未来的研究可以通过引入视觉输入来评估多模态能力，并支持环境动态的随机化以防止基于记忆的解决方案。

深度分析

研究背景

在人工智能的研究中，评估AI从科学发现到实际应用的能力一直是一个具有挑战性的任务。传统的科学发现和工程应用之间存在巨大的复杂性差距，使得这一能力的评估变得异常困难。现有的评估方法往往无法有效地模拟这一复杂的循环过程，导致AI在实际应用中的表现不尽如人意。为了填补这一空白，研究团队开发了SciCrafter，一个基于Minecraft的基准测试平台，通过参数化的红石电路任务，要求智能体在指定的模式下点亮灯泡。该平台的设计确保了任务难度的可控性和评估的公平性。

核心问题

核心问题在于如何有效评估AI从科学发现到实际应用的能力。现有的评估方法往往无法模拟这一复杂的循环过程，导致AI在实际应用中的表现不佳。具体来说，AI在识别知识差距、进行实验发现、整合知识和应用知识方面存在显著瓶颈。这些瓶颈不仅限制了AI的表现，也阻碍了AI技术的进一步发展。

核心创新

本研究的核心创新在于：

�� 提出了SciCrafter，一个基于Minecraft的基准测试平台，通过参数化任务设计，确保了评估的公平性和难度的可控性。

�� 设计了“科学家”子代理和知识整合方法，显著提升了智能体的发现能力。

�� 将循环分解为知识差距识别、实验发现、知识整合和知识应用四个能力环节，并设计了针对性的干预措施。

这些创新不仅提升了AI的评估能力，也为未来AI系统的开发提供了重要的诊断工具。

方法详解

研究的方法论包括以下几个关键步骤：

�� 开发SciCrafter平台：基于Minecraft，通过参数化的红石电路任务，要求智能体在指定的模式下点亮灯泡。

�� 评估前沿模型：使用包括GPT-5.2、Gemini-3-Pro和Claude-Opus-4.5在内的前沿模型，分析其在不同任务中的表现。

�� 分解能力环节：将循环分解为知识差距识别、实验发现、知识整合和知识应用四个能力环节。

�� 设计干预措施：引入“科学家”子代理和知识整合方法，提升智能体的发现能力。

�� 数据分析：通过实验结果分析，识别现有模型的能力瓶颈，并提出改进建议。

实验设计

实验设计包括以下几个方面：

�� 数据集：使用SciCrafter平台生成的参数化红石电路任务。

�� 基线：评估包括GPT-5.2、Gemini-3-Pro和Claude-Opus-4.5在内的前沿模型。

�� 评估指标：成功率、知识差距识别能力、实验发现能力、知识整合能力和知识应用能力。

�� 超参数：任务难度、灯泡数量、点亮模式等。

�� 消融研究：通过引入“科学家”子代理和知识整合方法，分析其对成功率的影响。

结果分析

实验结果显示：

�� 所有模型的成功率均停滞在约26%，表明现有AI在从发现到应用的循环中存在显著瓶颈。

�� 通过引入“科学家”子代理和知识整合方法，可以将成功率提高到64%。

�� 知识应用能力仍是所有模型的主要瓶颈，尤其是在复杂任务中表现不佳。

�� 对于前沿模型，知识差距识别也开始成为一个显著障碍，表明瓶颈正在从解决问题转向提出正确的问题。

应用场景

本研究的应用场景包括：

�� AI系统的开发：通过识别现有模型的能力瓶颈，为改进AI的发现和应用能力提供了新的方向。

�� 教育和培训：SciCrafter平台可以用于评估和提升学生的科学发现和应用能力。

�� 工业应用：通过提升AI的综合能力，推动AI在工业应用中的广泛应用。

局限与展望

尽管研究取得了显著进展，但也存在一些局限性：

�� 当前的研究环境虽然模拟了真实世界的复杂性，但仍无法完全替代真实的工程应用场景。

�� 四个能力环节的干预措施效果并非完全独立，测量的能力差距应被视为边际贡献。

�� 未来的研究可以通过引入视觉输入来评估多模态能力，并支持环境动态的随机化以防止基于记忆的解决方案。

通俗解读非专业人士也能看懂

想象一下你在玩Minecraft，一个充满无限可能的游戏。你需要用红石电路来点亮灯泡，就像在现实中设计电路一样。这项任务不仅考验你的动手能力，还需要你理解电路的工作原理。现在，想象有一个聪明的机器人，它也在尝试完成这个任务。它需要通过不断尝试和学习，找到点亮灯泡的最佳方法。这就像在厨房里做饭，你需要尝试不同的配料和烹饪方法，才能做出美味的菜肴。而这个机器人就像一个学习中的厨师，它需要通过不断实验，找到最好的烹饪方法。这个过程不仅需要它理解每种配料的特性，还需要它能够将这些知识应用到实际的烹饪中。通过这样的学习和应用，它才能成为一个优秀的厨师。同样，这个机器人也需要通过不断的学习和实验，才能在Minecraft中成功点亮灯泡。这就是研究中所说的从发现到应用的过程。

简单解释像给14岁少年讲一样

嘿，小伙伴们！你们玩过Minecraft吗？想象一下，你需要用红石电路来点亮一排灯泡，就像在现实中设计电路一样。这听起来有点难，对吧？但别担心，我们有一个超级聪明的机器人助手，它会帮我们完成这个任务！

这个机器人就像一个学习中的小学生，它需要通过不断尝试和学习，找到点亮灯泡的最佳方法。就像在学校里学习新知识一样，它需要理解每个电路元件的作用，然后把这些知识应用到实际的任务中。

想象一下，你在玩一个新的游戏关卡，需要找到通关的秘诀。这个机器人就像你的游戏伙伴，它会帮你一起探索，找到最佳的通关策略。通过这样的学习和应用，它才能在Minecraft中成功点亮灯泡。

所以，下次你在玩Minecraft时，记得想象一下自己就是这个聪明的机器人助手，通过不断的学习和实验，成为游戏中的电路大师！

术语表

SciCrafter (科学工匠)

SciCrafter是一个基于Minecraft的基准测试平台，用于评估AI从科学发现到实际应用的能力。

用于评估AI在红石电路任务中的表现。

GPT-5.2

GPT-5.2是一个前沿的语言模型，用于自然语言处理任务。

作为评估对象之一，分析其在任务中的表现。

Gemini-3-Pro

Gemini-3-Pro是一个先进的AI模型，具有强大的推理和应用能力。

用于评估AI在知识应用能力上的表现。

Claude-Opus-4.5

Claude-Opus-4.5是一个高性能的AI模型，专注于复杂任务的解决。

作为评估对象之一，分析其在任务中的表现。

Redstone Circuit (红石电路)

红石电路是Minecraft中的一种机制，用于模拟现实中的电路设计。

用于评估AI在任务中的表现。

Knowledge Gap Identification (知识差距识别)

知识差距识别是指识别任务中需要探索和解决的知识空白。

作为能力环节之一，评估AI在任务中的表现。

Experimental Discovery (实验发现)

实验发现是指通过实验来验证假设和发现新知识的过程。

作为能力环节之一，评估AI在任务中的表现。

Knowledge Consolidation (知识整合)

知识整合是指将发现的知识整理和保存为可重复使用的形式。

作为能力环节之一，评估AI在任务中的表现。

Knowledge Application (知识应用)

知识应用是指将现有知识用于解决实际问题的能力。

作为能力环节之一，评估AI在任务中的表现。

Scientist Sub-Agent (科学家子代理)

科学家子代理是一种辅助AI模型进行实验发现的工具。

用于提高AI在实验发现能力上的表现。

开放问题这项研究留下的未解疑问

1 如何提高AI在复杂任务中的知识应用能力？现有模型在复杂任务中表现不佳，表明知识应用能力仍是主要瓶颈。需要进一步研究如何提升这一能力。
2 如何改进AI的知识差距识别能力？前沿模型在知识差距识别上也开始出现显著障碍，表明瓶颈正在从解决问题转向提出正确的问题。
3 如何在真实世界中应用SciCrafter平台？虽然平台模拟了真实世界的复杂性，但仍无法完全替代真实的工程应用场景。
4 如何提高AI的多模态能力？未来的研究可以通过引入视觉输入来评估多模态能力。
5 如何防止AI基于记忆的解决方案？支持环境动态的随机化可以防止基于记忆的解决方案，但需要进一步研究其有效性。

应用场景

近期应用

AI系统开发

通过识别现有模型的能力瓶颈，为改进AI的发现和应用能力提供了新的方向。

教育和培训

SciCrafter平台可以用于评估和提升学生的科学发现和应用能力。

工业应用

通过提升AI的综合能力，推动AI在工业应用中的广泛应用。

远期愿景

全面智能体

通过提升AI在知识识别和应用方面的能力，推动全面智能体的发展。

自动化科学发现

通过改进AI的实验发现能力，实现自动化的科学发现过程。

原文摘要

Discovering causal regularities and applying them to build functional systems--the discovery-to-application loop--is a hallmark of general intelligence, yet evaluating this capacity has been hindered by the vast complexity gap between scientific discovery and real-world engineering. We introduce SciCrafter, a Minecraft-based benchmark that operationalizes this loop through parameterized redstone circuit tasks. Agents must ignite lamps in specified patterns (e.g., simultaneously or in timed sequences); scaling target parameters substantially increases construction complexity and required knowledge, forcing genuine discovery rather than reliance on memorized solutions. Evaluating frontier models including GPT-5.2, Gemini-3-Pro, and Claude-Opus-4.5 under a general-purpose code agent scaffold, we find that all plateau at approximately 26% success rate. To diagnose these failures, we decompose the loop into four capacities--knowledge gap identification, experimental discovery, knowledge consolidation, and knowledge application--and design targeted interventions whose marginal contributions serve as proxies for corresponding gaps. Our analysis reveals that although the general knowledge application capability still remains as the biggest gap across all models, for frontier models the knowledge gap identification starts to become a major hurdle--indicating the bottleneck is shifting from solving problems right to raising the right problems for current AI. We release SciCrafter as a diagnostic probe for future research on AI systems that navigate the full discovery-to-application loop.

cs.AI

参考文献 (20)

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao, Jeffrey Zhao, Dian Yu 等

2022 7271 引用查看解读 →

Voyager: An Open-Ended Embodied Agent with Large Language Models

Guanzhi Wang, Yuqi Xie, Yunfan Jiang 等

2023 1513 引用查看解读 →

DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents

Peter Alexander Jansen, Marc-Alexandre Côté, Tushar Khot 等

2024 59 引用查看解读 →

TeamCraft: A Benchmark for Multi-Modal Multi-Agent Systems in Minecraft

Qian Long, Zhi Li, Ran Gong 等

2024 11 引用查看解读 →

MCU: An Evaluation Framework for Open-Ended Game Agents

Haowei Lin, Zihao Wang, Jianzhu Ma 等

2023 22 引用查看解读 →

A Survey on Code Generation with LLM-based Agents

Yihong Dong, Xue Jiang, Jiaru Qian 等

2025 87 引用查看解读 →

Causal inference by using invariant prediction: identification and confidence intervals

J. Peters, Peter Buhlmann, N. Meinshausen

2015 1121 引用查看解读 →

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

Qingyun Wu, Gagan Bansal, Jieyu Zhang 等

2023 1446 引用查看解读 →

How does thinking relate to tool making?

L. Malafouris

2020 42 引用

Geometry

K. Paranjape

1996 1336 引用

Mechanics

T. Mckeown

1970 1153 引用

A Rational Analysis of Rule-Based Concept Learning

Noah D. Goodman, J. Tenenbaum, J. Feldman 等

2008 435 引用

The Essential Role of Causality in Foundation World Models for Embodied AI

Tarun Gupta, Wenbo Gong, Chao Ma 等

2024 29 引用查看解读 →

Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

Wenlong Huang, P. Abbeel, Deepak Pathak 等

2022 1529 引用查看解读 →

MemGPT: Towards LLMs as Operating Systems

Charles Packer, Vivian Fang, Shishir G. Patil 等

2023 571 引用查看解读 →

Phoenics: A Bayesian Optimizer for Chemistry

F. Häse, L. Roch, C. Kreisbeck 等

2018 292 引用

DAGs with NO TEARS: Continuous Optimization for Structure Learning

Xun Zheng, Bryon Aragam, Pradeep Ravikumar 等

2018 1285 引用查看解读 →

STEVE-1: A Generative Model for Text-to-Behavior in Minecraft

Shalev Lifshitz, Keiran Paster, Harris Chan 等

2023 105 引用查看解读 →

Building Machines that Learn and Think Like People

J. Tenenbaum

2018 2115 引用

CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society

G. Li, Hasan Hammoud, Hani Itani 等

2023 367 引用

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

SciCrafter (科学工匠)

GPT-5.2

Gemini-3-Pro

Claude-Opus-4.5

Redstone Circuit (红石电路)

Knowledge Gap Identification (知识差距识别)

Experimental Discovery (实验发现)

Knowledge Consolidation (知识整合)

Knowledge Application (知识应用)

Scientist Sub-Agent (科学家子代理)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

AI系统开发

教育和培训

工业应用

远期愿景

全面智能体

自动化科学发现

原文摘要

参考文献 (20)

相关论文

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问