MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

TL;DR

MLEvolve是一种基于大语言模型的自我演化框架，用于端到端机器学习算法自动发现，在12小时预算内达成65.3%的奖牌率。

cs.AI 🔴 高级 2026-06-05 79 次浏览

Shangheng Du Xiangchao Yan Jinxin Shi Zongsheng Cao Shiyang Feng Zichen Liang Boyuan Sun Tianshuo Peng Yifan Zhou Xin Li Jie Zhou Liang He Bo Zhang Lei Bai

AI 阅读器 Arxiv 原文下载 PDF

自动机器学习多智能体系统图搜索经验回忆自我演化

核心发现

方法论

MLEvolve通过扩展树搜索至Progressive MCGS（渐进式蒙特卡洛图结构搜索），实现跨分支信息流通和逐步从广泛探索向深度利用的转变。核心包括图结构的交叉引用边，entropy启发的探索调度，以及结合静态领域知识库与动态全局记忆的Retrospective Memory。其Hierarchical Planning（层次规划）与自适应编码模式（full rewrite、stepwise、diff）分离战略决策与代码实现。系统在MLE-Bench上表现优异，达成平均奖牌率65.3%，在数学算法优化任务中超越AlphaEvolve，展现出跨领域泛化能力。

关键结果

在12小时预算下，MLEvolve在MLE-Bench上实现了65.3%的平均奖牌率，显著优于现有方法，体现出其高效的探索与利用能力。
在数学算法优化任务中，MLEvolve超越了AlphaEvolve，表现出强大的跨域适应性，验证了其在不同任务场景中的泛化潜力。
通过引入Progressive MCGS和Retrospective Memory，有效解决了传统方法中的信息隔离、无记忆搜索和缺乏层次控制的问题，提升了搜索稳定性和效率。

研究意义

该研究突破了自动机器学习中长远优化的瓶颈，提出的多智能体自我演化框架不仅提升了算法发现的效率和效果，还为未来自主AI系统的长周期自我改进提供了理论基础和实践路径。其跨域能力表明，未来可在科学研究、工业自动化、复杂系统优化等多个领域实现更智能、更自主的AI应用，推动AI向更高层次的自主演化迈进。

技术贡献

论文提出了Progressive MCGS，结合图结构的跨分支信息流和渐进式探索调度，创新性地解决了信息隔离和探索效率问题。引入Retrospective Memory，实现经验的自动积累与重用，突破了传统无记忆搜索的限制。层次规划与自适应编码模式的结合，增强了代码生成的稳定性和可控性。这些技术创新共同推动了端到端机器学习自动化的边界，为复杂长远优化提供了新工具和理论支持。

新颖性

本研究首次将Progressive MCGS引入自动算法发现领域，突破了传统树搜索的局限，实现跨分支信息共享和渐进探索策略。结合Retrospective Memory，自动积累和利用搜索经验，显著提升搜索效率和稳定性。层次化的规划与编码模式的解耦，提供了更灵活的解决方案。这些创新共同构建了一个全新的自我演化、多智能体、多层次的自动ML算法发现框架，具有重要的理论和应用价值。

局限性

当前方法在极端复杂或高维搜索空间中仍可能面临探索瓶颈，尤其是在有限时间预算内难以保证全局最优。
对大规模知识库和记忆系统的依赖可能带来存储与检索的效率挑战，特别是在实际工业场景中需要优化存储结构。
模型在某些特定任务上的表现仍受限于LLM的能力，未来需结合更强的推理和知识融合机制。

未来方向

未来可以结合强化学习与自我监督机制，进一步提升探索策略的智能化水平。扩展多模态信息融合，增强模型在多样化任务中的适应性。优化知识库和记忆系统的存储与检索效率，实现更大规模的自动算法搜索。探索多智能体协作与迁移学习，推动自我演化框架在更复杂、动态环境中的应用。

AI 总览摘要

在人工智能快速发展的背景下，自动化设计高性能机器学习算法成为研究热点。传统方法依赖大量人工经验和繁琐调优，难以满足复杂任务的需求。近年来，基于大语言模型（LLMs）的智能代理系统逐渐崭露头角，展现出在长远任务中的潜力。然而，现有的自动机器学习（AutoML）和算法发现方法仍面临信息隔离、缺乏记忆和层次控制等瓶颈，限制了其自我演化能力的持续提升。

为突破这些限制，本文提出了MLEvolve，一种基于LLM的自我演化多智能体框架，旨在实现端到端的机器学习算法自动发现。该框架核心包括Progressive MCGS（渐进式蒙特卡洛图结构搜索），通过引入图结构的交叉引用边，打破了传统树搜索中的信息孤岛，实现跨分支信息共享。同时，采用entropy启发的渐进式探索调度，从广泛探索逐步转向深度利用，有效提升搜索效率。

此外，MLEvolve引入Retrospective Memory（回顾性记忆），结合静态领域知识库和动态全局记忆，实现经验的自动积累与重用。该机制使系统在长时间搜索过程中不断优化自身策略，避免重复劳动。为了增强代码生成的稳定性和可控性，框架还设计了层次化规划与自适应编码模式，将战略决策与具体实现解耦，支持全重写、逐步生成和差异化编辑三种模式。

在MLE-Bench和数学算法优化任务中的实验结果显示，MLEvolve在12小时预算内达到了65.3%的奖牌率，显著优于现有方法，包括AlphaEvolve。其跨域泛化能力也得到了验证，展示了在不同任务场景中的潜力。这一研究不仅推动了自动算法发现的技术边界，也为未来自主AI系统的长周期演化提供了理论基础和实践路径。

综上所述，MLEvolve通过创新的图结构搜索、经验回忆机制和层次化控制，解决了长远优化中的关键难题，为自动化AI系统的自主演化开辟了新方向。未来，结合强化学习、多模态信息融合和多智能体协作，有望实现更智能、更高效的自主AI系统，推动人工智能迈向更高的自主性和适应性。

深度分析

研究背景

随着人工智能技术的不断演进，自动化设计高性能机器学习算法逐渐成为研究热点。早期的AutoML方法如Auto-WEKA、TPOT通过超参数优化和模型选择实现了部分自动化，但仍依赖大量人工经验和繁琐调优。近年来，基于深度学习和强化学习的自动算法搜索方法如Neural Architecture Search（NAS）和强化学习驱动的AutoML框架（如Google的AutoML）极大提升了自动化水平。特别是，利用大规模预训练模型（如GPT系列）构建的智能代理系统，开始在长远任务中展现出自主演化的潜力。代表性工作包括AlphaEvolve、ML-Master等，它们通过树搜索、演化算法和多智能体协作探索候选方案。然而，这些方法普遍面临信息孤岛、经验缺失和缺乏层次控制的问题，限制了其在复杂长周期任务中的表现。随着对自主AI系统需求的增长，研究者开始关注如何实现系统的持续自我改进和跨域泛化，推动了本研究的提出。

核心问题

现有的自动算法发现方法在长远优化中存在三大难题：一是信息孤岛，分支间缺乏有效交流，导致成功策略难以在不同路径中迁移；二是缺乏记忆机制，无法积累和重用过去的经验，重复探索低效；三是缺少层次控制，代码生成多为一体化，缺乏对策略和实现的区分，影响搜索的稳定性和效率。这些问题在复杂、多任务、多阶段的机器学习工程中尤为突出，严重制约了自动算法发现的效果和泛化能力。解决这些瓶颈，成为实现自主长周期优化的关键。

核心创新

本研究的核心创新包括：

�� Progressive MCGS：引入图结构的交叉引用边，实现跨分支信息共享，结合entropy启发的渐进式探索调度，从广泛探索逐步转向深度利用，有效提升搜索效率和稳定性。
�� Retrospective Memory：结合静态领域知识库和动态全局记忆，自动积累和重用搜索经验，避免重复探索，增强系统的自主学习能力。
�� 层次规划与自适应编码：将战略规划与代码实现解耦，支持全重写、逐步生成和差异化编辑三种模式，提升代码生成的稳定性和可控性。这些创新共同推动了端到端机器学习自动发现的技术边界，为复杂任务的长远优化提供了新思路。

方法详解

�� 构建搜索空间：将候选解决方案组织为有向图，节点代表完整的ML流程，边包括生成关系（E_T）和引用关系（E_ref）。
�� Progressive MCGS：在选择阶段，采用UCT准则结合信息熵调度，动态调整探索策略，从而在搜索过程中逐步从探索转向利用。
�� 图结构扩展：引入交叉引用边，支持跨分支信息流动和方案融合，增强搜索的多样性和效率。
�� 经验回忆机制：结合静态知识库和动态全局记忆，利用FAISS和RRF实现高效检索，支持任务相关的经验积累与重用。
�� 层次化规划：将策略决策与代码生成分离，采用全重写、逐步和差异化三种编码模式，根据搜索状态自适应选择。
�� 实验设计：在MLE-Bench和数学优化任务上进行评估，比较多种基线，包括AlphaEvolve，采用奖牌率、提交率等指标，验证方法的有效性。

实验设计

实验采用两个主要基准：MLE-Bench（包含75个Kaggle任务，覆盖低、中、高复杂度）和AlphaEvolve的数学优化任务（15个实例）。在硬件方面，使用Gemini-3.1-Pro模型，配置21 vCPU、234GB内存和NVIDIA H200 GPU。每个任务设置最大500次扩展，时间限制为12小时。评估指标包括奖牌率、有效提交率和任务成功率。对比方法涵盖多种AutoML框架和算法发现工具，进行ablation研究验证Progressive MCGS、Retrospective Memory和层次规划的贡献。超参数调优通过验证集实现，确保公平性和稳定性。

结果分析

在12小时预算下，MLEvolve在MLE-Bench上实现了65.3%的平均奖牌率，优于所有对比方法，显示出其在长时间探索中的优势。数学优化任务中，MLEvolve超越AlphaEvolve，表现出更高的成功率和更优的解质量。引入Progressive MCGS显著提升了搜索效率，减少了无效探索；Retrospective Memory增强了经验利用，降低了重复劳动；层次化编码提升了代码生成的稳定性。这些结果验证了框架设计的有效性和实用性。

应用场景

该方法适用于自动化机器学习流程设计、科学研究中的算法探索、工业中的模型优化等场景。只需提供任务描述和基础数据，系统即可自主探索最优方案，减少人工干预。未来，结合自动化硬件调度和多模态数据输入，有望实现全自动化的AI系统设计，推动智能制造、科研创新和个性化服务的发展。

局限与展望

尽管取得了显著进展，MLEvolve在极端复杂或高维空间中仍可能遇到探索瓶颈，尤其在有限时间内难以保证全局最优。对大规模知识库的存储和检索效率提出挑战，可能影响实际应用的响应速度。此外，模型在某些特定任务上仍受限于LLM的推理能力，未来需结合更强的知识融合和推理机制以提升表现。

通俗解读非专业人士也能看懂

想象你在经营一家非常复杂的工厂，这个工厂每天要生产各种不同的产品。以前，你需要依靠经验丰富的工人手工设计每个生产流程，试错不断调整，才能找到最优的生产线。而现在，有了一个聪明的机器人助手，它可以自己学习，观察工厂的每个环节，记住哪些方法效果好，哪些会出错。这个机器人还能通过网络与其他工厂的机器人交流，借鉴他们的成功经验。它会不断尝试不同的生产方案，从一开始的粗略设计，到逐步优化，直到找到最合适的流程。这个机器人还会把所有的经验都记下来，随时可以调用，避免重复试错。它会根据不同的任务，调整自己的策略，比如有时候需要快速试验，有时候要细心打磨。最终，这个机器人可以自主不断改进工厂的生产效率，甚至能在不同类型的工厂中都表现出色。这就像MLEvolve一样，是一个能自己学习、不断优化的智能系统，帮助我们自动发现最好的解决方案。

简单解释像给14岁少年讲一样

想象你在玩一个超级复杂的游戏，你需要设计一条完美的路线才能赢得比赛。以前，你可能会试很多次，记住哪些路线好，哪些不好，然后慢慢改进。这很费时间，也很容易走弯路。现在，有一个聪明的机器人助手，它可以自己学习，记住之前试过的路线，知道哪些策略更有效。它会一开始试很多不同的路线，像在探索未知的世界一样，然后逐渐集中在那些看起来更有希望的路线。这个机器人还能和其他机器人交流，借鉴他们的好点子。它会不断调整自己的策略，记住哪些方法成功了，哪些失败了。最厉害的是，它还能把所有的经验都存下来，随时调用，避免重复犯错。这样，它就能越来越聪明，找到最短、最快的路线，赢得比赛。这就像论文里的MLEvolve一样，是一个能自己学习、不断变得更聪明的系统，帮助我们自动找到最好的解决方案。

术语表

Large Language Model (LLM) (大规模语言模型)

一种基于深度学习的模型，能理解和生成自然语言，支持复杂的推理和生成任务。在论文中用于驱动智能代理的核心技术。

作为MLEvolve的基础，提供规划和代码生成能力。

Progressive MCGS (渐进式蒙特卡洛图结构搜索)

一种结合图结构的蒙特卡洛树搜索，支持跨分支信息共享和渐进探索策略，提升搜索效率和稳定性。

核心搜索机制，解决信息隔离问题。

Retrospective Memory (回顾性记忆)

结合静态知识库和动态经验存储的记忆系统，用于自动积累和重用搜索经验。

提升搜索的长远优化能力。

Hierarchical Planning (层次规划)

将策略决策与代码实现分离，支持多层次、模块化的方案设计。

增强代码生成的稳定性和可控性。

Adaptive Coding Modes (自适应编码模式)

根据搜索状态选择全重写、逐步生成或差异化编辑三种不同的代码生成方式。

提升代码优化效率。

Entropy-inspired Schedule (熵启发调度)

利用信息熵变化引导探索策略，从广泛探索逐步转向深度利用。

实现渐进式探索调控。

Knowledge Base (知识库)

存储领域知识和模型信息的系统，用于初始化和指导搜索。

支持冷启动和经验引导。

Graph-based Search (基于图的搜索)

利用有向图结构实现候选方案的生成、引用和融合，支持跨分支信息流动。

提升搜索的多样性和效率。

FAISS (Facebook AI Similarity Search)

一种高效的相似性搜索库，用于大规模向量检索。

实现经验的快速检索。

Reciprocal Rank Fusion (RRF)

一种融合多源检索结果的排序方法，用于提升检索质量。

结合不同检索方式的经验记录。

AutoML (自动机器学习)

自动化设计和优化机器学习模型的技术，减少人工干预。

论文的应用背景。

AlphaEvolve

一种专注于数学算法优化的自动算法发现方法，作为对比基线。

验证MLEvolve的跨域能力。

开放问题这项研究留下的未解疑问

1 尽管MLEvolve在多任务、多领域表现出色，但在极端复杂或高维空间中，探索效率仍有待提升，特别是在有限时间内保证全局最优的能力不足。未来需要结合强化学习和更高效的搜索策略，增强系统的自适应能力。
2 经验回忆机制虽然实现了经验的自动积累，但在大规模知识库的存储、检索和更新方面仍面临效率瓶颈，尤其是在实际工业场景中，存储结构和检索算法的优化亟需加强。
3 模型在某些特定任务上的表现仍受限于LLM的推理和知识融合能力，未来应结合更强的知识图谱、多模态信息和推理机制，提升系统的泛化和推理能力。
4 当前方法主要在模拟环境和标准基准上验证，实际应用中的鲁棒性和适应性仍需进一步测试和优化。
5 如何在保证搜索效率的同时，增强系统的解释性和可控性，也是未来研究的重要方向。

应用场景

近期应用

自动化模型设计平台

企业和科研机构可以利用MLEvolve自动设计和优化机器学习模型，减少人工调参时间，提高模型性能，适用于金融、医疗、工业等行业。

科学研究中的算法探索

科研人员可以借助该框架快速探索新算法或优化方案，加速科研进程，特别是在复杂数据分析和模拟任务中。

智能工业自动化

工业生产中，自动优化工艺流程和控制策略，提升生产效率和产品质量，减少人工干预。

远期愿景

自主AI系统的长周期演化

未来，系统可以在不断的任务中自主学习和优化，实现持续的自我改进，逐步接近真正的自主智能体。

跨领域智能系统

实现不同领域间的知识迁移和算法泛化，推动AI在科学、工程、医疗等多行业的深度融合与应用。

原文摘要

Large language model (LLM) agents are increasingly applied to long-horizon tasks such as scientific discovery and machine learning engineering (MLE), where sustained self-evolution becomes a key capability. However, existing MLE agents suffer from inter-branch information isolation, memoryless search, and lack of hierarchical control, which together hinder long-horizon optimization. We present MLEvolve, an LLM-based self-evolving multi-agent framework for end-to-end machine learning algorithm discovery. By extending tree search to Progressive MCGS, MLEvolve enables cross-branch information flow through graph-based reference edges and gradually shifts the search from broad exploration to focused exploitation with an entropy-inspired progressive schedule. To allow the agent to evolve with accumulated experience, we introduce Retrospective Memory, which combines a cold-start domain knowledge base with a dynamic global memory for task-specific experience retrieval and reuse. For stable long-horizon iteration, we further decouple strategic planning from code generation with adaptive coding modes. Evaluation on MLE-Bench shows that MLEvolve achieves state-of-the-art performance across multiple dimensions including average medal rate and valid submission rate under a 12-hour budget (half the standard runtime). Moreover, MLEvolve also outperforms specialized algorithm discovery methods including AlphaEvolve on mathematical algorithm optimization tasks, demonstrating strong cross-domain generalization. Our code is available at https://github.com/InternScience/MLEvolve.

cs.AI cs.CL

参考文献 (20)

The FM Agent

Annan Li, Chufan Wu, Z. Ge 等

2025 13 引用查看解读 →

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Jun Shern Chan, Neil Chowdhury, Oliver Jaffe 等

2024 247 引用查看解读 →

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

Xinyu Zhu, Yuzhu Cai, Zexi Liu 等

2026 18 引用查看解读 →

Mathematical exploration and discovery at scale

Bogdan Georgiev, Javier G'omez-Serrano, Terence Tao 等

2025 58 引用查看解读 →

LocAgent: Graph-Guided LLM Agents for Code Localization

Zhaoling Chen, Xiangru Tang, Gangda Deng 等

2025 65 引用查看解读 →

AIBuildAI: An AI Agent for Automatically Building AI Models

Ruiyi Zhang, Peijia Qin, Qingmei Cao 等

2026 2 引用查看解读 →

A Survey on the Memory Mechanism of Large Language Model-based Agents

Zeyu Zhang, Quanyu Dai, Xiaohe Bo 等

2024 568 引用查看解读 →

Towards end-to-end automation of AI research

Chris Lu, Cong Lu, R. Lange 等

2026 71 引用

AI and science: what 1,600 researchers think

Richard Van Noorden, Jeffrey Perkel

2023 291 引用

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

Qian Huang, Jian Vora, Percy Liang 等

2023 234 引用查看解读 →

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

Shiyang Feng, Runmin Ma, Xiang-yu Yan 等

2026 18 引用查看解读 →

AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents

Shangheng Du, Xiangchao Yan, Dengyang Jiang 等

2025 12 引用查看解读 →

AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

Edan Toledo, Karen Hambardzumyan, Martin Josifoski 等

2025 34 引用查看解读 →

R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science

Xu Yang, Xiao Yang, Shikai Fang 等

2025 19 引用查看解读 →

MARS: Modular Agent with Reflective Search for Automated AI Research

Jiefeng Chen, Bhavana Dalvi, Jaehyun Nam 等

2026 8 引用查看解读 →

Monte-Carlo Graph Search: the Value of Merging Similar States

Edouard Leurent, Odalric-Ambrym Maillard

2020 22 引用

KAPSO: A Knowledge-grounded framework for Autonomous Program Synthesis and Optimization

Alireza Nadafian, Alireza Mohammadshahi, Majid Yazdani

2026 5 引用查看解读 →

AlphaEvolve: A coding agent for scientific and algorithmic discovery

Alexander Novikov, Ngân V˜u, Marvin Eisenberger 等

2025 529 引用查看解读 →

Software Engineering for Machine Learning: A Case Study

Saleema Amershi, Andrew Begel, C. Bird 等

2019 998 引用

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Yifei Zhang, Xu Yang, Xiao Yang 等

2026 2 引用查看解读 →

MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Large Language Model (LLM) (大规模语言模型)

Progressive MCGS (渐进式蒙特卡洛图结构搜索)

Retrospective Memory (回顾性记忆)

Hierarchical Planning (层次规划)

Adaptive Coding Modes (自适应编码模式)

Entropy-inspired Schedule (熵启发调度)

Knowledge Base (知识库)

Graph-based Search (基于图的搜索)

FAISS (Facebook AI Similarity Search)

Reciprocal Rank Fusion (RRF)

AutoML (自动机器学习)

AlphaEvolve

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动化模型设计平台

科学研究中的算法探索

智能工业自动化

远期愿景

自主AI系统的长周期演化

跨领域智能系统

原文摘要

参考文献 (20)

相关论文

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

Multi-Agent Transactive Memory

DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

Abstracting Cross-Domain Action Sequences into Interpretable Workflows

Automated reproducibility assessments in the social and behavioral sciences using large language models

The Role of Feedback Alignment in Self-Distillation

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问