MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery
MLEvolve是一种基于大语言模型的自我演化框架,用于端到端机器学习算法自动发现,在12小时预算内达成65.3%的奖牌率。
核心发现
方法论
MLEvolve通过扩展树搜索至Progressive MCGS(渐进式蒙特卡洛图结构搜索),实现跨分支信息流通和逐步从广泛探索向深度利用的转变。核心包括图结构的交叉引用边,entropy启发的探索调度,以及结合静态领域知识库与动态全局记忆的Retrospective Memory。其Hierarchical Planning(层次规划)与自适应编码模式(full rewrite、stepwise、diff)分离战略决策与代码实现。系统在MLE-Bench上表现优异,达成平均奖牌率65.3%,在数学算法优化任务中超越AlphaEvolve,展现出跨领域泛化能力。
关键结果
- 在12小时预算下,MLEvolve在MLE-Bench上实现了65.3%的平均奖牌率,显著优于现有方法,体现出其高效的探索与利用能力。
- 在数学算法优化任务中,MLEvolve超越了AlphaEvolve,表现出强大的跨域适应性,验证了其在不同任务场景中的泛化潜力。
- 通过引入Progressive MCGS和Retrospective Memory,有效解决了传统方法中的信息隔离、无记忆搜索和缺乏层次控制的问题,提升了搜索稳定性和效率。
研究意义
该研究突破了自动机器学习中长远优化的瓶颈,提出的多智能体自我演化框架不仅提升了算法发现的效率和效果,还为未来自主AI系统的长周期自我改进提供了理论基础和实践路径。其跨域能力表明,未来可在科学研究、工业自动化、复杂系统优化等多个领域实现更智能、更自主的AI应用,推动AI向更高层次的自主演化迈进。
技术贡献
论文提出了Progressive MCGS,结合图结构的跨分支信息流和渐进式探索调度,创新性地解决了信息隔离和探索效率问题。引入Retrospective Memory,实现经验的自动积累与重用,突破了传统无记忆搜索的限制。层次规划与自适应编码模式的结合,增强了代码生成的稳定性和可控性。这些技术创新共同推动了端到端机器学习自动化的边界,为复杂长远优化提供了新工具和理论支持。
新颖性
本研究首次将Progressive MCGS引入自动算法发现领域,突破了传统树搜索的局限,实现跨分支信息共享和渐进探索策略。结合Retrospective Memory,自动积累和利用搜索经验,显著提升搜索效率和稳定性。层次化的规划与编码模式的解耦,提供了更灵活的解决方案。这些创新共同构建了一个全新的自我演化、多智能体、多层次的自动ML算法发现框架,具有重要的理论和应用价值。
局限性
- 当前方法在极端复杂或高维搜索空间中仍可能面临探索瓶颈,尤其是在有限时间预算内难以保证全局最优。
- 对大规模知识库和记忆系统的依赖可能带来存储与检索的效率挑战,特别是在实际工业场景中需要优化存储结构。
- 模型在某些特定任务上的表现仍受限于LLM的能力,未来需结合更强的推理和知识融合机制。
未来方向
未来可以结合强化学习与自我监督机制,进一步提升探索策略的智能化水平。扩展多模态信息融合,增强模型在多样化任务中的适应性。优化知识库和记忆系统的存储与检索效率,实现更大规模的自动算法搜索。探索多智能体协作与迁移学习,推动自我演化框架在更复杂、动态环境中的应用。
AI 总览摘要
在人工智能快速发展的背景下,自动化设计高性能机器学习算法成为研究热点。传统方法依赖大量人工经验和繁琐调优,难以满足复杂任务的需求。近年来,基于大语言模型(LLMs)的智能代理系统逐渐崭露头角,展现出在长远任务中的潜力。然而,现有的自动机器学习(AutoML)和算法发现方法仍面临信息隔离、缺乏记忆和层次控制等瓶颈,限制了其自我演化能力的持续提升。
为突破这些限制,本文提出了MLEvolve,一种基于LLM的自我演化多智能体框架,旨在实现端到端的机器学习算法自动发现。该框架核心包括Progressive MCGS(渐进式蒙特卡洛图结构搜索),通过引入图结构的交叉引用边,打破了传统树搜索中的信息孤岛,实现跨分支信息共享。同时,采用entropy启发的渐进式探索调度,从广泛探索逐步转向深度利用,有效提升搜索效率。
此外,MLEvolve引入Retrospective Memory(回顾性记忆),结合静态领域知识库和动态全局记忆,实现经验的自动积累与重用。该机制使系统在长时间搜索过程中不断优化自身策略,避免重复劳动。为了增强代码生成的稳定性和可控性,框架还设计了层次化规划与自适应编码模式,将战略决策与具体实现解耦,支持全重写、逐步生成和差异化编辑三种模式。
在MLE-Bench和数学算法优化任务中的实验结果显示,MLEvolve在12小时预算内达到了65.3%的奖牌率,显著优于现有方法,包括AlphaEvolve。其跨域泛化能力也得到了验证,展示了在不同任务场景中的潜力。这一研究不仅推动了自动算法发现的技术边界,也为未来自主AI系统的长周期演化提供了理论基础和实践路径。
综上所述,MLEvolve通过创新的图结构搜索、经验回忆机制和层次化控制,解决了长远优化中的关键难题,为自动化AI系统的自主演化开辟了新方向。未来,结合强化学习、多模态信息融合和多智能体协作,有望实现更智能、更高效的自主AI系统,推动人工智能迈向更高的自主性和适应性。
深度分析
研究背景
随着人工智能技术的不断演进,自动化设计高性能机器学习算法逐渐成为研究热点。早期的AutoML方法如Auto-WEKA、TPOT通过超参数优化和模型选择实现了部分自动化,但仍依赖大量人工经验和繁琐调优。近年来,基于深度学习和强化学习的自动算法搜索方法如Neural Architecture Search(NAS)和强化学习驱动的AutoML框架(如Google的AutoML)极大提升了自动化水平。特别是,利用大规模预训练模型(如GPT系列)构建的智能代理系统,开始在长远任务中展现出自主演化的潜力。代表性工作包括AlphaEvolve、ML-Master等,它们通过树搜索、演化算法和多智能体协作探索候选方案。然而,这些方法普遍面临信息孤岛、经验缺失和缺乏层次控制的问题,限制了其在复杂长周期任务中的表现。随着对自主AI系统需求的增长,研究者开始关注如何实现系统的持续自我改进和跨域泛化,推动了本研究的提出。
核心问题
现有的自动算法发现方法在长远优化中存在三大难题:一是信息孤岛,分支间缺乏有效交流,导致成功策略难以在不同路径中迁移;二是缺乏记忆机制,无法积累和重用过去的经验,重复探索低效;三是缺少层次控制,代码生成多为一体化,缺乏对策略和实现的区分,影响搜索的稳定性和效率。这些问题在复杂、多任务、多阶段的机器学习工程中尤为突出,严重制约了自动算法发现的效果和泛化能力。解决这些瓶颈,成为实现自主长周期优化的关键。
核心创新
本研究的核心创新包括:
- �� Progressive MCGS:引入图结构的交叉引用边,实现跨分支信息共享,结合entropy启发的渐进式探索调度,从广泛探索逐步转向深度利用,有效提升搜索效率和稳定性。
- �� Retrospective Memory:结合静态领域知识库和动态全局记忆,自动积累和重用搜索经验,避免重复探索,增强系统的自主学习能力。
- �� 层次规划与自适应编码:将战略规划与代码实现解耦,支持全重写、逐步生成和差异化编辑三种模式,提升代码生成的稳定性和可控性。这些创新共同推动了端到端机器学习自动发现的技术边界,为复杂任务的长远优化提供了新思路。
方法详解
- �� 构建搜索空间:将候选解决方案组织为有向图,节点代表完整的ML流程,边包括生成关系(E_T)和引用关系(E_ref)。
- �� Progressive MCGS:在选择阶段,采用UCT准则结合信息熵调度,动态调整探索策略,从而在搜索过程中逐步从探索转向利用。
- �� 图结构扩展:引入交叉引用边,支持跨分支信息流动和方案融合,增强搜索的多样性和效率。
- �� 经验回忆机制:结合静态知识库和动态全局记忆,利用FAISS和RRF实现高效检索,支持任务相关的经验积累与重用。
- �� 层次化规划:将策略决策与代码生成分离,采用全重写、逐步和差异化三种编码模式,根据搜索状态自适应选择。
- �� 实验设计:在MLE-Bench和数学优化任务上进行评估,比较多种基线,包括AlphaEvolve,采用奖牌率、提交率等指标,验证方法的有效性。
实验设计
实验采用两个主要基准:MLE-Bench(包含75个Kaggle任务,覆盖低、中、高复杂度)和AlphaEvolve的数学优化任务(15个实例)。在硬件方面,使用Gemini-3.1-Pro模型,配置21 vCPU、234GB内存和NVIDIA H200 GPU。每个任务设置最大500次扩展,时间限制为12小时。评估指标包括奖牌率、有效提交率和任务成功率。对比方法涵盖多种AutoML框架和算法发现工具,进行ablation研究验证Progressive MCGS、Retrospective Memory和层次规划的贡献。超参数调优通过验证集实现,确保公平性和稳定性。
结果分析
在12小时预算下,MLEvolve在MLE-Bench上实现了65.3%的平均奖牌率,优于所有对比方法,显示出其在长时间探索中的优势。数学优化任务中,MLEvolve超越AlphaEvolve,表现出更高的成功率和更优的解质量。引入Progressive MCGS显著提升了搜索效率,减少了无效探索;Retrospective Memory增强了经验利用,降低了重复劳动;层次化编码提升了代码生成的稳定性。这些结果验证了框架设计的有效性和实用性。
应用场景
该方法适用于自动化机器学习流程设计、科学研究中的算法探索、工业中的模型优化等场景。只需提供任务描述和基础数据,系统即可自主探索最优方案,减少人工干预。未来,结合自动化硬件调度和多模态数据输入,有望实现全自动化的AI系统设计,推动智能制造、科研创新和个性化服务的发展。
局限与展望
尽管取得了显著进展,MLEvolve在极端复杂或高维空间中仍可能遇到探索瓶颈,尤其在有限时间内难以保证全局最优。对大规模知识库的存储和检索效率提出挑战,可能影响实际应用的响应速度。此外,模型在某些特定任务上仍受限于LLM的推理能力,未来需结合更强的知识融合和推理机制以提升表现。
通俗解读 非专业人士也能看懂
想象你在经营一家非常复杂的工厂,这个工厂每天要生产各种不同的产品。以前,你需要依靠经验丰富的工人手工设计每个生产流程,试错不断调整,才能找到最优的生产线。而现在,有了一个聪明的机器人助手,它可以自己学习,观察工厂的每个环节,记住哪些方法效果好,哪些会出错。这个机器人还能通过网络与其他工厂的机器人交流,借鉴他们的成功经验。它会不断尝试不同的生产方案,从一开始的粗略设计,到逐步优化,直到找到最合适的流程。这个机器人还会把所有的经验都记下来,随时可以调用,避免重复试错。它会根据不同的任务,调整自己的策略,比如有时候需要快速试验,有时候要细心打磨。最终,这个机器人可以自主不断改进工厂的生产效率,甚至能在不同类型的工厂中都表现出色。这就像MLEvolve一样,是一个能自己学习、不断优化的智能系统,帮助我们自动发现最好的解决方案。
简单解释 像给14岁少年讲一样
想象你在玩一个超级复杂的游戏,你需要设计一条完美的路线才能赢得比赛。以前,你可能会试很多次,记住哪些路线好,哪些不好,然后慢慢改进。这很费时间,也很容易走弯路。现在,有一个聪明的机器人助手,它可以自己学习,记住之前试过的路线,知道哪些策略更有效。它会一开始试很多不同的路线,像在探索未知的世界一样,然后逐渐集中在那些看起来更有希望的路线。这个机器人还能和其他机器人交流,借鉴他们的好点子。它会不断调整自己的策略,记住哪些方法成功了,哪些失败了。最厉害的是,它还能把所有的经验都存下来,随时调用,避免重复犯错。这样,它就能越来越聪明,找到最短、最快的路线,赢得比赛。这就像论文里的MLEvolve一样,是一个能自己学习、不断变得更聪明的系统,帮助我们自动找到最好的解决方案。
术语表
Large Language Model (LLM) (大规模语言模型)
一种基于深度学习的模型,能理解和生成自然语言,支持复杂的推理和生成任务。在论文中用于驱动智能代理的核心技术。
作为MLEvolve的基础,提供规划和代码生成能力。
Progressive MCGS (渐进式蒙特卡洛图结构搜索)
一种结合图结构的蒙特卡洛树搜索,支持跨分支信息共享和渐进探索策略,提升搜索效率和稳定性。
核心搜索机制,解决信息隔离问题。
Retrospective Memory (回顾性记忆)
结合静态知识库和动态经验存储的记忆系统,用于自动积累和重用搜索经验。
提升搜索的长远优化能力。
Hierarchical Planning (层次规划)
将策略决策与代码实现分离,支持多层次、模块化的方案设计。
增强代码生成的稳定性和可控性。
Adaptive Coding Modes (自适应编码模式)
根据搜索状态选择全重写、逐步生成或差异化编辑三种不同的代码生成方式。
提升代码优化效率。
Entropy-inspired Schedule (熵启发调度)
利用信息熵变化引导探索策略,从广泛探索逐步转向深度利用。
实现渐进式探索调控。
Knowledge Base (知识库)
存储领域知识和模型信息的系统,用于初始化和指导搜索。
支持冷启动和经验引导。
Graph-based Search (基于图的搜索)
利用有向图结构实现候选方案的生成、引用和融合,支持跨分支信息流动。
提升搜索的多样性和效率。
FAISS (Facebook AI Similarity Search)
一种高效的相似性搜索库,用于大规模向量检索。
实现经验的快速检索。
Reciprocal Rank Fusion (RRF)
一种融合多源检索结果的排序方法,用于提升检索质量。
结合不同检索方式的经验记录。
AutoML (自动机器学习)
自动化设计和优化机器学习模型的技术,减少人工干预。
论文的应用背景。
AlphaEvolve
一种专注于数学算法优化的自动算法发现方法,作为对比基线。
验证MLEvolve的跨域能力。
开放问题 这项研究留下的未解疑问
- 1 尽管MLEvolve在多任务、多领域表现出色,但在极端复杂或高维空间中,探索效率仍有待提升,特别是在有限时间内保证全局最优的能力不足。未来需要结合强化学习和更高效的搜索策略,增强系统的自适应能力。
- 2 经验回忆机制虽然实现了经验的自动积累,但在大规模知识库的存储、检索和更新方面仍面临效率瓶颈,尤其是在实际工业场景中,存储结构和检索算法的优化亟需加强。
- 3 模型在某些特定任务上的表现仍受限于LLM的推理和知识融合能力,未来应结合更强的知识图谱、多模态信息和推理机制,提升系统的泛化和推理能力。
- 4 当前方法主要在模拟环境和标准基准上验证,实际应用中的鲁棒性和适应性仍需进一步测试和优化。
- 5 如何在保证搜索效率的同时,增强系统的解释性和可控性,也是未来研究的重要方向。
应用场景
近期应用
自动化模型设计平台
企业和科研机构可以利用MLEvolve自动设计和优化机器学习模型,减少人工调参时间,提高模型性能,适用于金融、医疗、工业等行业。
科学研究中的算法探索
科研人员可以借助该框架快速探索新算法或优化方案,加速科研进程,特别是在复杂数据分析和模拟任务中。
智能工业自动化
工业生产中,自动优化工艺流程和控制策略,提升生产效率和产品质量,减少人工干预。
远期愿景
自主AI系统的长周期演化
未来,系统可以在不断的任务中自主学习和优化,实现持续的自我改进,逐步接近真正的自主智能体。
跨领域智能系统
实现不同领域间的知识迁移和算法泛化,推动AI在科学、工程、医疗等多行业的深度融合与应用。
原文摘要
Large language model (LLM) agents are increasingly applied to long-horizon tasks such as scientific discovery and machine learning engineering (MLE), where sustained self-evolution becomes a key capability. However, existing MLE agents suffer from inter-branch information isolation, memoryless search, and lack of hierarchical control, which together hinder long-horizon optimization. We present MLEvolve, an LLM-based self-evolving multi-agent framework for end-to-end machine learning algorithm discovery. By extending tree search to Progressive MCGS, MLEvolve enables cross-branch information flow through graph-based reference edges and gradually shifts the search from broad exploration to focused exploitation with an entropy-inspired progressive schedule. To allow the agent to evolve with accumulated experience, we introduce Retrospective Memory, which combines a cold-start domain knowledge base with a dynamic global memory for task-specific experience retrieval and reuse. For stable long-horizon iteration, we further decouple strategic planning from code generation with adaptive coding modes. Evaluation on MLE-Bench shows that MLEvolve achieves state-of-the-art performance across multiple dimensions including average medal rate and valid submission rate under a 12-hour budget (half the standard runtime). Moreover, MLEvolve also outperforms specialized algorithm discovery methods including AlphaEvolve on mathematical algorithm optimization tasks, demonstrating strong cross-domain generalization. Our code is available at https://github.com/InternScience/MLEvolve.
参考文献 (20)
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Jun Shern Chan, Neil Chowdhury, Oliver Jaffe 等
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
Xinyu Zhu, Yuzhu Cai, Zexi Liu 等
Mathematical exploration and discovery at scale
Bogdan Georgiev, Javier G'omez-Serrano, Terence Tao 等
LocAgent: Graph-Guided LLM Agents for Code Localization
Zhaoling Chen, Xiangru Tang, Gangda Deng 等
AIBuildAI: An AI Agent for Automatically Building AI Models
Ruiyi Zhang, Peijia Qin, Qingmei Cao 等
A Survey on the Memory Mechanism of Large Language Model-based Agents
Zeyu Zhang, Quanyu Dai, Xiaohe Bo 等
Towards end-to-end automation of AI research
Chris Lu, Cong Lu, R. Lange 等
AI and science: what 1,600 researchers think
Richard Van Noorden, Jeffrey Perkel
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation
Qian Huang, Jian Vora, Percy Liang 等
InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery
Shiyang Feng, Runmin Ma, Xiang-yu Yan 等
AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents
Shangheng Du, Xiangchao Yan, Dengyang Jiang 等
AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
Edan Toledo, Karen Hambardzumyan, Martin Josifoski 等
R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science
Xu Yang, Xiao Yang, Shikai Fang 等
MARS: Modular Agent with Reflective Search for Automated AI Research
Jiefeng Chen, Bhavana Dalvi, Jaehyun Nam 等
Monte-Carlo Graph Search: the Value of Merging Similar States
Edouard Leurent, Odalric-Ambrym Maillard
KAPSO: A Knowledge-grounded framework for Autonomous Program Synthesis and Optimization
Alireza Nadafian, Alireza Mohammadshahi, Majid Yazdani
AlphaEvolve: A coding agent for scientific and algorithmic discovery
Alexander Novikov, Ngân V˜u, Marvin Eisenberger 等
Software Engineering for Machine Learning: A Case Study
Saleema Amershi, Andrew Begel, C. Bird 等
Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search
Yifei Zhang, Xu Yang, Xiao Yang 等