核心发现
方法论
SeaEvo通过引入策略空间层,将自然语言策略描述提升为LLM驱动程序搜索中的一流种群级进化状态。该方法包括策略表达、分层经验检索和战略景观导航三大模块。策略表达将变异过程转化为诊断-指导-实施流程;分层经验检索根据行为互补性组织档案为策略集群,并选择灵感;战略景观导航定期总结有效、饱和和未探索的策略家族,以指导未来的变异。
关键结果
- 在系统优化任务中,SeaEvo相对提升21%,显著优于基线方法。具体而言,在Prism任务中,SeaEvo的平均得分提高了32%,在Prism最佳得分中实现了近3倍的提升。
- 在数学算法发现和代理-脚手架基准测试中,SeaEvo在大多数设置中改进了基础进化骨干,特别是在开放式系统优化任务中表现出色。
- 消融研究显示,战略景观导航模块在平均适应度和收敛速度上提供了最大的单独改进,表明景观级别的指导提供了最强的全局搜索信号。
研究意义
SeaEvo通过将自然语言策略描述提升为种群级别的进化状态,解决了现有LLM驱动的进化搜索系统中策略表示的缺失问题。这一创新使得系统能够更好地区分语法上不同但策略上相似的实现,保留低适应度但策略上有前途的方向,并检测策略家族的饱和状态。通过提高进化搜索的鲁棒性和效率,SeaEvo为积累算法知识的复合AI系统指明了方向。
技术贡献
SeaEvo的技术贡献在于其引入了持久的策略表示、语义聚类、行为互补检索以及景观级导航。这些创新使得SeaEvo不仅在现有进化骨干上实现了显著的性能提升,还为未来的算法发现提供了新的理论保证和工程可能性。
新颖性
SeaEvo首次将自然语言策略描述提升为种群级别的进化状态,与现有方法相比,它不仅关注程序和适应度分数,还提供了语义策略家族的显式表示。这种方法填补了策略表示的空白,显著提高了LLM驱动的进化搜索的效率和鲁棒性。
局限性
- SeaEvo在策略空间较为狭窄的任务中,提升效果不如在开放策略空间任务中显著。这可能是因为在策略空间受限的情况下,基于适应度的基线方法已经足够有效。
- 在更新频率过高的情况下,策略景观导航可能导致搜索不稳定,因为种群尚未积累足够的新候选者来使LLM的判断可靠。
- 策略嵌入和检索的计算成本可能较高,尤其是在大规模任务中。
未来方向
未来的研究方向包括进一步优化策略嵌入和检索的计算效率,探索SeaEvo在更大规模和更复杂任务中的应用,以及结合其他先进的LLM驱动进化算法以提升整体性能。此外,研究如何更好地自动化策略描述的生成和更新也是一个值得探索的方向。
AI 总览摘要
在自动化算法发现领域,LLM驱动的进化搜索已经成为一种重要的范式。然而,大多数系统主要通过可执行程序和标量适应度来跟踪搜索进度,即使使用自然语言反思,也常常仅限于局部变异提示,或没有明确的种群级战略方向组织。这导致进化搜索难以区分语法上不同但策略上相同的实现,难以保留低适应度但策略上有前途的方向,或检测策略家族的饱和状态。
SeaEvo通过引入策略空间层,将自然语言策略描述提升为LLM驱动程序搜索中的一流种群级进化状态。SeaEvo为每个候选程序增加了一个明确的自然语言策略描述,并通过三种方式使用这种表示:策略表达将变异过程转化为诊断-指导-实施流程;分层经验检索根据行为互补性组织档案为策略集群,并选择灵感;战略景观导航定期总结有效、饱和和未探索的策略家族,以指导未来的变异。
在数学算法发现、系统优化和代理-脚手架基准测试中,SeaEvo在大多数设置中改进了基础进化骨干,特别是在开放式系统优化任务中表现出色,取得了21%的相对提升。这些结果表明,持久的策略表示提供了一种实用的机制,可以提高LLM驱动的进化搜索的鲁棒性和效率,指明了积累算法知识的复合AI系统的方向。
SeaEvo的技术贡献在于其引入了持久的策略表示、语义聚类、行为互补检索以及景观级导航。这些创新使得SeaEvo不仅在现有进化骨干上实现了显著的性能提升,还为未来的算法发现提供了新的理论保证和工程可能性。
然而,SeaEvo在策略空间较为狭窄的任务中,提升效果不如在开放策略空间任务中显著。这可能是因为在策略空间受限的情况下,基于适应度的基线方法已经足够有效。此外,策略嵌入和检索的计算成本可能较高,尤其是在大规模任务中。未来的研究方向包括进一步优化策略嵌入和检索的计算效率,探索SeaEvo在更大规模和更复杂任务中的应用,以及结合其他先进的LLM驱动进化算法以提升整体性能。
深度分析
研究背景
在自动化算法发现领域,近年来LLM驱动的进化搜索逐渐成为一种重要的范式。通过将LLM作为变异操作符与程序评估器配对,最近的系统可以迭代地提出、执行、评估和优化候选程序,在数学发现、组合和几何优化、系统工程以及代理程序设计中取得了显著成果。然而,大多数LLM驱动的进化系统仍然主要将搜索状态表示为可执行程序和标量适应度值。这种表示方式虽然支持评估和选择,但仅提供了有限的搜索进展视图:不同的程序可能实现了相同的基础策略,相似的分数可能对应于质上不同的方向,而低分候选者可能编码了尚未被优化的有前途的想法。近期的研究引入了更丰富的语言级信号,包括自然语言启发式描述、失败反思和自适应采样,但这些信号通常仅作为局部提示上下文或非结构化记忆使用,而非语义策略家族的持久种群级表示。
核心问题
现有的LLM驱动的进化搜索系统在策略表示上存在显著的缺失。这种缺失导致了三种常见的失败模式:语法变体的歧义,即探索过的想法的语法变体被误认为是真正的进展;有用的低适应度策略的抑制,即选择压力丢弃了涵盖互补失败模式的候选者;以及策略家族饱和的检测困难,即每个程序的适应度未能揭示整个策略家族是否已饱和。这些限制表明,改进LLM驱动的进化不仅需要更好的变异操作符或评估器,还需要更丰富的进化策略景观表示。
核心创新
SeaEvo通过引入策略空间层,将自然语言策略描述提升为种群级别的进化状态,填补了现有系统中的策略表示缺失。SeaEvo的核心创新包括:
- �� 持久的策略描述:每个候选程序都附带一个明确的自然语言策略描述,作为种群级别的进化状态。
- �� 策略表达:将变异过程转化为诊断-指导-实施流程,使得策略方向显式化。
- �� 分层经验检索:根据行为互补性组织档案为策略集群,并选择灵感,避免了基于适应度的选择导致的“富者愈富”动态。
- �� 战略景观导航:定期总结有效、饱和和未探索的策略家族,以指导未来的变异。
方法详解
SeaEvo的方法论包括以下几个关键步骤:
- �� 策略表达:每个候选程序都附带一个明确的自然语言策略描述,作为种群级别的进化状态。通过诊断-指导-实施流程,将变异过程显式化。
- �� 分层经验检索:根据行为互补性组织档案为策略集群,并选择灵感。通过策略嵌入和聚类,识别出行为互补的策略家族,避免了基于适应度的选择导致的“富者愈富”动态。
- �� 战略景观导航:定期总结有效、饱和和未探索的策略家族,以指导未来的变异。通过策略描述和适应度分数,生成结构化的景观指导,帮助识别出饱和和未探索的策略方向。
实验设计
实验设计包括以下几个方面:
- �� 数据集:使用数学算法发现、系统优化和代理-脚手架基准测试中的多种数据集进行评估。
- �� 基线:与现有的进化搜索方法进行对比,包括GEPA、OpenEvolve和ShinkaEvolve等。
- �� 评估指标:使用平均得分、最佳得分和适应度分数等指标进行评估。
- �� 超参数:在每个实验中使用默认的超参数设置,并在附录中提供详细的超参数信息。
- �� 消融研究:通过消融研究评估每个模块的贡献,分析不同模块组合的性能。
结果分析
实验结果显示,SeaEvo在大多数设置中改进了基础进化骨干,特别是在开放式系统优化任务中表现出色,取得了21%的相对提升。具体而言,在Prism任务中,SeaEvo的平均得分提高了32%,在Prism最佳得分中实现了近3倍的提升。消融研究显示,战略景观导航模块在平均适应度和收敛速度上提供了最大的单独改进,表明景观级别的指导提供了最强的全局搜索信号。此外,策略表达和分层经验检索模块分别提高了可达解空间和最佳适应度,显示了它们在扩展解决方案空间方面的贡献。
应用场景
SeaEvo的应用场景包括:
- �� 数学算法发现:在组合和几何优化问题中,SeaEvo可以自动发现高性能算法,减少人工设计启发式的成本。
- �� 系统优化:在开放式系统优化任务中,SeaEvo可以通过持久的策略表示和行为互补检索,提高系统的鲁棒性和效率。
- �� 代理程序设计:在代理-脚手架任务中,SeaEvo可以通过策略级别的导航和检索,改善代理行为,提高任务完成效率。
局限与展望
SeaEvo在策略空间较为狭窄的任务中,提升效果不如在开放策略空间任务中显著。这可能是因为在策略空间受限的情况下,基于适应度的基线方法已经足够有效。此外,在更新频率过高的情况下,策略景观导航可能导致搜索不稳定,因为种群尚未积累足够的新候选者来使LLM的判断可靠。策略嵌入和检索的计算成本可能较高,尤其是在大规模任务中。未来的研究方向包括进一步优化策略嵌入和检索的计算效率,探索SeaEvo在更大规模和更复杂任务中的应用,以及结合其他先进的LLM驱动进化算法以提升整体性能。
通俗解读 非专业人士也能看懂
想象一下你在玩一个复杂的拼图游戏,每个拼图块代表一个程序或算法。传统的方法就像是盲目地尝试每个拼图块,看看它们是否合适。而SeaEvo则像是一个聪明的助手,它不仅能告诉你哪些拼图块可能合适,还能根据你之前的尝试,给出更好的建议。SeaEvo通过分析每个拼图块的特征和你之前的尝试,帮助你更快地完成拼图。这就像是有一个聪明的朋友在旁边,不仅能帮你找到合适的拼图块,还能告诉你哪些块可能已经用过了,哪些块可能还没被尝试过。通过这种方式,SeaEvo帮助你更快地完成拼图,减少了不必要的尝试和错误。
简单解释 像给14岁少年讲一样
嘿,小伙伴!想象一下你在玩一个超级复杂的游戏,每个关卡都有不同的挑战。传统的方法就像是盲目地尝试每个可能的动作,希望能找到正确的解决方案。但SeaEvo就像是一个超级聪明的游戏助手,它不仅能告诉你哪些动作可能有效,还能根据你之前的尝试,给出更好的建议。SeaEvo通过分析每个动作的效果和你之前的尝试,帮助你更快地通过关卡。这就像是有一个聪明的朋友在旁边,不仅能帮你找到合适的动作,还能告诉你哪些动作可能已经用过了,哪些动作可能还没被尝试过。通过这种方式,SeaEvo帮助你更快地通过关卡,减少了不必要的尝试和错误。是不是很酷?
术语表
LLM (大型语言模型)
大型语言模型是一种通过大量文本数据训练的人工智能模型,能够理解和生成自然语言文本。
在SeaEvo中,LLM被用作变异操作符,帮助生成和优化候选程序。
进化搜索 (Evolutionary Search)
进化搜索是一种基于自然选择和遗传算法的优化方法,通过迭代地生成、评估和选择候选解来寻找最优解。
SeaEvo通过引入策略空间层,提升了进化搜索的效率和鲁棒性。
策略空间 (Strategy Space)
策略空间是指在进化搜索中,候选解的策略描述和表示的集合。
SeaEvo通过将自然语言策略描述提升为种群级别的进化状态,丰富了策略空间的表示。
策略表达 (Strategy Articulation)
策略表达是指在变异过程中,通过诊断-指导-实施流程,将策略方向显式化的过程。
SeaEvo使用策略表达来提高变异过程的透明度和可控性。
分层经验检索 (Stratified Experience Retrieval)
分层经验检索是指根据行为互补性组织档案为策略集群,并选择灵感的过程。
SeaEvo通过分层经验检索,避免了基于适应度的选择导致的“富者愈富”动态。
战略景观导航 (Strategic Landscape Navigation)
战略景观导航是指定期总结有效、饱和和未探索的策略家族,以指导未来的变异的过程。
SeaEvo通过战略景观导航,提供了最强的全局搜索信号。
适应度 (Fitness)
适应度是指在进化搜索中,用于评估候选解质量的指标。
SeaEvo通过持久的策略表示,提高了适应度评估的准确性和鲁棒性。
消融研究 (Ablation Study)
消融研究是一种通过逐步移除或替换系统组件来评估其对整体性能影响的方法。
SeaEvo通过消融研究评估了每个模块的贡献。
语义聚类 (Semantic Clustering)
语义聚类是指根据候选解的策略描述和行为特征,将其分组为相似策略家族的过程。
SeaEvo通过语义聚类,识别出行为互补的策略家族。
行为互补性 (Behavioral Complementarity)
行为互补性是指在策略选择过程中,选择与当前策略不同但互补的策略,以提高搜索多样性和效率。
SeaEvo通过行为互补性选择灵感,提高了搜索的多样性和效率。
开放问题 这项研究留下的未解疑问
- 1 如何在更大规模和更复杂的任务中优化策略嵌入和检索的计算效率?现有的方法可能在大规模任务中计算成本较高,需要进一步研究以提高效率。
- 2 如何自动化策略描述的生成和更新?目前的策略描述依赖于人工设计,未来的研究可以探索自动化生成和更新的方法。
- 3 如何结合其他先进的LLM驱动进化算法以提升整体性能?现有的SeaEvo方法虽然在大多数设置中表现出色,但结合其他方法可能带来更大的性能提升。
- 4 在策略空间较为狭窄的任务中,如何提高SeaEvo的提升效果?现有的方法在开放策略空间任务中表现出色,但在策略空间受限的情况下,提升效果不如预期。
- 5 如何更好地识别和避免策略家族的饱和状态?现有的方法通过战略景观导航提供了全局搜索信号,但在某些情况下可能导致搜索不稳定。
应用场景
近期应用
数学算法发现
SeaEvo可以在组合和几何优化问题中自动发现高性能算法,减少人工设计启发式的成本。
系统优化
SeaEvo可以在开放式系统优化任务中,通过持久的策略表示和行为互补检索,提高系统的鲁棒性和效率。
代理程序设计
SeaEvo可以在代理-脚手架任务中,通过策略级别的导航和检索,改善代理行为,提高任务完成效率。
远期愿景
复合AI系统
SeaEvo为积累算法知识的复合AI系统指明了方向,未来可能实现更智能和高效的自动化系统。
自动化策略生成
通过进一步研究,SeaEvo可能实现完全自动化的策略生成和更新,减少对人工设计的依赖。
原文摘要
LLM-guided evolutionary search has emerged as a promising paradigm for automated algorithm discovery, yet most systems track search progress primarily through executable programs and scalar fitness. Even when natural-language reflection is used, it is often used locally in mutation prompts or stored without an explicit population-level organization of strategic directions. As a result, evolutionary search can struggle to distinguish syntactically different implementations of the same idea, preserve lower-fitness but strategically promising directions, or detect when an entire family of strategies has saturated. We introduce \model, a modular strategy-space layer that elevates natural-language strategy descriptions from transient prompt context to first-class population-level evolutionary state in LLM-driven program search. \model augments each candidate program with an explicit natural language strategy description and uses this representation in three ways: Strategy Articulation turns mutation into a diagnose-direct-implement process; Stratified Experience Retrieval organizes the archive into strategy clusters and selects inspirations by behavioral complementarity; and Strategic Landscape Navigation periodically summarizes effective, saturated, and underexplored strategy families to guide future mutations. Across mathematical algorithm discovery, systems optimization, and agent-scaffold benchmarks, \model improves the underlying evolutionary backbones in most settings, with particularly large gains (21% relative improvement) on open-ended system optimization tasks. These results suggest that persistent strategy representations provide a practical mechanism for improving the robustness and efficiency of LLM-guided evolutionary search, suggesting a path toward compound AI systems that accumulate algorithmic knowledge over time.
参考文献 (19)
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
Lakshya A. Agrawal, Shangyin Tan, Dilara Soylu 等
AlphaEvolve: A coding agent for scientific and algorithmic discovery
Alexander Novikov, Ngân V˜u, Marvin Eisenberger 等
XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models
Paul Röttger, Hannah Rose Kirk, Bertie Vidgen 等
LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics
Niki van Stein, Thomas Bäck
CodeEvolve: An open source evolutionary coding agent for algorithm discovery and optimization
Henrique S. Assumpção, Diego Ferreira, Leandro Lacerda Campos 等
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges
Xianliang Yang, Ling Zhang, Haolong Qian 等
Mathematical discoveries from program search with large language models
Bernardino Romera-Paredes, M. Barekatain, Alexander Novikov 等
ReEvo: Large Language Models as Hyper-Heuristics with Reflective Evolution
Haoran Ye, Jiarui Wang, Zhiguang Cao 等
A Systematic Survey on Large Language Models for Algorithm Design
Fei Liu, Yiming Yao, Ping Guo 等
Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model
Fei Liu, Xialiang Tong, Mingxuan Yuan 等
Reflexion: language agents with verbal reinforcement learning
Noah Shinn, Federico Cassano, Beck Labash 等
Efficient Memory Management for Large Language Model Serving with PagedAttention
Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等
Barbarians at the Gate: How AI is Upending Systems Research
Audrey Cheng, Shu Liu, Melissa Z. Pan 等
HiFo-Prompt: Prompting with Hindsight and Foresight for LLM-based Automatic Heuristic Design
Chentong Chen, Mengyuan Zhong, Jianyong Sun 等
ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution
R. Lange, Yuki Imajuku, Edoardo Cetin
Efficient Heuristics Generation for Solving Combinatorial Optimization Problems Using Large Language Models
Xuan Wu, Di Wang, Chunguo Wu 等
PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution
Minghao Yan, Bo Peng, Benjamin Coleman 等
Visualizing Data using t-SNE
L. Maaten, Geoffrey E. Hinton
AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization
M. Cemri, Shubham Agrawal, Akshat Gupta 等