Self-Improving Language Models with Bidirectional Evolutionary Search

TL;DR

提出双向进化搜索(BES)框架,结合正向候选演化与逆向目标分解,有效突破模型探索与验证的局限。

cs.CL 🔴 高级 2026-05-28 165 次浏览
Guowei Xu Zhenting Qi Huangyuan Su Weirui Ye Himabindu Lakkaraju Sham M. Kakade Yilun Du
人工智能 自然语言处理 搜索算法 模型自我提升 演化算法

核心发现

方法论

本文提出的双向进化搜索(BES)框架,结合正向候选演化与逆向目标分解两大核心机制。在正向搜索中,BES通过引入演化算子(如组合、转移、交叉和删除)对候选轨迹进行重组,突破传统自回归扩展的限制,探索模型概率质量较低的区域。逆向搜索则通过递归分解任务成可验证的子目标,构建细粒度的目标树,为正向搜索提供密集反馈。该框架利用理论证明,演化算子能打破模型固有的熵壳限制,显著提升探索能力,同时逆向目标分解大幅减少找到正确解所需的样本数。算法实现包括多轮正向演化与逆向目标细化,结合验证器(如规则检查、相似度模型)指导搜索方向。实验证明该方法在逻辑推理、多跳推理等复杂任务中超越主流算法,获得稳定提升。

关键结果

  • 在Knights-and-Knaves逻辑推理任务中,BES在验证集准确率上持续提升,超越GRPO和MaxRL,训练过程中验证准确率从起始的约30%提升至超过50%,表现出优越的自我提升能力。
  • 在MuSiQue多跳推理任务中,BES在不同模型(如Llama-3.2-3B-Instruct和Llama-3.1-8B-Instruct)上显著优于基线,准确率提升3-4个百分点,搜索次数和有效操作数也明显增加,验证了其在复杂推理中的效果。
  • 在开放问题解决基准(如圆包问题和赫布隆问题)中,BES在平均和最佳解质量上均优于现有开源框架(如ShinkaEvolve、GEPA),且搜索过程更稳定,方差更低,显示出强大的探索与验证能力。

研究意义

该研究突破了传统搜索方法在稀疏验证信号和有限模型分布限制下的瓶颈,为大规模语言模型的自我提升提供了全新思路。通过引入演化算子与逆向目标分解,BES不仅提升了模型在复杂推理任务中的表现,也为未来自主系统的鲁棒性与泛化能力奠定了基础。其理论证明与实验验证共同彰显了搜索空间的突破性扩展,为AI系统的自主学习和推理能力开辟了新的技术路径,具有深远的学术和工业价值。

技术贡献

本文的核心技术贡献在于提出双向演化搜索(BES)框架,结合生物学中的遗传重组思想与目标分解策略,突破了模型自回归扩展的局限。具体包括:• 设计四种演化算子(组合、转移、交叉、删除),实现候选轨迹的多样化重组;• 引入逆向目标分解机制,将复杂任务递归拆解为可验证的子目标,提供密集反馈;• 理论证明演化算子能打破模型的熵壳限制,显著提升探索范围;• 设计结合验证器的搜索策略,有效引导模型在硬任务中找到高质量解。该方法在理论和实践层面均优于现有的树搜索和采样方法,为模型自我提升提供了系统性解决方案。

新颖性

该研究的创新点在于首次系统性结合正向候选演化与逆向目标分解,提出双向搜索架构,突破了模型探索空间的限制。与传统的自回归扩展和树搜索方法不同,BES引入生物学中的遗传重组思想,允许候选轨迹跨越模型概率的限制,显著提升探索能力。其理论证明演化算子能突破熵壳限制,提供了坚实的数学基础。这在现有文献中尚属首创,为大规模语言模型的自我改进和复杂推理提供了全新技术路径。

局限性

  • 尽管BES在复杂任务中表现优异,但其计算成本相对较高,尤其是在多轮演化和逆向目标分解过程中,可能导致推理速度下降,限制了实时应用的场景。
  • 验证器的设计依赖于任务的具体特性,某些任务中可能难以构建高效、准确的验证机制,影响整体效果。
  • 目前的实验主要集中在中等规模模型和特定任务,尚未充分验证在超大模型或多领域任务中的泛化能力,未来需扩展验证范围。

未来方向

未来的研究方向包括:• 优化演化算子的效率,降低计算成本,提升推理速度;• 探索更丰富的逆向目标分解策略,增强模型对复杂任务的适应能力;• 将BES框架应用到多模态、多任务学习场景,验证其泛化能力;• 结合强化学习等技术,进一步提升搜索策略的智能化水平。该框架的潜力还在于与其他自我提升机制结合,推动自主学习系统的持续演进。

AI 总览摘要

在人工智能领域,如何让大规模语言模型(LLMs)实现自我提升一直是研究的热点。传统的采样方法如best-of-N和树搜索,虽然在一定程度上提高了模型的表现,但面临着两个根本性难题:一是验证信号稀疏,难以有效引导搜索;二是候选生成受限于模型自身的概率分布,难以探索低概率但潜在正确的区域。

为破解这一局限,Xu等人提出了双向进化搜索(BES)框架,结合正向候选演化与逆向目标分解两大机制,开创性地实现了模型探索空间的突破。正向搜索中,BES引入遗传算法中的演化算子(如组合、转移、交叉和删除),对候选轨迹进行重组,生成模型自回归扩展难以达到的多样化解。逆向搜索则通过递归分解任务为细粒度子目标,为正向搜索提供密集的验证反馈,确保搜索的方向性和效率。

理论分析显示,纯扩展式搜索受限于模型的熵壳,难以突破探索边界,而演化算子能打破这一限制,显著扩展搜索空间。实验结果在逻辑推理、多跳推理和开放问题解决任务中表现出色:在Knights-and-Knaves逻辑推理中,验证准确率由30%提升至50%以上;在MuSiQue多跳推理中,准确率提升3-4个百分点,搜索效率明显提高;在圆包和赫布隆问题中,BES的解质量优于现有开源框架,且搜索过程更稳定。

这些成果不仅验证了BES在复杂推理任务中的优越性,也为大模型的自主学习和推理能力提供了新思路。其理论基础为未来探索更高效的搜索策略奠定了基础,推动AI系统的自主演进迈向新阶段。未来,研究将集中在降低计算成本、扩展多模态应用及强化逆向目标分解策略,以实现更广泛的工业应用和学术突破。

深度分析

研究背景

近年来,随着大规模预训练语言模型(如GPT、BERT等)的崛起,模型在自然语言理解与生成方面取得了突破性进展。然而,模型的推理能力仍受限于训练数据的覆盖范围和推理策略的有效性。传统的采样方法如best-of-N和树搜索(如束搜索、蒙特卡洛树搜索)在提升模型性能方面发挥了重要作用,但存在探索空间有限、验证信号稀疏等瓶颈。近年来,研究者尝试引入强化学习、树状探索和演化算法,以增强模型的推理能力。代表性工作包括Tree of Thoughts、Graph of Thoughts、以及基于演化的AlphaEvolve、ShinkaEvolve等。这些方法在复杂推理和开放问题中取得了一定成功,但仍未突破模型探索空间的根本限制,尤其在低概率区域的探索方面表现不足。本文在此基础上提出了双向演化搜索(BES),试图从理论和实践两个层面解决这一难题。

核心问题

当前的模型搜索方法主要依赖自回归扩展或树状结构,导致候选解的生成受限于模型自身的概率分布,难以探索低概率区域的潜在正确解。同时,验证信号的稀疏性限制了搜索的指导性,使得模型难以在复杂任务中持续改进。此外,传统方法在硬任务和多跳推理中表现不佳,难以实现有效的自我提升。如何设计一种既能突破探索边界,又能提供密集验证反馈的搜索机制,成为提升模型推理能力的关键难题。

核心创新

本文的创新点主要包括:• 引入演化算子(组合、转移、交叉、删除),实现候选轨迹的多样化重组,突破模型概率分布的限制;• 设计逆向目标分解机制,将复杂任务递归拆解为可验证的子目标,提供密集的验证信号;• 结合正向演化与逆向目标分解,构建双向搜索框架,有效扩大搜索空间,提升探索效率;• 理论证明演化算子能打破熵壳限制,显著增强模型在硬任务中的探索能力;• 在多项复杂推理任务中验证其优越性能,展示了该框架在模型自我提升中的潜力。

方法详解

  • �� 设计正向搜索:在传统扩展基础上引入演化算子,通过重组部分轨迹生成多样化候选,避免局限于模型概率高的区域。
  • �� 设计逆向目标分解:从任务顶层目标出发,递归拆解为子目标,利用验证器(如规则、相似度模型)对中间结果进行密集评分,为正向搜索提供指导。
  • �� 结合两者:每隔若干正向搜索步骤,进行逆向目标细化,更新目标树,重新评估候选轨迹的子目标完成情况。
  • �� 理论分析:证明纯扩展搜索受限于熵壳,演化算子能突破此限制,扩大搜索空间。
  • �� 实验验证:在逻辑推理、多跳推理和开放问题中,采用基准数据集(如Knights-and-Knaves、MuSiQue、圆包问题)进行测试,比较BES与传统方法的性能差异。
  • �� 评估指标:验证准确率、样本效率、搜索稳定性和解质量,验证BES的优越性。

实验设计

实验设计包括在多个任务上验证BES的效果:

  • �� 逻辑推理:使用Knights-and-Knaves数据集,比较验证准确率的提升,观察训练过程中模型的自我提升能力。
  • �� 多跳推理:采用MuSiQue数据集,评估模型在复杂信息整合任务中的表现,统计准确率、搜索次数和有效操作数。
  • �� 开放问题:如圆包和赫布隆问题,比较不同框架的解质量和搜索稳定性。
  • �� 实验参数:采用不同规模的模型(如Llama-3.2-3B、Llama-3.1-8B),设置合理的搜索轮数、验证器类型和演化算子概率。
  • �� 对比基线:包括GRPO、Tree-GRPO、ShinkaEvolve等,分析BES在不同场景下的优势。
  • �� 进行消融实验,验证逆向目标分解和演化算子的贡献。

结果分析

在逻辑推理任务中,BES实现了验证集准确率从30%提升至50%以上,显著优于GRPO和MaxRL。在MuSiQue多跳推理中,BES在准确率上提升3-4个百分点,搜索效率和解的多样性也明显增强。在圆包和赫布隆问题中,BES的解质量优于现有开源框架,平均得分提升0.1-0.2,方差降低,表现出更强的探索能力。这些结果验证了BES在复杂推理和开放问题中的优越性,尤其在硬任务和低概率区域的探索方面展现出明显优势。消融实验进一步确认逆向目标分解和演化算子对性能提升的关键作用。

应用场景

BES可广泛应用于复杂推理、科学计算、自动编程和开放问题求解等场景。其核心优势在于提升模型在硬任务中的探索能力和解答质量,适合用于模型训练中的样本生成、强化学习中的策略优化,以及推理过程中的解空间搜索。未来,结合BES的自我提升机制,有望推动自主系统在科研、工业自动化、智能决策等领域实现更高水平的自主学习和推理能力。

局限与展望

当前BES在计算资源消耗方面较为昂贵,尤其在多轮演化和逆向目标细化中,可能导致推理速度降低,限制实时应用。此外,验证器设计依赖任务特性,某些复杂任务中难以构建高效验证机制。实验主要集中在中等规模模型和特定任务,尚未充分验证在超大模型或多领域任务中的泛化能力。未来需优化算法效率,扩展验证器设计,并在更广泛的任务和模型规模上验证其效果。

通俗解读 非专业人士也能看懂

想象你在一家工厂工作,工厂里有很多不同的机器,每台机器都能做一些特定的任务。以前,工厂的设计者只让机器按照固定的流程工作,遇到复杂问题时,机器只能沿着预设的路径尝试解决方案。这就像模型用自回归方式逐步生成答案,限制了探索的范围。

现在,工厂引入了一种新方法,像是给机器装上了“创造”能力,让它们可以像人一样,尝试组合不同的零件,甚至交换零件,创造出全新的方案。这就是演化算子,比如组合、交叉和删除。与此同时,工厂还会拆解大任务成更小的子任务,让每个子任务都可以被验证是否完成。这就像把一个复杂的拼图拆成几个小拼图,逐一确认拼好了没有。

通过这两种方式,工厂的机器不再局限于原有的设计,而是可以不断尝试新的组合和拆解,找到更快、更有效的解决方案。这就像给模型装上了“创造”和“拆解”的双重能力,让它在面对难题时,能像人一样灵活思考,找到最佳答案。这种方法不仅提高了效率,也让解决方案变得更丰富、更可靠。

简单解释 像给14岁少年讲一样

想象你在玩一个超级复杂的拼图游戏,里面有很多碎片,要拼出一幅完整的画。以前,你只能按照顺序一块一块拼,试了很多次,可能还拼错了很多次。这就像模型用一种叫自回归的方法,逐步生成答案,但有时候会陷入死胡同,找不到正确的拼法。

现在,假设你有一种新策略,你可以把拼图拆成几个小部分,先确认每个小部分是不是拼对了,然后再试着把这些小部分拼在一起。更厉害的是,你还能把不同的小部分交换,试试不同的组合,找到最合适的拼法。这就像论文里的演化算子,让模型可以像“创造者”一样,尝试不同的答案组合,而不是只沿着一条路径走。

另外,你还可以把一个大任务拆成很多小任务,比如先拼出拼图的边框,再拼里面的内容。每完成一个小任务,你都可以检查一下,确保没错。这就像逆向目标分解,把复杂的问题变成一堆简单的子问题,逐个解决。

通过这些方法,你的拼图游戏变得更聪明、更灵活,也更快能拼出完整的画。模型也是一样,借助这种“拆解”和“创造”的技巧,能更好地解决难题,找到更好的答案。未来,这种方法还能帮我们解决很多复杂的问题,比如科学研究、自动编程,甚至是创造新发明!

术语表

Bidirectional Evolutionary Search (BES)(双向进化搜索)

一种结合正向候选演化和逆向目标分解的搜索框架,旨在突破模型探索空间的限制,提升复杂任务中的解答能力。

论文中提出的核心算法,用于增强模型在推理和自我提升中的搜索能力。

演化算子(Evolution Operators)

包括组合、转移、交叉和删除,用于对候选轨迹进行重组和变异,增加候选多样性,突破模型概率分布的限制。

在正向搜索中引入,用于生成多样化的候选解。

逆向目标分解(Backward Goal Decomposition)

将复杂任务递归拆解为一系列可验证的子目标,提供密集的验证信号,指导正向搜索。

提升验证密度和搜索效率的关键机制。

验证器(Verifier)

用于评估候选解是否满足子目标或任务要求的工具,可以是规则检查、相似度模型或LLM判别器。

在逆向目标分解和搜索引导中起到关键作用。

熵壳(Entropy Shell)

模型在自回归扩展中产生的候选轨迹主要集中在信息熵较低的区域,限制了探索范围。

理论分析中用以说明纯扩展搜索的局限性。

开放问题 这项研究留下的未解疑问

  • 1 尽管BES在复杂推理任务中表现优异,但其在超大规模模型(如GPT-4、GPT-5)上的适应性和效率仍未充分验证。未来需要研究如何在保持探索能力的同时,降低计算成本,提升实时性。此外,验证器的设计在不同任务中差异较大,如何构建通用、高效的验证机制仍是一个挑战。另一个未解决的问题是,如何结合强化学习等技术,使搜索策略更加智能化,自动调整演化算子和目标分解的参数,以适应不同任务的需求。这些问题的解决,将极大推动模型自主学习和推理能力的提升。

应用场景

近期应用

模型训练中的样本生成

利用BES生成高质量、多样化的训练样本,提升模型在硬任务中的表现,特别适用于逻辑推理和科学计算等场景。

自主推理系统

在自动问答、科学探索等应用中,通过BES增强模型的探索能力,实现更准确、更可靠的推理结果。

复杂任务优化

在自动编程、规划和决策系统中,利用BES进行高效的解空间搜索,提升任务完成率和解的质量。

远期愿景

自主学习与演化系统

结合BES与强化学习,打造具备自主学习、持续演化能力的智能系统,推动AI向更高层次的自主性发展。

跨模态多任务推理

将BES扩展到多模态、多任务场景,实现跨领域、多任务的高效推理和知识整合,推动AI系统的泛化能力。

原文摘要

Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.

cs.CL

参考文献 (20)

Tree Search for LLM Agent Reinforcement Learning

Yuxiang Ji, Ziyu Ma, Yong Wang 等

2025 38 引用 ⭐ 高影响力 查看解读 →

ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution

R. Lange, Yuki Imajuku, Edoardo Cetin

2025 78 引用 ⭐ 高影响力 查看解读 →

TreeRL: LLM Reinforcement Learning with On-Policy Tree Search

Zhenyu Hou, Ziniu Hu, Yujiang Li 等

2025 53 引用 查看解读 →

Olympiad-level formal mathematical reasoning with reinforcement learning

T. Hubert, Rishi S Mehta, Laurent Sartran 等

2025 109 引用

Branch-and-Bound Methods: A Survey

E. Lawler, D. Wood

1966 1962 引用

Differential Evolution – A Simple and Efficient Heuristic for global Optimization over Continuous Spaces

R. Storn, K. Price

1997 27562 引用

Graph of Thoughts: Solving Elaborate Problems with Large Language Models

Maciej Besta, Nils Blach, Aleš Kubíček 等

2023 1344 引用 查看解读 →

Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search

Kou Misaki, Yuichi Inoue, Yuki Imajuku 等

2025 45 引用 查看解读 →

Efficient Evolutionary Search Over Chemical Space with Large Language Models

Haorui Wang, Marta Skreta, C. Ser 等

2024 54 引用 查看解读 →

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving

Yangzhen Wu, Zhiqing Sun, Shanda Li 等

2024 190 引用 查看解读 →

Genetic Programming

Moshe Sipper

1998 2262 引用

Some Genetic Aspects of Sex

H. Muller

1932 1222 引用

ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search

Dan Zhang, Sining Zhoubian, Yisong Yue 等

2024 460 引用 查看解读 →

Mathematical discoveries from program search with large language models

B. Romera-Paredes, M. Barekatain, Alexander Novikov 等

2023 926 引用

Bandit Based Monte-Carlo Planning

Levente Kocsis, Csaba Szepesvari

2006 3874 引用

♫ MuSiQue: Multihop Questions via Single-hop Question Composition

H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等

2021 852 引用 查看解读 →

AlphaEvolve: A coding agent for scientific and algorithmic discovery

Alexander Novikov, Ngân V˜u, Marvin Eisenberger 等

2025 493 引用 查看解读 →

Voyager: An Open-Ended Embodied Agent with Large Language Models

Guanzhi Wang, Yuqi Xie, Yunfan Jiang 等

2023 1721 引用 查看解读 →

IMPORTANT

Ruth Edwards

1950 163 引用

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Lakshya A. Agrawal, Shangyin Tan, Dilara Soylu 等

2025 184 引用 查看解读 →