Internalizing Agency from Reflective Experience

TL;DR

LEAFE框架通过反思性经验内化恢复能力,提升长远任务中的Pass@k表现。

cs.AI 🔴 高级 2026-03-18 70 次浏览
Rui Ge Yichao Fu Yuyang Qian Junda Su Yiming Zhao Peng Zhao Hao Zhang
大语言模型 自主代理 反馈学习 反思性经验 长远任务

核心发现

方法论

LEAFE(Learning Feedback-Grounded Agency from Reflective Experience)框架通过反思性经验内化恢复能力。在探索过程中,代理总结环境反馈为可操作的经验,回溯到早期决策点,并通过修正后的行动探索替代路径。然后通过监督微调将这些经验指导的修正内化到模型中,使策略在未来交互中更有效地恢复。

关键结果

  • LEAFE在固定交互预算下的多样化交互编码和代理任务中,Pass@1相较于基础模型有显著提升,并在Pass@k上超越了以结果为导向的基线(如GRPO)和基于经验的方法(如Early Experience),在Pass@128上提升高达14%。
  • 在WebShop任务中,LEAFE在Qwen2.5-7B模型上实现了更高的Pass@128,尽管GRPO在Pass@1上表现更好。
  • 在CodeContests上,LEAFE在Pass@128上提升高达47.88%,显示出在需要迭代修正的领域中内化反馈的优势。

研究意义

LEAFE框架通过内化反馈引导的恢复能力,显著提升了大语言模型在长远任务中的表现。这一方法不仅提高了模型的成功率,还减少了对测试时重采样的依赖,降低了部署复杂性和延迟。通过将环境反馈转化为可操作的监督,LEAFE为大语言模型的自主代理能力提供了新的视角,推动了其在复杂任务中的应用。

技术贡献

LEAFE通过反思性经验内化恢复能力,与现有的结果驱动方法(如GRPO)形成鲜明对比。它不仅关注成功轨迹的强化,还通过识别关键决策点并进行反馈条件的修正,扩展了模型的行为覆盖范围。此方法为大语言模型提供了更丰富的监督信号,提升了其在长远交互中的表现。

新颖性

LEAFE是首个通过反思性经验内化恢复能力的框架,与传统的结果驱动方法不同,它不仅关注成功的终端状态,还强调对失败轨迹的修正。通过将环境反馈转化为可操作的经验,LEAFE在扩展模型的探索能力方面具有创新性。

局限性

  • LEAFE在处理极端复杂的任务时可能仍然面临挑战,尤其是在反馈信号不明确或不一致的情况下。
  • 由于需要进行反思性回溯和修正,LEAFE的计算开销可能较大,尤其是在大规模应用中。
  • 在某些特定任务中,LEAFE的表现可能不如专门优化的结果驱动方法。

未来方向

未来的研究方向包括优化LEAFE框架的计算效率,探索其在更多复杂任务中的应用,以及结合其他学习策略(如元学习)以进一步提升模型的自主代理能力。

AI 总览摘要

随着大语言模型(LLM)的发展,它们被越来越多地部署为自主代理,需在提供丰富反馈的环境中进行长远交互。然而,现有的结果驱动后训练方法(如RLVR)主要优化最终成功信号,未充分利用丰富的环境反馈,导致策略仅能重现一小部分已成功的行为,而无法提高基于反馈的代理能力。

为了解决这一问题,本文提出了LEAFE(Learning Feedback-Grounded Agency from Reflective Experience)框架。该框架通过反思性经验内化恢复能力。在探索过程中,代理总结环境反馈为可操作的经验,回溯到早期决策点,并通过修正后的行动探索替代路径。然后通过监督微调将这些经验指导的修正内化到模型中,使策略在未来交互中更有效地恢复。

LEAFE在多样化的交互编码和代理任务中表现出色。在固定交互预算下,LEAFE相较于基础模型显著提升了Pass@1,并在Pass@k上超越了以结果为导向的基线(如GRPO)和基于经验的方法(如Early Experience),在Pass@128上提升高达14%。

这一框架的核心技术原理在于将环境反馈转化为可操作的监督信号,减少对测试时重采样的依赖,降低部署复杂性和延迟。通过内化反馈引导的恢复能力,LEAFE为大语言模型的自主代理能力提供了新的视角,推动了其在复杂任务中的应用。

然而,LEAFE在处理极端复杂的任务时可能仍然面临挑战,尤其是在反馈信号不明确或不一致的情况下。此外,由于需要进行反思性回溯和修正,LEAFE的计算开销可能较大,特别是在大规模应用中。未来的研究方向包括优化LEAFE框架的计算效率,探索其在更多复杂任务中的应用,以及结合其他学习策略(如元学习)以进一步提升模型的自主代理能力。

深度分析

研究背景

大语言模型(LLM)近年来在自然语言处理领域取得了显著进展,尤其是在生成任务和理解任务中。然而,随着应用场景的复杂化,LLM逐渐被部署为自主代理,需要在提供丰富反馈的环境中进行长远交互。在此背景下,传统的结果驱动后训练方法(如RLVR)主要优化最终成功信号,未能充分利用环境提供的丰富反馈。这导致策略仅能重现一小部分已成功的行为,而无法提高基于反馈的代理能力。现有研究表明,环境反馈不仅包含简单的失败信号,还提供了关于轨迹为何无效以及如何纠正的结构化信息。因此,如何有效利用这些反馈信息以提高模型的决策能力成为一个重要的研究课题。

核心问题

在长远交互任务中,模型需要具备强大的恢复能力,以便在错误发生时能够有效地调整策略。然而,现有的结果驱动方法(如GRPO)通常只关注成功轨迹的强化,而忽视了对失败轨迹的分析和修正。这导致模型在长远任务中的表现受限,尤其是在需要多次尝试和修正的复杂任务中。如何在不增加部署复杂性和延迟的情况下,提高模型的恢复能力和探索能力,是当前面临的核心问题。

核心创新

LEAFE框架通过以下创新解决了上述问题:

1) 反思性经验内化:通过总结环境反馈为可操作的经验,代理能够识别关键决策点并进行反馈条件的修正。这一创新使得模型能够在未来交互中更有效地恢复。

2) 监督微调:将经验指导的修正内化到模型中,使策略在未来交互中更有效地恢复。这一过程不仅提高了模型的成功率,还减少了对测试时重采样的依赖。

3) 扩展行为覆盖范围:通过识别关键决策点并进行反馈条件的修正,LEAFE扩展了模型的行为覆盖范围,提升了其在长远交互中的表现。

方法详解

LEAFE框架的具体方法如下:

  • �� 反思性经验内化:在探索过程中,代理总结环境反馈为可操作的经验,回溯到早期决策点,并通过修正后的行动探索替代路径。
  • �� 监督微调:通过监督微调将这些经验指导的修正内化到模型中,使策略在未来交互中更有效地恢复。
  • �� 扩展行为覆盖范围:通过识别关键决策点并进行反馈条件的修正,扩展了模型的行为覆盖范围。
  • �� 实验评估:在多样化的交互编码和代理任务中进行实验验证,评估LEAFE在固定交互预算下的表现。

实验设计

实验设计包括以下几个方面:

  • �� 数据集:使用CodeContests、WebShop、ALFWorld、ScienceWorld和Sokoban等数据集,涵盖从编程到多步交互推理的多种任务。
  • �� 基线:选择GRPO和Early Experience作为基线方法,进行对比实验。
  • �� 评估指标:使用Pass@1和Pass@128作为主要评估指标,分别衡量单次尝试的成功率和在较大采样预算下的表现。
  • �� 超参数:在实验中调整超参数以优化模型性能,并进行消融研究以验证各组件的贡献。

结果分析

实验结果表明,LEAFE在多样化的任务中表现出色:

  • �� 在CodeContests上,LEAFE在Pass@128上提升高达47.88%,显示出在需要迭代修正的领域中内化反馈的优势。
  • �� 在WebShop任务中,LEAFE在Qwen2.5-7B模型上实现了更高的Pass@128,尽管GRPO在Pass@1上表现更好。
  • �� 在固定交互预算下,LEAFE相较于基础模型显著提升了Pass@1,并在Pass@k上超越了以结果为导向的基线(如GRPO)和基于经验的方法(如Early Experience),在Pass@128上提升高达14%。

应用场景

LEAFE框架的应用场景包括:

  • �� 编程任务:在CodeContests等编程任务中,LEAFE能够通过内化反馈提高代码生成的准确性和效率。
  • �� 多步交互推理:在ALFWorld和ScienceWorld等任务中,LEAFE能够通过识别和修正关键决策点,提高任务完成率。
  • �� 复杂环境中的自主代理:在需要长远交互和错误恢复的复杂环境中,LEAFE能够显著提升模型的自主代理能力。

局限与展望

尽管LEAFE在多个任务中表现出色,但仍存在一些局限:

  • �� 计算开销:由于需要进行反思性回溯和修正,LEAFE的计算开销可能较大,尤其是在大规模应用中。
  • �� 反馈信号不明确:在反馈信号不明确或不一致的情况下,LEAFE的表现可能受到影响。
  • �� 特定任务表现:在某些特定任务中,LEAFE的表现可能不如专门优化的结果驱动方法。未来的研究方向包括优化LEAFE框架的计算效率,探索其在更多复杂任务中的应用,以及结合其他学习策略(如元学习)以进一步提升模型的自主代理能力。

通俗解读 非专业人士也能看懂

想象一下你在一个迷宫中行走,迷宫的墙壁上有许多标记,这些标记告诉你哪些路是死胡同,哪些路是通往出口的。LEAFE就像是一个聪明的助手,它不仅能记住哪些路是死胡同,还能告诉你如何避开这些死胡同,找到更好的路线。传统的方法就像是一个只关注最终是否走出迷宫的助手,它只会记住成功的路线,而不会告诉你如何改进失败的路线。LEAFE通过总结每次尝试的经验,帮助你在下一次尝试中做出更好的决策。这样一来,你不仅能更快地走出迷宫,还能在每次尝试中学到更多的东西。这种方法不仅提高了成功率,还减少了你在迷宫中迷路的次数。

简单解释 像给14岁少年讲一样

想象一下你在玩一个超级复杂的电子游戏,这个游戏有很多关卡,每个关卡都有不同的挑战。传统的方法就像是只关注你是否通关的教练,他只会告诉你成功的路线,而不会告诉你如何改进失败的尝试。LEAFE就像是一个超级聪明的游戏助手,它不仅能记住你每次失败的原因,还能告诉你如何改进你的策略,让你在下一次尝试中更容易通关。这样一来,你不仅能更快地完成游戏,还能在每次尝试中学到更多的技巧。这种方法不仅提高了你的游戏成功率,还减少了你在游戏中失败的次数。是不是很酷?

术语表

大语言模型 (Large Language Model)

一种基于深度学习的模型,能够理解和生成自然语言文本,广泛应用于自然语言处理任务。

在本文中,大语言模型被用作自主代理,需要在提供丰富反馈的环境中进行长远交互。

自主代理 (Autonomous Agent)

一种能够自主进行决策和行动的系统,通常在复杂的环境中执行任务。

本文中的大语言模型被视为自主代理,需要在长远任务中进行决策和恢复。

反馈学习 (Feedback Learning)

一种利用环境反馈信息来改进模型决策的学习方法。

LEAFE框架通过反馈学习内化恢复能力,提高模型在长远任务中的表现。

反思性经验 (Reflective Experience)

一种通过总结过去经验和反馈来改进未来决策的方法。

LEAFE框架通过反思性经验内化恢复能力,使模型在未来交互中更有效地恢复。

长远任务 (Long-Horizon Task)

需要在多个步骤中进行决策和行动的复杂任务。

本文中的实验任务如WebShop和ALFWorld都是长远任务,需要模型具备强大的恢复能力。

结果驱动方法 (Outcome-Driven Method)

一种主要关注最终成功信号的学习方法,通常忽视过程中的反馈信息。

传统的结果驱动方法如GRPO主要优化最终成功信号,而未能充分利用环境反馈。

监督微调 (Supervised Fine-Tuning)

一种通过监督信号对模型进行微调以改进其性能的方法。

LEAFE框架通过监督微调将经验指导的修正内化到模型中。

行为覆盖范围 (Behavioral Coverage)

模型在任务中能够执行的行为的多样性和广度。

LEAFE通过扩展行为覆盖范围,提高了模型在长远交互中的表现。

Pass@k

一种评估模型在k次尝试中至少一次成功的指标,反映了模型的探索能力和成功率。

本文使用Pass@1和Pass@128作为主要评估指标,分别衡量单次尝试的成功率和在较大采样预算下的表现。

GRPO

一种结果驱动的强化学习方法,主要优化成功轨迹的概率。

GRPO被用作本文的基线方法之一,与LEAFE进行对比实验。

开放问题 这项研究留下的未解疑问

  • 1 如何在不增加计算开销的情况下,进一步提高LEAFE框架的效率和性能?当前的方法在处理复杂任务时可能面临计算资源的限制,未来需要探索更高效的算法。
  • 2 在反馈信号不明确或不一致的情况下,如何提高LEAFE的鲁棒性?当前的方法依赖于明确的反馈信号,未来需要研究如何在不确定环境中进行有效决策。
  • 3 LEAFE在特定任务中的表现是否能够超越专门优化的结果驱动方法?需要进一步的实验验证和理论分析。
  • 4 如何将LEAFE与其他学习策略(如元学习)结合,以进一步提升模型的自主代理能力?这可能需要新的算法设计和实验验证。
  • 5 在多任务学习环境中,LEAFE的表现如何?需要研究其在不同任务间的迁移能力和适应性。

应用场景

近期应用

编程任务优化

LEAFE可以用于优化编程任务中的代码生成,通过内化反馈提高代码的准确性和效率,适用于自动化编程工具。

复杂环境中的自主代理

在需要长远交互和错误恢复的复杂环境中,LEAFE能够显著提升模型的自主代理能力,适用于机器人和自动驾驶等领域。

多步交互推理

LEAFE可以用于多步交互推理任务,通过识别和修正关键决策点,提高任务完成率,适用于智能助手和对话系统。

远期愿景

通用人工智能

通过不断优化和扩展LEAFE框架,未来有可能实现更强大的通用人工智能系统,能够在复杂环境中进行自主决策和学习。

跨领域应用

LEAFE的技术可以扩展到更多领域,如医疗诊断、金融分析等,通过内化反馈提高决策的准确性和鲁棒性。

原文摘要

Large language models are increasingly deployed as autonomous agents that must plan, act, and recover from mistakes through long-horizon interaction with environments that provide rich feedback. However, prevailing outcome-driven post-training methods (e.g., RL with verifiable rewards) primarily optimize final success signals, leaving rich environment feedback underutilized. Consequently, they often lead to distribution sharpening: the policy becomes better at reproducing a narrow set of already-successful behaviors, while failing to improve the feedback-grounded agency needed to expand problem-solving capacity (e.g., Pass@k) in long-horizon settings. To address this, we propose LEAFE (Learning Feedback-Grounded Agency from Reflective Experience), a framework that internalizes recovery agency from reflective experience. Specifically, during exploration, the agent summarizes environment feedback into actionable experience, backtracks to earlier decision points, and explores alternative branches with revised actions. We then distill these experience-guided corrections into the model through supervised fine-tuning, enabling the policy to recover more effectively in future interactions. Across a diverse set of interactive coding and agentic tasks under fixed interaction budgets, LEAFE consistently improves Pass@1 over the base model and achieves higher Pass@k than outcome-driven baselines (GRPO) and experience-based methods such as Early Experience, with gains of up to 14% on Pass@128.

cs.AI

参考文献 (20)

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

Qizheng Zhang, Changran Hu, Shubhangi Upasani 等

2025 76 引用 ⭐ 高影响力 查看解读 →

FLEX: Continuous Agent Evolution via Forward Learning from Experience

Zhicheng Cai, Xinyuan Guo, Yu Pei 等

2025 18 引用 ⭐ 高影响力 查看解读 →

Qwen2 Technical Report

An Yang, Baosong Yang, Binyuan Hui 等

2024 1932 引用 ⭐ 高影响力 查看解读 →

The Llama 3 Herd of Models

Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey 等

2024 13446 引用 ⭐ 高影响力 查看解读 →

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

Weihao Zeng, Yuzhen Huang, Qian Liu 等

2025 417 引用 ⭐ 高影响力 查看解读 →

StepFun-Prover Preview: Let's Think and Verify Step by Step

Shijie Shang, Ruosi Wan, Yue Peng 等

2025 7 引用 ⭐ 高影响力 查看解读 →

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Mingyue Cheng, Ouyang Jie, Shuo Yu 等

2025 20 引用 ⭐ 高影响力 查看解读 →

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GLM-4.5 Team Aohan Zeng, Xin Lv, Qinkai Zheng 等

2025 242 引用 查看解读 →

Agent Learning via Early Experience

Kai Zhang, Xiang Chen, Bo Liu 等

2025 28 引用 查看解读 →

Mastering Diverse Domains through World Models

Danijar Hafner, J. Pašukonis, Jimmy Ba 等

2023 957 引用 查看解读 →

HybridFlow: A Flexible and Efficient RLHF Framework

Guangming Sheng, Chi Zhang, Zilingfeng Ye 等

2024 1305 引用 查看解读 →

Process Reinforcement through Implicit Rewards

Ganqu Cui, Lifan Yuan, Zefan Wang 等

2025 275 引用 查看解读 →

Internalizing World Models via Self-Play Finetuning for Agentic RL

Shiqi Chen, Tongyao Zhu, Zian Wang 等

2025 8 引用 查看解读 →

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

Peng Xia, Peng Xia, Kaide Zeng 等

2025 16 引用 查看解读 →

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

Siru Ouyang, Jun Yan, I-Hung Hsu 等

2025 43 引用 查看解读 →

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao, Jeffrey Zhao, Dian Yu 等

2022 6412 引用 查看解读 →

OpenAI o1 System Card

Ahmed El-Kishky

2024 1575 引用

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

Penghui Qi, Zi-Yan Liu, Tianyu Pang 等

2025 21 引用 查看解读 →

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Wei Fu, Jiaxuan Gao, Xu Shen 等

2025 132 引用 查看解读 →

Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent

Xingzuo Li, Kehai Chen, Yunfei Long 等

2025 3 引用 查看解读 →