EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

TL;DR

提出EEVEE框架,通过路由器和提示集实现多数据集测试时提示学习,提升模型在异质任务流中的鲁棒性,平均提升10.38-24.32分。

cs.LG 🔴 高级 2026-06-10 57 次浏览
Weixian Xu Shilong Liu Mengdi Wang
大规模语言模型 提示学习 多任务适应 路由器机制 自我提升

核心发现

方法论

EEVEE框架引入一个路由器,用于将输入流划分为任务簇,并为每个簇分配专属提示配置。通过路由器-提示共同进化策略,交替优化路由器和提示集,确保两者协同提升。具体实现包括三阶段训练:初始化提示集、探索耦合更新、稳定后大规模优化。路由器采用多目标评分机制(准确性、一致性、平衡性)进行优化,提示集通过Pareto前沿池实现多样性维护。模型在多数据集(如GPQA、Formula、TheoremQA、HumanEval)上进行评估,结果显示EEVEE在四个基准上平均提升10.38到24.32分,超越SOTA方法GEPA和ACE,增益高达37.2%和48.2%。

关键结果

  • 在Qwen3-4B-Instruct模型上,EEVEE实现了51.75的平均分,较未适应模型提升10.38分,超越GEPA和ACE分别16.83和14.02分,表现出优异的多任务适应能力。
  • 在DeepSeek-V3.2模型上,平均分达到64.07,较基线提升24.32分,单个任务如HumanEval提升50分,Formula提升30.55分,显示出强大的跨任务迁移和抗干扰能力。
  • 消融实验表明,学习的路由器和提示的共同优化显著优于静态路由或单阶段训练,动态耦合策略有效缓解跨数据集干扰问题。

研究意义

该研究解决了大规模语言模型在面对多源异构任务流时的适应性和鲁棒性不足问题,为实际应用中的多任务、多域场景提供了可行方案。通过引入路由机制,有效缓解了不同任务间的干扰,提升模型在复杂环境中的表现,为未来自我提升和持续学习的智能系统奠定基础。这不仅推动了提示学习理论的发展,也为工业界提供了具有实际价值的多任务自适应技术,有望在智能客服、自动编程、知识问答等领域实现广泛应用。

技术贡献

本文提出了多数据集测试时提示学习的创新框架EEVEE,核心在于引入路由器条件提示集,通过路由器-提示共同进化策略实现多任务适应。具体技术贡献包括:• 设计了基于多目标评分的路由器优化机制,有效划分任务簇,减少跨任务干扰;• 提出三阶段训练流程(初始化、探索、收敛),确保提示集多样性与路由器稳定性;• 引入Pareto前沿池维护多样提示,增强模型的适应性和泛化能力;• 实现跨模型和跨任务的迁移能力,验证其在多个公开数据集上的优越表现,显著优于现有SOTA方法。

新颖性

这是首个针对多数据源异构任务流的测试时提示学习框架,创新在于引入路由器条件提示集,突破了单一提示或固定路由的限制。相较于GEPA和ACE等方法,EEVEE通过路由器-提示共同进化,有效缓解了跨任务干扰问题,实现了多任务持续学习和自我优化的能力。这一机制为大规模语言模型在复杂、多变环境中的应用提供了新思路,具有重要的理论和工程价值。

局限性

  • 当前路由器的性能依赖于训练阶段的样本分布,面对极端或未见过的任务类型可能表现不佳,存在泛化不足的问题。
  • 训练过程复杂,涉及多阶段、多目标优化,计算成本较高,实际部署时对硬件资源要求较大。
  • 模型在某些任务中仍可能出现干扰或遗忘,特别是在任务簇划分不理想或提示集未能充分覆盖任务多样性时。

未来方向

未来可探索更高效的路由器设计,结合元学习或强化学习机制提升泛化能力。还可以扩展到多模态任务,结合视觉、语音等多源信息,增强模型的多任务适应性。此外,优化训练流程,降低计算成本,提升模型在实际工业场景中的应用效率,也是未来的重要方向。

AI 总览摘要

在人工智能领域,如何让大规模语言模型(LLMs)在面对复杂、多样的现实任务流中保持高效、鲁棒的表现,一直是研究的热点。传统方法多依赖单一数据集或静态提示,难以应对实际应用中不断变化的任务环境。本文提出了EEVEE(Efficient Evolving Prompting in Heterogeneous Environments)框架,旨在解决多任务、多域场景下的提示学习难题。

EEVEE的核心创新在于引入一个路由器,用于动态划分输入流中的任务簇,并为每个簇分配专属的提示配置。通过路由器-提示共同进化策略,模型在训练过程中不断优化路由器的划分策略和提示集的内容,实现两者的协同提升。这一机制确保模型能够在多任务环境中保持任务的专属性,减少不同任务间的干扰,从而提升整体性能。

技术上,EEVEE采用三阶段训练流程:初始化阶段建立多样化的提示集,探索阶段通过交替优化路由器和提示,最后在收敛阶段进行大规模提示微调。路由器的优化基于多目标评分,包括准确性、一致性和任务平衡性,确保划分的合理性和稳定性。提示集通过Pareto前沿池维护多样性,避免陷入单一提示的局限。

在多个公开数据集(如GPQA、Formula、TheoremQA、HumanEval)上的实验结果显示,EEVEE在四个基准任务中的平均得分分别比Qwen3-4B-Instruct提升10.38到24.32分,超越了现有SOTA方法GEPA和ACE,提升幅度高达37.2%和48.2%。特别是在多任务连续学习场景中,EEVEE表现出极强的抗干扰能力和迁移能力,显著改善模型的持续学习表现。

这一研究不仅为多任务、多域的提示学习提供了新思路,也为未来智能系统的自我提升和持续学习奠定了基础。通过引入路由机制和共同进化策略,EEVEE展现了在复杂环境中实现高效自适应的巨大潜力,预示着大规模语言模型在实际应用中的更广泛可能性。

深度分析

研究背景

近年来,随着大规模预训练语言模型(如GPT、BERT、T5等)的快速发展,提示学习成为提升模型适应性的重要手段。早期工作如软提示(Soft Prompting)和离散提示(Discrete Prompting)通过优化提示参数实现模型微调,极大减少了参数更新的成本。随后,黑箱优化和演化算法被引入,用于自动生成和优化提示,代表方法包括AutoPrompt、P-Tuning等。反思(Reflection)机制如GEPA和ACE提出利用模型反馈进行自我改进,提升了提示的效果。然而,这些方法大多局限于单一任务或数据集,难以应对现实中多源异构任务流的问题。近年来,研究开始关注多任务、多域的提示适应,尝试通过多提示池或记忆机制实现多任务共存,但仍面临跨任务干扰和泛化不足的挑战。整体来看,提示学习已从单一任务逐步向多任务、多域扩展,但在实际复杂环境中的应用仍需创新机制以提升鲁棒性和效率。

核心问题

在实际应用中,模型常常面对来自不同领域、不同任务格式的输入流,单一提示或静态路由难以满足多样化需求。传统方法在多任务环境中容易出现干扰,导致模型在某些任务上表现下降,甚至遗忘先前学到的知识。现有的多任务提示方法多采用固定提示或预定义路由,缺乏动态适应能力,难以应对任务流的不断变化。这种局限性严重制约了大规模语言模型在工业界的推广应用,尤其是在需要持续学习和自我优化的场景中。解决这一问题的关键在于设计一种机制,既能动态划分任务簇,又能保证不同任务的提示专属性和泛化能力,同时避免模型在多任务环境中出现干扰和遗忘。实现这一目标需要创新的路由策略、协同优化机制以及高效的训练流程,以支持模型在复杂、多变的任务流中持续提升。

核心创新

本文的核心创新在于提出EEVEE框架,结合路由器条件提示集和共同进化策略,突破了传统单一提示和静态路由的限制。具体创新包括:• 引入可学习的路由器,用于动态划分输入流中的任务簇,减少不同任务间的干扰;• 设计三阶段训练流程(初始化、探索、收敛),确保提示集多样性和路由器稳定性,提升模型适应性;• 提出路由器-提示共同进化机制,通过交替优化实现两者的协同提升,避免单向优化带来的局限;• 利用多目标评分(准确性、一致性、平衡性)指导路由器优化,确保划分合理且鲁棒;• 采用Pareto前沿池维护多样提示,增强模型的泛化能力和任务适应性。这些创新使得模型能够在多任务、多域环境中实现持续学习和自我提升,显著优于现有方法。

方法详解

  • �� 输入:多源异构任务流,包含不同领域、格式和评价规则的数据。
  • �� 初始化:在混合训练集上进行提示微调,生成多样化提示池,利用Pareto前沿筛选出具有互补性的提示。
  • �� 路由器设计:构建可学习的路由器,基于多目标评分(准确性、一致性、平衡性)进行优化,划分输入流到不同任务簇。
  • �� 共同进化:在训练过程中,交替进行路由器演化和提示集微调。
  • 路由器演化:在固定提示集的基础上,生成多个候选路由策略,评估其在验证集上的性能,选择最优者。
  • 提示微调:在确定的路由簇内,对提示进行突变和反思,提升其任务适应性。
  • �� 训练流程:分为三阶段(初始化、探索、收敛),每阶段目标不同,逐步提升模型性能。
  • �� 评估:在多个公开数据集(GPQA、Formula、TheoremQA、HumanEval)上测试,比较不同策略的效果,验证鲁棒性和迁移能力。

实验设计

  • �� 数据集:包括GPQA(知识问答)、Formula(数学推理)、TheoremQA(符号推理)、HumanEval(代码生成)等,覆盖多种任务类型。
  • �� 基线:未适应模型、GEPA、ACE、静态路由、单阶段训练等。
  • �� 评价指标:平均得分、任务保持率、迁移能力、模型鲁棒性。
  • �� 超参数:路由器目标评分权重、提示池大小、训练轮次、学习率等,经过调优。
  • �� 实验设计:多轮随机抽样多次运行,统计平均性能,进行消融分析验证不同组件的贡献,测试不同任务簇划分策略的效果。

结果分析

  • �� 在四个基准任务上,EEVEE平均提升10.38至24.32分,显著优于GEPA和ACE,尤其在多任务连续学习中表现出极强的抗干扰能力。
  • �� 在跨模型迁移中,提示在Qwen3-4B-Instruct上训练后,迁移到DeepSeek-V3.2模型,平均提升12.28分,显示出良好的泛化能力。
  • �� 消融实验显示,静态路由和单阶段训练效果明显逊色,动态共同优化策略显著提升性能,验证了设计的有效性。

应用场景

  • �� 立即应用:可用于智能客服系统、多任务问答平台、自动编程助手等场景,提升模型在多源任务中的表现和稳定性。
  • �� 长远愿景:推动自主学习和自我优化的智能系统发展,实现模型在复杂环境中的持续适应和自我提升,未来可结合强化学习和元学习进一步增强性能。

局限与展望

  • �� 当前路由器性能依赖于训练样本分布,面对极端或未见任务类型可能表现不足。
  • �� 训练过程复杂,计算成本高,部署难度较大。
  • �� 在某些任务中仍存在干扰或遗忘问题,特别是在簇划分不理想或提示覆盖不足时。未来需优化训练效率和泛化能力,解决模型在极端场景下的表现不足。

通俗解读 非专业人士也能看懂

想象你在一家大型工厂工作,工厂里有许多不同的生产线,每条生产线负责不同的产品。有时候,工厂接到新订单,这些订单来自不同的客户,要求不同的产品。为了让工厂高效运转,管理者会根据订单的不同类型,把订单分配到不同的生产线。每条生产线都特别擅长某一类产品,但如果所有订单都挤在一起,工厂就会变得混乱,生产效率也会下降。

现在,把大规模语言模型想象成这个工厂,提示集就是不同的生产线,而路由器就像管理者,负责决定每个订单(输入)应该送到哪条生产线(提示)。这个管理者不断学习和调整自己的判断,确保每个订单都能由最擅长的生产线处理,从而提高整体效率。通过不断地试错和优化,工厂逐渐变得更聪明,能应对各种复杂订单,保持高效运转。这种方法让工厂在面对各种新订单时,都能快速适应,发挥出最好的水平,就像EEVEE让大模型在多任务环境中表现得更出色一样。

简单解释 像给14岁少年讲一样

想象你在学校里,有很多不同的老师教不同的科目,比如数学、语文、科学。每个老师都擅长自己的一套教学方法。有时候,你会遇到不同的老师给你布置不同的作业。有的老师喜欢用题目来考你,有的老师喜欢让你写作文。为了让你学得更好,学校会安排一个“老师调度员”,根据你要学的科目,把你安排到最合适的老师那里。这个调度员会不断学习,知道哪个老师擅长什么,然后根据你的作业内容,把你送到最合适的老师那里。这样,你就能更快、更好地学到东西,不会被不同老师的风格搞糊涂。

EEVEE的想法也是一样的:它让一个“调度员”学会根据输入内容,把不同的任务送到不同的“提示老师”那里。每个“提示老师”都专门擅长某一类任务,比如数学推理或写代码。通过不断调整这个调度员和老师们的提示,模型变得越来越聪明,能应对各种不同的任务,就像你在学校里学得更好一样。这种方法让大模型在面对复杂、多样的任务时,表现得更稳定、更聪明。

术语表

Prompt Tuning (提示微调)

一种通过调整输入提示内容以引导模型行为的方法,无需修改模型参数。技术上通过优化提示向量或文本实现任务适应。

在本文中,提示微调用于在测试时动态优化模型的响应策略。

Router (路由器)

在模型中用于根据输入特征动态划分任务簇或选择提示配置的机制,类似于交通指挥员。

本文引入可学习的路由器,用于将输入流划分到不同的提示集。

Co-evolution (共同进化)

两个或多个系统(如路由器和提示集)在训练过程中交替优化,相互促进以达到更优性能。

本文采用路由器-提示共同进化策略,确保两者协同提升。

Pareto Front (帕累托前沿)

在多目标优化中,表示不存在其他方案在所有目标上都优于它的解集合。

用以维护提示集多样性,避免陷入局部最优。

Multi-dataset Test-time Prompt Learning (多数据集测试时提示学习)

在模型部署后,面对来自多个不同数据源或任务的输入,动态调整提示以适应不同任务的学习方法。

本文的核心目标。

Multi-objective Optimization (多目标优化)

同时优化多个目标(如准确性、一致性、平衡性),以获得更全面的模型性能。

用于路由器的评分机制。

Task Cluster (任务簇)

由路由器划分的具有相似特征或需求的输入集合,用于提示配置的匹配。

实现多任务适应的基础。

Prompt Pool (提示池)

存储多样化提示的集合,用于在训练和推理中选择最优提示。

通过Pareto前沿维护多样性。

Self-Improving Agents (自我提升代理)

能够通过自身反馈不断优化行为和策略的智能系统。

本文目标之一。

Heterogeneous Task Streams (异构任务流)

包含多种不同类型、领域和格式的任务输入流。

模型面临的实际挑战。

开放问题 这项研究留下的未解疑问

  • 1 当前路由器在极端或未见任务类型下的泛化能力不足,未来需结合元学习或强化学习技术进行增强。
  • 2 如何在保证模型性能的同时,降低训练和推理的计算成本,是实际部署中的关键问题。
  • 3 多任务环境中,如何设计更高效的簇划分策略,减少任务间干扰,提升模型的持续学习能力。
  • 4 模型在面对极端或新颖任务时的适应速度和稳定性仍需提升,特别是在资源有限的场景。
  • 5 如何结合多模态信息(如视觉、语音)实现跨模态多任务学习,拓展应用范围。

应用场景

近期应用

多任务问答系统

在智能客服或知识问答平台中,模型能根据不同用户请求自动切换任务簇,提升响应准确性和鲁棒性。

自动编程助手

结合不同编程任务的提示,支持多语言、多任务的代码生成和调试,提升开发效率。

多领域知识管理

在企业知识库中,模型根据任务类型自动调配提示,保持知识的准确性和一致性。

远期愿景

自主学习与自我优化

未来模型能在实际环境中不断通过反馈调整路由和提示,实现持续自我提升,减少人工干预。

跨模态多任务智能系统

结合视觉、语音等多模态信息,构建具有多源感知和适应能力的智能系统,广泛应用于机器人、智能家居等。

原文摘要

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.

cs.LG cs.AI