MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

TL;DR

MUSE-Autoskill通过技能生命周期管理提升任务成功率，技能复用率达68.4%。

cs.AI 🔴 高级 2026-05-27 178 次浏览

Huawei Lin Peng Li Jie Song Fuxin Jiang Tieying Zhang

大语言模型技能演化技能管理记忆机制自动化代理

核心发现

方法论

本文提出MUSE-Autoskill框架，基于大语言模型代理，围绕技能的创建、记忆、管理、评估和精炼五个生命周期阶段，实现技能的动态生成、存储、复用与持续优化。核心创新包括内嵌skill_create工具实现运行时技能创建，独特的技能级记忆模块积累跨任务经验，单元测试驱动的自动评估与反馈机制保证技能质量，以及自适应上下文压缩和跨会话状态持久化支持长任务处理。技能执行通过统一接口调用沙箱环境中的代码和资源，确保技能的模块化和可测试性。该框架支持跨代理技能迁移，提升了技能的通用性和复用性。

关键结果

在SkillsBench基准测试中，MUSE-Autoskill在51个任务上实现68.40%的准确率，较无技能基线提升15.21个百分点，显著优于Codex和Hermes代理。
在35个成功生成技能的任务中，MUSE-Autoskill准确率超过人类技能上限，展示了自动生成技能的高效性和可靠性。
技能跨代理迁移实验中，注入MUSE生成技能的Hermes代理准确率提升至79%，验证了技能的可移植性和通用价值。

研究意义

MUSE-Autoskill通过将技能视为长期演化的可测试资产，突破了现有方法中技能孤立、静态且缺乏持续优化的瓶颈。该框架不仅增强了代理的任务解决能力和效率，还推动了技能复用与跨代理共享，促进了智能代理系统的模块化和可持续发展。其无训练设计使得方法具备良好的通用性和扩展性，适应多样化应用场景，对学术界和工业界均具有重要影响。

技术贡献

本研究首次系统整合了技能生命周期的五个关键阶段，提出了独特的技能级记忆机制，支持跨任务经验积累和动态适应。引入基于单元测试的自动评估与反馈闭环，实现技能的自动修正和精炼，提升了技能的可靠性和稳定性。采用统一的技能执行接口和沙箱环境，保证技能的模块化和安全执行。此外，框架支持跨代理技能迁移，打破了以往技能与特定模型绑定的限制，拓展了技能的应用边界。

新颖性

MUSE-Autoskill是首个覆盖技能创建、记忆、管理、评估和精炼全生命周期的训练自由框架，独创技能级记忆模块和自动化单元测试驱动的技能精炼机制，显著区别于现有仅覆盖部分生命周期或依赖强化学习训练的方案。其跨代理技能迁移实验首次实证了技能的通用性和可移植性，推动了技能作为长期经验资产的理念。

局限性

当前框架在科学与工程领域部分任务表现略逊于Codex，可能受限于技能生成的边界条件和复杂度。
自动生成技能依赖于成功轨迹，若初始任务失败率较高，技能创建效率和质量可能受影响。
技能管理和记忆机制对存储和计算资源有较高需求，长远应用中需优化系统开销。

未来方向

未来工作包括扩展技能生成的多模态能力，提升复杂领域任务的技能质量；优化记忆压缩与检索策略以降低资源消耗；探索更多跨代理和跨模型的技能迁移场景；结合强化学习进一步提升技能选择和精炼的自动化水平。

AI 总览摘要

随着大语言模型（LLM）代理在复杂任务中的应用日益广泛，如何高效复用和持续优化技能成为关键挑战。现有方法多将技能视为孤立且静态的模块，限制了技能的复用性和长期改进能力。针对这一问题，本文提出了MUSE-Autoskill框架，围绕技能的创建、记忆、管理、评估和精炼五个生命周期阶段，实现技能的动态生成、存储、复用与持续优化。该框架通过内嵌的skill_create工具实现运行时技能创建，独特的技能级记忆机制积累跨任务经验，单元测试驱动的自动评估与反馈机制保证技能质量，支持跨代理技能迁移，显著提升了代理的任务解决能力和效率。

MUSE-Autoskill的核心技术包括统一的技能执行接口和沙箱环境，确保技能的模块化和安全执行；多层次记忆体系（短期、长期、技能级）支持经验积累和上下文管理；自适应上下文压缩与跨会话状态持久化解决了长任务的上下文窗口限制。通过在SkillsBench基准的51个真实任务上测试，MUSE-Autoskill实现了68.40%的准确率，较无技能基线提升15.21个百分点，且在成功生成技能的任务中准确率超过人类技能上限，验证了自动技能生成的有效性。

此外，技能跨代理迁移实验显示，将MUSE生成的技能注入不同代理后，准确率提升至79%，证明技能作为长期经验资产的通用性和可移植性。该框架突破了以往技能孤立、静态和缺乏持续优化的瓶颈，推动了智能代理系统的模块化和可持续发展。其无训练设计使方法具备良好的通用性和扩展性，适应多样化应用场景。

尽管如此，MUSE-Autoskill在科学与工程领域部分任务表现仍略逊于Codex，且自动技能生成依赖成功轨迹，存在效率和质量波动。未来工作将聚焦多模态技能生成、记忆优化、跨代理迁移扩展及结合强化学习提升自动化水平。总体而言，MUSE-Autoskill为构建自我演化、长期优化的智能代理提供了系统性解决方案，具有重要的学术价值和广泛的应用前景。

深度分析

研究背景

近年来，大语言模型（LLM）代理在自然语言处理、自动化工具调用和复杂任务解决中取得显著进展。代表性工作如ReAct提出了推理与行动交织的框架，随后Agent-Omni和OmniGAIA等多模态自主代理进一步扩展了应用范围。与此同时，工具使用能力的提升成为代理系统的核心，涵盖少样本工具调用、模型选择驱动的工具编排及大规模API检索。软件工程领域的CodeAgent、SWE-Agent等代理推动了沙箱环境下的代码生成与调试。尽管如此，现有代理多依赖固定的工具库或简单的对话历史，缺乏对技能的系统化管理和持续演化能力。技能作为可复用的能力单元，能够解耦模型权重与具体能力，实现模块化执行和结构化知识积累，成为构建可扩展代理系统的关键。然而，如何使代理自主创建、验证、管理和优化技能，仍是智能代理领域的核心挑战。

核心问题

当前自动技能生成方法存在四大瓶颈：一是创建-使用不匹配，技能生成时缺乏运行时上下文支持，导致技能与实际需求脱节；二是缺乏结构化的技能级记忆，无法跨任务积累经验，限制技能的适应性和复用性；三是技能静态且未经系统验证，缺少基于单元测试的自动评估与精炼机制，影响技能的可靠性；四是上下文管理不足，长任务中对话历史截断或溢出，导致信息丢失。上述问题限制了技能的长期演化和跨代理迁移，阻碍了智能代理系统的持续自我提升与规模化发展。

核心创新

本文的核心创新包括：

�� 技能生命周期全覆盖：首次系统整合技能的创建、记忆、管理、评估和精炼五个阶段，形成统一框架，支持技能的动态生成与持续优化。

�� 技能级记忆机制：引入独特的技能级记忆模块，跨任务积累技能使用经验和失败模式，提升技能的适应性和复用效率。

�� 单元测试驱动的自动评估与精炼：通过技能自带的测试套件自动验证技能正确性，失败时自动触发技能修正，保证技能质量和稳定性。

�� 统一技能执行接口与沙箱环境：技能执行通过标准化接口调用隔离沙箱，确保代码安全、模块化和可测试。

�� 跨代理技能迁移：首次实证技能在不同代理间的无缝迁移，打破技能与特定模型绑定的限制，提升技能通用性。

方法详解

MUSE-Autoskill框架设计如下：

�� 迭代决策循环：代理基于输入任务，循环执行规划、行动和观察三个阶段，动态调用技能或创建新技能。

�� 技能创建：当现有技能不足时，内嵌skill_create工具根据高层功能规格生成完整技能包（包括SKILL.md接口定义、脚本、资源和单元测试）。

�� 技能评估：新建技能通过沙箱执行tests目录中的单元测试，只有全部通过后才注册入技能库，失败则自动修正后重测。

�� 技能执行：代理读取技能接口，调用沙箱环境执行代码或读取资源，执行结果反馈至推理循环，支持多步迭代和错误处理。

�� 技能记忆：多层次记忆体系包括短期记忆（当前任务步骤与观察）、长期记忆（跨任务通用经验）和技能级记忆（每个技能的使用历史和经验积累）。

�� 技能管理：基于技能元数据索引，任务开始时注入技能目录，规划阶段选择最相关技能。支持技能合并、修正和剔除，保持技能库精简高效。

�� 上下文管理：构建对话DAG结构，采用两级自适应压缩（节点摘要与合并）防止上下文溢出，支持跨会话状态持久化，保障长任务连续性。

�� 跨代理迁移：生成技能可无缝注入其他代理，提升技能复用和系统通用性。

实验设计

实验基于SkillsBench基准，涵盖51个真实世界任务，分属科学与工程、数据分析、文档处理和运维规划四大领域。每个任务在隔离Docker容器中执行，自动验证最终输出准确性，评分范围[0,1]。对比对象包括Codex和Hermes两种GPT-5.5驱动代理，均在相同模型基础上测试，确保性能差异源于系统设计。评估指标为任务准确率，采用5次重复平均。实验设计还包括技能生成能力测试及跨代理技能迁移验证，后者通过将MUSE生成的技能注入Hermes代理，观察性能提升。所有实验均在统一环境下进行，排除环境错误影响。

结果分析

实验结果显示：

�� MUSE-Autoskill在51个任务上实现68.40%的平均准确率，较无技能基线提升15.21个百分点，优于Codex（67.28%）和Hermes（61.21%）。

�� 在35个成功生成技能的任务中，MUSE准确率超过人类技能上限，证明自动技能生成的高效性和可靠性。

�� 跨代理迁移实验中，Hermes注入MUSE技能后准确率提升至79%，验证技能的通用性和可移植性。

�� 分领域分析显示，MUSE在数据分析、文档处理和运维规划领域表现领先，科学与工程领域略逊于Codex，提示复杂领域技能生成仍有提升空间。

应用场景

MUSE-Autoskill适用于需要多步骤、多领域知识和工具调用的复杂任务自动化，如科学计算模拟、数据分析自动化、文档智能处理及系统运维规划。其技能生命周期管理机制支持长期积累和复用，适合构建自我演化的智能代理系统。跨代理技能迁移能力使得技能库可在不同产品线和模型间共享，促进工业界多样化应用和协同开发。该框架还可扩展至多模态任务，支持未来智能助手、自动化研发和复杂流程管理等场景。

局限与展望

尽管MUSE-Autoskill表现优异，但仍存在局限：

�� 在科学与工程领域部分任务准确率低于Codex，可能因技能生成复杂度高及边界条件限制。

�� 技能自动生成依赖成功轨迹，初期任务失败率高时，技能创建效率和质量受限。

�� 多层记忆和上下文管理对计算资源消耗较大，长远部署需优化系统性能和存储。

�� 当前技能评估主要依赖单元测试，复杂技能的全面验证仍具挑战。

�� 跨代理迁移虽有效，但不同代理间潜在的接口兼容性和执行环境差异需进一步研究。

通俗解读非专业人士也能看懂

想象你有一个万能的工具箱，里面装着各种工具，每个工具都有自己的说明书和使用方法。MUSE-Autoskill就像一个聪明的工匠，不仅能根据需要自己制造新工具，还会把用过的工具收集起来，记下它们的使用心得和优缺点。每次遇到新任务时，工匠会先看看工具箱里有没有合适的工具，如果没有，就动手做一个新的。做完后，他会仔细测试这个工具，确保它能正常工作，坏了还能修理。这样，工具箱里的工具越来越多，越来越好用，工匠解决问题的效率也越来越高。

更妙的是，这个工匠还能把自己的工具分享给其他工匠，别人用起来也很顺手，不用重新造轮子。即使任务很复杂，工具箱里的工具也能灵活组合使用，帮助工匠一步步完成目标。这个过程就像我们平时做事时积累经验，学会用更聪明的方法解决问题。MUSE-Autoskill通过管理技能的整个生命周期，让智能代理像这个工匠一样，不断进步，变得更聪明、更高效。

简单解释像给14岁少年讲一样

嘿，想象你是个超级厉害的游戏玩家，有个神奇的背包，里面装着各种技能卡片。每当你遇到新关卡，背包里的技能可以帮你轻松过关！但是，有时候你会发现背包里没有合适的技能，这时候你就可以自己创造新的技能卡片，写上怎么玩，怎么用。更酷的是，你还会给这些技能做小测试，确保它们真的有效，不会出错。

每次你用过技能，背包都会记住它的表现，告诉你哪些技能特别厉害，哪些需要改进。这样，下次遇到类似的关卡，你就能更快地选出最棒的技能。更棒的是，你还能把这些技能分享给你的朋友，他们用起来也很顺手！

这就像MUSE-Autoskill一样，是个聪明的AI代理，能自己创造、测试、改进技能，还能记住经验，帮它更好地完成各种任务。是不是很酷？这让AI变得更聪明，也更像我们人类一样会学习和成长！

术语表

Large Language Model (LLM)（大语言模型）

基于深度学习的大规模预训练语言模型，能够理解和生成自然语言文本，支持复杂推理和任务执行。

本文中，LLM是智能代理的核心推理引擎，支持技能的创建和调用。

Skill Lifecycle（技能生命周期）

技能从创建、记忆、管理、评估到精炼的全过程，确保技能的动态生成、持续优化和复用。

MUSE-Autoskill框架围绕技能生命周期设计，实现技能的自我演化。

Skill-level Memory（技能级记忆）

针对每个技能单独维护的记忆模块，积累跨任务的使用经验和反馈，提升技能适应性。

该机制是MUSE-Autoskill区别于其他方法的关键创新。

Unit Test（单元测试）

对技能功能进行自动化验证的测试套件，确保技能输出符合预期，支持自动修正。

技能创建后通过单元测试验证，保证技能质量。

Sandbox Environment（沙箱环境）

隔离的执行环境，保证技能代码安全运行，防止副作用和资源冲突。

技能执行通过沙箱调用，确保模块化和安全。

ReAct Loop（推理-行动循环）

代理在推理、行动和观察间交替进行的循环过程，支持动态决策和技能调用。

MUSE-Autoskill中技能执行嵌入ReAct循环，实现灵活交互。

SkillsBench（技能基准）

包含51个真实任务的评测基准，覆盖科学、数据分析、文档处理和运维规划四大领域。

本文用SkillsBench评估MUSE-Autoskill性能。

Cross-agent Skill Transfer（跨代理技能迁移）

将一种代理生成的技能无缝应用于另一种代理，提升技能通用性和复用性。

MUSE-Autoskill首次实证了技能的跨代理迁移能力。

Adaptive Context Compression（自适应上下文压缩）

动态压缩对话历史和执行上下文，防止超出模型输入限制，支持长任务处理。

MUSE采用两级压缩策略管理长上下文。

Skill Bank（技能库）

存储和管理所有可用技能的结构化仓库，支持索引、检索和维护。

MUSE-Autoskill通过技能库实现技能复用和管理。

开放问题这项研究留下的未解疑问

1 如何在更复杂、多模态环境中自动生成高质量技能，提升技能覆盖面和表达能力，仍是未解难题。
2 技能级记忆的高效压缩与检索机制尚需优化，以降低计算资源消耗，支持更大规模应用。
3 跨代理技能迁移在不同执行环境和接口标准下的兼容性问题尚未充分解决。
4 自动化技能评估目前主要依赖单元测试，如何设计更全面的评估体系以涵盖安全性和鲁棒性仍待研究。
5 技能生成对初期成功轨迹依赖较大，如何提升低成功率环境下的技能创建效率是未来挑战。
6 长任务上下文管理虽有自适应压缩，但信息丢失风险依然存在，需探索更智能的上下文维护策略。
7 结合强化学习等训练方法与训练自由框架的融合路径及其性能提升效果尚未明确。

应用场景

近期应用

自动化科学计算

利用MUSE-Autoskill自动生成和复用领域特定计算技能，提升科学模拟和数据处理效率，减少人工干预。

智能数据分析助手

通过技能库管理多种数据分析方法，实现跨任务复用和持续优化，帮助用户快速完成复杂数据处理。

文档智能处理

自动创建和调用文档解析、格式转换等技能，支持多格式、多语言文档的高效处理和管理。

远期愿景

自我演化智能代理系统

构建具备持续学习和技能自我优化能力的智能代理，实现复杂任务的长期自主解决和跨领域迁移。

跨平台技能共享生态

建立技能共享标准和平台，促进不同代理和应用间的技能互操作和协同进化，推动AI产业协同发展。

原文摘要

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.

cs.AI cs.CL cs.LG cs.MA

参考文献 (20)

Reflexion: language agents with verbal reinforcement learning

Noah Shinn, Federico Cassano, Beck Labash 等

2023 3630 引用 ⭐ 高影响力查看解读 →

Baseline

W. Leigh, Anne Kriete

2020 132 引用

SkillRet: A Large-Scale Benchmark for Skill Retrieval in LLM Agents

H. Cho, Ryan Kang, Youngeun Kim

2026 1 引用查看解读 →

Gorilla: Large Language Model Connected with Massive APIs

Shishir G. Patil, Tianjun Zhang, Xin Wang 等

2023 1227 引用查看解读 →

Understanding the planning of LLM agents: A survey

Xu Huang, Weiwen Liu, Xiaolong Chen 等

2024 439 引用查看解读 →

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

Yuchen Shi, Yuzheng Cai, Siqi Cai 等

2025 3 引用查看解读 →

MemGPT: Towards LLMs as Operating Systems

Charles Packer, Vivian Fang, Shishir G. Patil 等

2023 699 引用查看解读 →

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Carlos E. Jimenez, John Yang, Alexander Wettig 等

2023 2351 引用查看解读 →

Teaching Large Language Models to Self-Debug

Xinyun Chen, Maxwell Lin, Nathanael Schärli 等

2023 1118 引用查看解读 →

LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

Junhao Zheng, Xidi Cai, Qiuke Li 等

2025 22 引用查看解读 →

MetaGPT: Meta Programming for Multi-Agent Collaborative Framework

Sirui Hong, Xiawu Zheng, Jonathan P. Chen 等

2023 1858 引用查看解读 →

SkillMaster: Toward Autonomous Skill Mastery in LLM Agents

Min Yang, J. Piao, Xuanye Xia 等

2026 1 引用查看解读 →

GAIA: a benchmark for General AI Assistants

G. Mialon, Clémentine Fourrier, Craig Swift 等

2023 799 引用查看解读 →

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Renjun Xu, Yang Yan

2026 47 引用查看解读 →

EvoSkill: Automated Skill Discovery for Multi-Agent Systems

Salaheddin Alzubi, N. Provenzano, Jaydon Bingham 等

2026 29 引用查看解读 →

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

Yongliang Shen, Kaitao Song, Xu Tan 等

2023 1471 引用查看解读 →

Voyager: An Open-Ended Embodied Agent with Large Language Models

Guanzhi Wang, Yuqi Xie, Yunfan Jiang 等

2023 1714 引用查看解读 →

SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks

Shan Zhong, Yiming Lu, Jingjie Ning 等

2026 2 引用查看解读 →

Efficient Streaming Language Models with Attention Sinks

Guangxuan Xiao, Yuandong Tian, Beidi Chen 等

2023 1850 引用查看解读 →

Agent Laboratory: Using LLM Agents as Research Assistants

Samuel Schmidgall, Yusheng Su, Ze Wang 等

2025 345 引用查看解读 →

MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Large Language Model (LLM)（大语言模型）

Skill Lifecycle（技能生命周期）

Skill-level Memory（技能级记忆）

Unit Test（单元测试）

Sandbox Environment（沙箱环境）

ReAct Loop（推理-行动循环）

SkillsBench（技能基准）

Cross-agent Skill Transfer（跨代理技能迁移）

Adaptive Context Compression（自适应上下文压缩）

Skill Bank（技能库）

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动化科学计算

智能数据分析助手

文档智能处理

远期愿景

自我演化智能代理系统

跨平台技能共享生态

原文摘要

参考文献 (20)

相关论文

SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

Iteris: Agentic Research Loops for Computational Mathematics

Choosing the Lens: Strategic Perspective Activation in Context-Dependent Argumentation

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

SchGen: PCB Schematic Generation with Semantic-Grounded Code Representations

Calibrating Conservatism for Scalable Oversight

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问