Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

TL;DR

Nemotron-Cascade 2通过级联RL和多域策略蒸馏在30B MoE模型中实现了顶级推理能力。

cs.CL 🔴 高级 2026-03-20 54 次浏览
Zhuolin Yang Zihan Liu Yang Chen Wenliang Dai Boxin Wang Sheng-Chieh Lin Chankyu Lee Yangyi Chen Dongfu Jiang Jiafan He Renjie Pi Grace Lam Nayeon Lee Alexander Bukharin Mohammad Shoeybi Bryan Catanzaro Wei Ping
大模型 强化学习 多域蒸馏 数学奥赛 代码推理

核心发现

方法论

Nemotron-Cascade 2采用级联强化学习(Cascade RL)和多域策略蒸馏(MOPD)技术。首先在精心策划的数据集上进行监督微调(SFT),然后通过级联RL扩展至更广泛的推理和代理域。每个领域使用最强的中间教师模型进行多域策略蒸馏,以恢复基准回归并维持性能提升。

关键结果

  • Nemotron-Cascade 2在2025年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中获得金牌级别的表现,尽管其参数量仅为30B MoE模型,激活参数为3B。
  • 在数学推理中,Nemotron-Cascade 2在IMO AnswerBench上取得了79.3的得分,而在AIME 2025上达到了92.4分。
  • 在代码推理中,Nemotron-Cascade 2在IOI 2025中获得了439.28/600的高分,并在LiveCodeBench v6上取得了87.2的成绩。

研究意义

Nemotron-Cascade 2的推出标志着小型参数模型在复杂推理任务中的突破。通过级联RL和多域策略蒸馏,该模型在多个国际竞赛中表现优异,展示了高密度智能的可能性。这不仅为学术界提供了新的研究方向,也为工业界在资源有限的情况下实现高效AI提供了借鉴。

技术贡献

Nemotron-Cascade 2在技术上突破了多域RL的复杂性,通过级联RL简化了多域训练的工程难度,并通过多域策略蒸馏有效恢复了基准性能。该模型展示了在有限参数下实现高性能的可能性,为未来的AI模型设计提供了新的思路。

新颖性

Nemotron-Cascade 2首次在小型参数模型中实现了金牌级别的国际竞赛成绩,其核心创新在于级联RL和多域策略蒸馏的结合,这种方法在之前的工作中未被充分探索。

局限性

  • Nemotron-Cascade 2在知识密集型任务中表现不如Qwen3.5-35B-A3B,表明在知识预训练和代理RL方面仍需改进。
  • 模型在某些复杂环境中可能出现性能退化,尤其是在多域交互干扰较大的情况下。
  • 尽管在多个基准上表现优异,但在特定领域的细粒度优化仍有待加强。

未来方向

未来的研究可以集中在增强模型的知识密集型预训练和代理RL能力。此外,探索更高效的多域策略蒸馏方法以进一步提高性能也是一个重要方向。

AI 总览摘要

Nemotron-Cascade 2是一个开放的30B MoE模型,具有3B激活参数,展示了卓越的推理能力和强大的代理能力。尽管其体积紧凑,但其数学和代码推理性能接近于前沿开放模型。Nemotron-Cascade 2是继DeepSeek-V3.2-Speciale-671B-A37B之后,第二个在2025年国际数学奥林匹克竞赛(IMO)、国际信息学奥林匹克竞赛(IOI)和ICPC世界总决赛中达到金牌级别表现的开放权重LLM,展示了高密度智能的可能性,参数量减少了20倍。与Nemotron-Cascade 1相比,Nemotron-Cascade 2的关键技术进步如下。在精心策划的数据集上进行SFT后,我们大幅扩展了级联RL,以覆盖更广泛的推理和代理域。此外,我们在整个级联RL过程中引入了来自每个领域最强中间教师模型的多域策略蒸馏,使我们能够有效恢复基准回归并在此过程中保持强劲的性能提升。我们发布了模型检查点和训练数据的集合。

Nemotron-Cascade 2在多个国际竞赛中表现优异,展示了高密度智能的可能性。通过级联RL和多域策略蒸馏,该模型在多个国际竞赛中表现优异,展示了高密度智能的可能性。这不仅为学术界提供了新的研究方向,也为工业界在资源有限的情况下实现高效AI提供了借鉴。

Nemotron-Cascade 2的推出标志着小型参数模型在复杂推理任务中的突破。通过级联RL和多域策略蒸馏,该模型在多个国际竞赛中表现优异,展示了高密度智能的可能性。这不仅为学术界提供了新的研究方向,也为工业界在资源有限的情况下实现高效AI提供了借鉴。

Nemotron-Cascade 2在技术上突破了多域RL的复杂性,通过级联RL简化了多域训练的工程难度,并通过多域策略蒸馏有效恢复了基准性能。该模型展示了在有限参数下实现高性能的可能性,为未来的AI模型设计提供了新的思路。

Nemotron-Cascade 2首次在小型参数模型中实现了金牌级别的国际竞赛成绩,其核心创新在于级联RL和多域策略蒸馏的结合,这种方法在之前的工作中未被充分探索。

深度分析

研究背景

近年来,大规模语言模型(LLM)在自然语言处理领域取得了显著进展。然而,随着模型规模的不断扩大,如何在有限资源下实现高效的推理能力成为一个重要的研究方向。Nemotron-Cascade 2的推出标志着在小型参数模型中实现高密度智能的可能性。通过级联RL和多域策略蒸馏,该模型在多个国际竞赛中表现优异,展示了高密度智能的可能性。这不仅为学术界提供了新的研究方向,也为工业界在资源有限的情况下实现高效AI提供了借鉴。

核心问题

在有限参数下实现高效的推理能力是当前LLM研究中的一个重要挑战。传统的大规模模型虽然在性能上表现优异,但其计算和存储成本较高,难以在资源有限的环境中应用。Nemotron-Cascade 2通过级联RL和多域策略蒸馏,在小型参数模型中实现了卓越的推理能力,为解决这一问题提供了新的思路。

核心创新

Nemotron-Cascade 2的核心创新在于级联RL和多域策略蒸馏的结合。级联RL通过分阶段的域内训练,简化了多域RL的工程复杂性,并在多个基准上实现了最先进的性能。多域策略蒸馏则通过从每个领域最强的中间教师模型中提取知识,有效恢复了基准性能。这种方法在之前的工作中未被充分探索,为未来的AI模型设计提供了新的思路。

方法详解

  • �� 在精心策划的数据集上进行监督微调(SFT),为模型提供基础能力。
  • �� 采用级联RL技术,通过分阶段的域内训练,简化多域RL的工程复杂性。
  • �� 在整个级联RL过程中引入多域策略蒸馏,从每个领域最强的中间教师模型中提取知识。
  • �� 通过级联RL和多域策略蒸馏的结合,恢复基准性能并在多个基准上实现最先进的性能。

实验设计

实验设计包括在多个国际竞赛中的表现评估,如2025年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)。通过与其他模型的对比,验证Nemotron-Cascade 2在数学推理和代码推理中的卓越性能。此外,还进行了多域策略蒸馏的有效性验证,展示了该方法在恢复基准性能方面的优势。

结果分析

Nemotron-Cascade 2在多个国际竞赛中取得了金牌级别的表现,展示了高密度智能的可能性。通过级联RL和多域策略蒸馏,该模型在多个国际竞赛中表现优异,展示了高密度智能的可能性。这不仅为学术界提供了新的研究方向,也为工业界在资源有限的情况下实现高效AI提供了借鉴。

应用场景

Nemotron-Cascade 2的应用场景包括在资源有限的环境中实现高效的AI推理能力。通过级联RL和多域策略蒸馏,该模型在多个国际竞赛中表现优异,展示了高密度智能的可能性。这不仅为学术界提供了新的研究方向,也为工业界在资源有限的情况下实现高效AI提供了借鉴。

局限与展望

尽管Nemotron-Cascade 2在多个基准上表现优异,但在知识密集型任务中表现不如Qwen3.5-35B-A3B,表明在知识预训练和代理RL方面仍需改进。此外,模型在某些复杂环境中可能出现性能退化,尤其是在多域交互干扰较大的情况下。未来的研究可以集中在增强模型的知识密集型预训练和代理RL能力。

通俗解读 非专业人士也能看懂

想象一下你在厨房里准备一顿大餐。Nemotron-Cascade 2就像一个聪明的厨师助手,它能帮你在有限的食材和时间内做出美味的菜肴。首先,它会根据你的菜单(数据集)进行准备工作(监督微调),确保它知道如何处理每种食材。接下来,它会根据不同的菜系(领域)进行分阶段的烹饪(级联RL),确保每道菜都能达到最佳口味。最后,它会从最好的厨师那里学习(多域策略蒸馏),确保即使在复杂的烹饪环境中,它也能做出美味的菜肴。通过这种方式,Nemotron-Cascade 2不仅能在有限的资源下实现高效的推理能力,还能在多个国际竞赛中表现优异,展示了高密度智能的可能性。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!你知道吗,Nemotron-Cascade 2就像是一个超级聪明的机器人,它能在数学和编程比赛中拿到金牌!想象一下,你在玩一个复杂的游戏,这个机器人就像你的游戏助手,它能帮你解决各种难题。首先,它会学习所有的游戏规则(数据集),然后在不同的关卡中进行挑战(级联RL)。最酷的是,它还能从最厉害的玩家那里学习技巧(多域策略蒸馏),确保它能在每个关卡中都表现出色。通过这种方式,Nemotron-Cascade 2不仅能在有限的资源下实现高效的推理能力,还能在多个国际竞赛中表现优异,展示了高密度智能的可能性。是不是很厉害?

术语表

级联强化学习 (Cascade RL)

一种分阶段的域内训练方法,简化了多域RL的工程复杂性,并在多个基准上实现了最先进的性能。

用于Nemotron-Cascade 2的训练框架中,帮助模型在不同领域中实现最佳性能。

多域策略蒸馏 (Multi-Domain On-Policy Distillation)

通过从每个领域最强的中间教师模型中提取知识,有效恢复基准性能。

在级联RL过程中用于恢复基准回归并维持性能提升。

监督微调 (Supervised Fine-Tuning)

在精心策划的数据集上进行的训练,为模型提供基础能力。

Nemotron-Cascade 2的初始训练阶段,确保模型具备基本的推理能力。

激活参数 (Activated Parameters)

在模型推理过程中实际使用的参数数量,影响模型的计算效率和性能。

Nemotron-Cascade 2中有3B激活参数,尽管模型总参数量为30B。

国际数学奥林匹克竞赛 (International Mathematical Olympiad, IMO)

一项全球性的数学竞赛,吸引了来自世界各地的优秀学生参赛。

Nemotron-Cascade 2在2025年IMO中取得了金牌级别的表现。

国际信息学奥林匹克竞赛 (International Olympiad in Informatics, IOI)

一项全球性的编程竞赛,测试参赛者的算法和编程能力。

Nemotron-Cascade 2在2025年IOI中取得了金牌级别的表现。

ICPC世界总决赛 (ICPC World Finals)

国际大学生程序设计竞赛的最高级别赛事,吸引了全球顶尖大学生参赛。

Nemotron-Cascade 2在2025年ICPC世界总决赛中表现优异。

高密度智能 (High Intelligence Density)

在有限参数下实现高效推理能力的特性。

Nemotron-Cascade 2展示了高密度智能的可能性,在多个国际竞赛中表现优异。

知识密集型任务 (Knowledge-Intensive Tasks)

需要大量背景知识和推理能力的任务,通常对模型的知识预训练要求较高。

Nemotron-Cascade 2在知识密集型任务中表现不如某些其他模型。

代理能力 (Agentic Capabilities)

模型在复杂环境中自主决策和执行任务的能力。

Nemotron-Cascade 2展示了强大的代理能力,在多个基准上表现优异。

开放问题 这项研究留下的未解疑问

  • 1 如何在有限参数下进一步提高模型的知识密集型任务表现?当前的方法在知识预训练和代理RL方面仍有不足,未来的研究可以集中在增强这些能力上。
  • 2 在多域交互干扰较大的情况下,如何有效避免性能退化?Nemotron-Cascade 2在某些复杂环境中可能出现性能退化,探索更高效的多域策略蒸馏方法可能是一个解决方案。
  • 3 如何在资源有限的环境中实现更高效的AI推理能力?Nemotron-Cascade 2展示了在有限参数下实现高性能的可能性,但在特定领域的细粒度优化仍有待加强。
  • 4 在多域RL的复杂性中,如何进一步简化工程难度?Nemotron-Cascade 2通过级联RL简化了多域训练的工程复杂性,但仍有改进空间。
  • 5 如何在不增加计算和存储成本的情况下提高模型的推理能力?Nemotron-Cascade 2在多个国际竞赛中表现优异,但在某些特定任务中仍有提升空间。

应用场景

近期应用

教育领域

Nemotron-Cascade 2可以用于数学和编程教育,帮助学生在有限资源下提高学习效率。

自动化编程

通过Nemotron-Cascade 2的代码推理能力,可以实现自动化编程任务,提高软件开发效率。

智能助手

Nemotron-Cascade 2可以作为智能助手,在复杂环境中提供决策支持和任务执行。

远期愿景

资源有限环境中的AI应用

Nemotron-Cascade 2展示了在有限参数下实现高效AI的可能性,为未来在资源有限的环境中应用AI提供了借鉴。

高密度智能的探索

Nemotron-Cascade 2展示了高密度智能的可能性,为未来的AI模型设计提供了新的思路。

原文摘要

We introduce Nemotron-Cascade 2, an open 30B MoE model with 3B activated parameters that delivers best-in-class reasoning and strong agentic capabilities. Despite its compact size, its mathematical and coding reasoning performance approaches that of frontier open models. It is the second open-weight LLM, after DeepSeekV3.2-Speciale-671B-A37B, to achieve Gold Medal-level performance in the 2025 International Mathematical Olympiad (IMO), the International Olympiad in Informatics (IOI), and the ICPC World Finals, demonstrating remarkably high intelligence density with 20x fewer parameters. In contrast to Nemotron-Cascade 1, the key technical advancements are as follows. After SFT on a meticulously curated dataset, we substantially expand Cascade RL to cover a much broader spectrum of reasoning and agentic domains. Furthermore, we introduce multi-domain on-policy distillation from the strongest intermediate teacher models for each domain throughout the Cascade RL process, allowing us to efficiently recover benchmark regressions and sustain strong performance gains along the way. We release the collection of model checkpoint and training data.

cs.CL cs.AI cs.LG