On Subquadratic Architectures: From Applications to Principles

TL;DR

本研究比较xLSTM、Mamba-2和Gated DeltaNet三种子二次架构,验证xLSTM在复杂任务中的优越性,核心在于其稳健的状态追踪与记忆累积。

cs.LG 🔴 高级 2026-06-11 65 次浏览
Anamaria-Roberta Hartl Levente Zólyomi David Stap Pieter-Jan Hoedt Niklas Schmidinger Lukas Hauzenberger Sebastian Böck Günter Klambauer Sepp Hochreiter
子二次架构 序列建模 记忆机制 深度学习 模型比较

核心发现

方法论

本文采用统一的架构表达框架,将xLSTM、Mamba-2和Gated DeltaNet在状态写入、遗忘与读取机制上进行比较。通过在代码预训练、模型蒸馏和时间序列基础模型等多任务场景中评估性能,结合合成的长度泛化任务验证架构机制。具体方法包括:• 统一公式描述三者的状态更新与记忆机制;• 在复杂依赖任务中进行端到端训练与评估;• 利用合成任务测试状态追踪与记忆累积能力。实验中,采用HumanEval、PIQA、ARC等公开数据集,评估代码生成、推理能力及时间序列预测性能。通过对比不同架构在任务中的表现,分析其在长距离依赖和结构化信息处理中的优势。最后,结合合成任务的结果,验证架构机制假设:xLSTM通过门控机制实现更灵活、稳定的记忆修正,增强了模型对复杂依赖的捕获能力。

关键结果

  • 在代码生成任务中,xLSTM[7:1]在HumanEval的pass@64指标上优于Mamba-2和Gated DeltaNet,提升1.81个百分点(从基线的约80%提升到81.81%),在100B tokens训练条件下仍保持优势。其在推理和常识任务中也表现出较优的平均得分,尤其在结构复杂的代码依赖和长距离关系中表现突出。
  • 在模型蒸馏实验中,xLSTM[1:0]作为子架构在从Qwen-3-4B-Instruct教师模型蒸馏中,平均在四个代码任务中获得0.768的pass@1分数,优于Gated DeltaNet的0.755,显示其在知识迁移中的优越性。时间序列预训练中,xLSTM[3:1]在GIFT-Eval的MASE和CRPS指标上均领先其他子架构,尤其在参数规模较小时表现更为明显。
  • 合成任务验证显示,xLSTM在长序列长度泛化和状态追踪任务中,能有效实现超出训练长度的计数和状态更新,验证了其在复杂依赖建模中的机制优势。Mamba-2和Gated DeltaNet在这些任务中表现较差,反映其在累积和追踪能力上的局限性。

研究意义

本研究揭示了子二次架构在复杂序列建模中的潜力,特别是xLSTM通过门控机制实现的稳健状态追踪和记忆累积,为未来大规模基础模型提供了可扩展的替代方案。其在代码理解、推理和时间序列预测中的优越表现,推动了低复杂度高性能模型的发展,有望解决Transformer在长序列任务中的计算瓶颈问题,为深度学习在工业界的应用提供新的技术路径。

技术贡献

本文提出了统一的架构表达框架,将xLSTM、Mamba-2和Gated DeltaNet的状态更新机制抽象为门控记忆单元,明确了它们在累积和状态追踪能力上的差异。通过合成任务验证,提出了架构机制假设:xLSTM通过门控机制实现更灵活的记忆修正,增强了模型在复杂依赖中的表现。此外,系统性比较在多任务、多数据规模下的性能,丰富了子二次架构的理论基础,为未来设计提供了指导。该研究还结合了实际应用中的模型蒸馏,验证了xLSTM在迁移学习中的优越性,拓展了其应用场景。

新颖性

本研究首次在多任务、多场景下对xLSTM、Mamba-2和Gated DeltaNet进行头对头的性能比较,系统验证了xLSTM在复杂依赖任务中的优势。提出了统一的架构表达框架,揭示了架构差异的根本原因——在于累积与状态追踪机制的不同。通过合成任务验证机制假设,提供了对子二次架构设计原则的深刻理解。这在现有文献中尚属首次,填补了子二次架构在复杂任务中的性能差异理解空白。

局限性

  • 尽管xLSTM在多任务中表现优越,但在极端长序列或高维状态空间中,其门控机制可能仍面临梯度消失或信息遗失的问题,未来需结合更先进的正则化或优化技术。
  • 模型在大规模预训练和推理中的计算成本仍高于传统Transformer,尤其在硬件优化方面存在一定瓶颈,需进一步硬件友好化设计。
  • 目前的比较主要集中在特定任务和数据集,尚未覆盖所有类型的复杂依赖场景,未来应扩展到更多实际应用中验证其普适性。

未来方向

未来的研究方向包括:• 结合更复杂的门控机制或多尺度记忆模块,提升模型在极端长序列中的表现;• 探索xLSTM在多模态、多任务学习中的潜力,扩展其应用范围;• 优化硬件实现,降低模型计算成本,推动其在工业界的实际部署;• 进一步理论分析其在信息保持和遗忘中的机制,为架构创新提供理论支撑。

AI 总览摘要

在现代序列建模领域,Transformer模型以其卓越性能成为主流,但其二次复杂度的注意力机制带来了巨大的计算负担。随着模型规模的不断扩大,如何在保证性能的同时降低计算成本,成为研究的焦点。子二次架构作为一种潜在的解决方案,近年来引起了广泛关注。本文系统比较了三种代表性架构:xLSTM、Mamba-2和Gated DeltaNet,旨在揭示它们在复杂任务中的表现差异及其背后的机制。

首先,作者提出了一个统一的架构表达框架,将这三种模型的状态更新和记忆机制抽象为门控记忆单元。通过在代码预训练、模型蒸馏和时间序列预测等多任务场景中进行端到端评估,发现xLSTM在大多数任务中表现最优,尤其在处理长距离依赖和结构化信息时优势明显。其核心在于门控机制实现的稳健状态追踪与记忆累积能力,有效应对复杂依赖关系。

为了验证这一机制假设,研究设计了合成的长度泛化和状态追踪任务。结果显示,xLSTM在超出训练长度的计数和状态更新任务中表现出色,远超Mamba-2和Gated DeltaNet,验证了其在复杂依赖建模中的机制优势。这一发现不仅丰富了子二次架构的理论理解,也为未来设计提供了指导。

在实际应用中,作者还将这些架构应用到模型蒸馏和时间序列预测中。结果显示,xLSTM作为子架构在从教师模型蒸馏和多参数规模的时间序列任务中均优于其他架构,证明其在迁移学习和实际场景中的潜力。整体来看,该研究不仅提供了架构性能的实证证据,也揭示了其背后的机制原理,为低复杂度高性能序列模型的发展提供了新思路。

未来,研究将聚焦于结合多尺度记忆机制、优化硬件实现,以及扩展到多模态、多任务环境中,推动子二次架构在工业界的广泛应用。该工作为深度学习在长序列建模中的发展提供了坚实的基础,也为未来模型设计的理论探索开启了新篇章。

深度解读

原文摘要

Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leading approaches: xLSTM, Mamba-2, and Gated DeltaNet. We evaluate these models on tasks with complex dependencies: (1) code-model pre-training, (2) distillation of code models from large language models, and (3) pre-training of time-series foundation models. Across these settings, xLSTM delivers the strongest overall performance. To explain xLSTM's advantage, we present a unified formulation and analyze the underlying architectural mechanisms, focusing on state tracking and memory dynamics. Our results show that xLSTM enables more flexible and stable memory correction via its gating scheme. We corroborate these findings on controlled synthetic length-generalization tasks. Overall, our findings indicate that xLSTM's gains on complex tasks stem from robust state tracking and accumulation.

cs.LG