核心发现
方法论
Sessa是一种将选择性注意机制嵌入反馈路径的解码器架构。通过在反馈路径中引入注意机制,Sessa能够在层内实现多路径聚合,从而增强长程记忆能力。Sessa的设计允许在滞后时间ℓ的幂律记忆尾部下运行,影响力为Θ(ℓ^{-β}),其中0 < β < 1。这种机制在扩散均匀路由设置下表现出色,能够实现灵活的选择性检索。
关键结果
- Sessa在长上下文基准测试中表现出色,超越了Transformer和Mamba等基线模型。在匹配的架构和训练预算下,Sessa在长上下文任务中表现最佳,同时在短上下文语言建模中也保持竞争力。
- 在实验中,Sessa展示了其在长程敏感性上的优势,能够在扩散路由情况下保持较慢的衰减速率。
- Sessa在非衰减配置文件中实现了灵活的选择性检索,而其他比较模型则无法做到这一点。
研究意义
Sessa的引入为长上下文序列建模提供了一种新的解决方案,特别是在需要长程记忆的任务中。通过将注意机制嵌入反馈路径,Sessa克服了传统Transformer在长上下文下的注意力稀释问题,同时也解决了状态空间模型中信息快速衰减的挑战。这一创新不仅在学术界具有重要意义,也为工业界提供了更高效的长上下文处理方法。
技术贡献
Sessa的技术贡献在于其独特的架构设计,结合了选择性注意和反馈路径,提供了一种新的序列建模范式。与现有的Transformer和Mamba模型相比,Sessa在长程记忆和选择性检索方面表现出色。其幂律记忆尾部的实现为长程信息处理提供了新的理论保证,并为工程应用开辟了新的可能性。
新颖性
Sessa是首个在反馈路径中引入选择性注意机制的模型,其创新之处在于能够在层内实现多路径聚合,从而增强长程记忆能力。与传统的单次读取或单链反馈传播不同,Sessa提供了一种灵活的选择性检索机制。
局限性
- Sessa在某些情况下可能会因为复杂的反馈路径导致计算成本增加,特别是在长上下文任务中。
- 该模型在极端长程任务中的表现仍需进一步验证,可能存在性能瓶颈。
- 在某些特定应用场景中,Sessa的灵活性可能会导致模型过拟合。
未来方向
未来的研究方向包括优化Sessa的计算效率,探索其在更广泛应用场景中的性能,以及进一步验证其在极端长程任务中的表现。研究者还可以探索将Sessa与其他模型结合,以提升其在不同任务中的适应性。
AI 总览摘要
现代序列模型主要由Transformer主导,其自注意机制以输入依赖的方式混合可见上下文的信息。然而,当检索不够精确且注意力在有效支持上扩散时,个别标记的影响力会被稀释,尤其是在全前缀设置中,旧标记的影响力会达到O(1/ℓ)。结构化状态空间模型通过显式反馈路径递归处理序列;选择性变体如Mamba使该反馈依赖于输入,但当冻结时间无法在长时间间隔内维持时,其长程敏感性会随滞后指数衰减。因此,现有架构要么在单次读取中从过去检索,要么通过单一反馈链传播信息。我们引入了Sessa,一种将注意力置于反馈路径中的解码器,使得在层内实现多路径聚合成为可能。在所述假设下,Sessa允许在滞后ℓ的幂律记忆尾部下运行,其影响力为Θ(ℓ^{-β}),其中0 < β < 1,这种速率在显式扩散均匀路由设置中是紧的。在相同条件下,只有Sessa在比较的模型类别中实现了灵活的选择性检索,包括非衰减配置文件。经验上,在匹配的架构和训练预算下,Sessa在长上下文基准测试中表现最强,同时在短上下文语言建模中与Transformer和Mamba风格的基线保持竞争力。
长上下文序列建模是现代基础模型在语言、视觉、语音、时间序列和基因组学中的核心(Bommasani等,2021;Brown等,2020;Dosovitskiy等,2021;Baevski等,2020;Ansari等,2024;Dalla-Torre等,2025)。尽管基础模型范式具有架构灵活性,最先进的系统仍然主要基于Transformer及其自注意机制(Vaswani等,2017)。
一种有用的视角是通过它们如何从过去路由信息以及如何随时间保持记忆来描述现代序列混合器。在许多现代架构中,路由决策是输入依赖的:模型使用当前标记及其上下文来决定要查阅可见历史的哪些部分。在这种观点下,自注意实现了一种输入依赖的直接读取机制:在每个位置,它计算一个查询依赖的相关性模式,并使用它从选定的过去位置读取信息。这种框架突出了注意力的关键优势,即对可变支持长度的选择机制,但也存在结构限制:检索是在单次传递中执行的,没有内部反馈循环可以反复将过去的读取纳入不断发展的状态。单独来看,标准实现也由于二次时间/内存扩展而在长上下文中计算成本高昂(Vaswani等,2017;Rabe和Staats,2021)。
并行地,结构化递归序列模型,尤其是状态空间模型(SSMs),通过潜在状态和显式反馈路径实现长程动态,重新成为长上下文建模的一个引人注目的替代方案(Gu等,2022a,b)。SSMs可以被解释为经典动态系统(Kalman,1960)的现代后代,并允许在序列长度上实现线性(或近线性)扩展。然而,对于信息密集的离散数据,一个持久的挑战是稳定反馈动态通常表现出远程信息的快速衰减(通常是指数遗忘(Huang等,2025)),这可能会在重干扰下阻碍整合多个远离的证据片段。选择性SSMs(例如,Mamba)可以通过调节有效过渡来有条件地减缓这种衰减(Gu和Dao,2024;Dao和Gu,2024)(例如,ssm,≈ on选定步骤,“冻结时间”(Huang等,2025)),但这种机制是输入依赖的,当相关和不相关的位置引发相似的局部表示时,可能会失败,导致保留或覆盖错误的内容。
这些视角表明互补的长上下文失败模式。稳定的反馈动态可能会遭受指数遗忘。注意力虽然是输入依赖的,但可能会遭受稀释:当注意力质量分布在大量竞争标记的有效支持上时(例如,许多接近平局的logits),个别权重以及每个标记的贡献和敏感性大致随该支持的反比而减少(通常表现为O(1/S_eff(t)),在最坏情况下,当有效支持与上下文长度成比例增长时,表现为O(1/ℓ)(Mudarisov等,2025)。在实践中,这两种效应都可能限制可靠的长程证据整合。
我们引入Sessa,一种在反馈(递归)路径中注入输入依赖注意力的解码器架构,结合直接读取输入依赖路由与通过反馈通道的有状态聚合。从时间路由的角度来看,对于固定的源标记??????和目标位置t(滞后ℓ = t − ??????),单个自注意层通过单次路由步骤(直接边?????? → t)路由影响,而链结构状态空间递归沿唯一长度-ℓ时间链传播。Sessa在单层内引入路由多样性:其注意力引发的反馈操作符在多个内部路由深度(以及在密集模式下,许多时间路径)上聚合贡献,这可以在路由扩散时帮助维持长程敏感性(在第4.2节中形式化)。具体来说,虽然自注意对应于输入依赖的直接读取系统(在值中),Sessa实现了一个输入依赖的反馈系统:它在无限的时间范围内维护一个潜在状态,而反馈动态通过循环内的注意力路由保持输入依赖(可能在可变支持模式上)。直观地说,Sessa保留了递归的表示优势用于长程积累,同时利用注意力作为反馈路径中的输入依赖机制。
相关架构思想已将递归或反馈引入序列建模(Dai等,2019;Fan等,2020;Bulatov等,2022;Hutchins等,2022;Hwang等,2024)。这些方法涵盖了各种反馈构造,通常以特定于架构的术语呈现。我们的贡献是互补的,但在数学上不同:我们提出了一种路由引发的系统视角,将上下文如何产生路由/混合系数与这些系数如何随时间组合分开,并使用这种视角将输入依赖路由直接与长上下文敏感性和记忆衰减行为联系起来。
深度解读
原文摘要
Modern sequence models are dominated by Transformers, where self-attention mixes information from the visible context in an input-dependent way. However, when retrieval is not sharp and attention remains diffuse over an effective support $S_{\mathrm{eff}}(t)$, the influence of any individual token is diluted, typically scaling as $O(1/S_{\mathrm{eff}}(t))$ and reaching $O(1/\ell)$ for old tokens in full-prefix settings. Structured state-space models process sequences recurrently through an explicit feedback path; selective variants such as Mamba make this feedback input-dependent, yet when freeze time cannot be sustained over long intervals, their long-range sensitivity decays exponentially with lag. Existing architectures therefore either retrieve from the past in a single read or propagate information through a single feedback chain. We introduce Sessa, a decoder that places attention inside a feedback path, enabling recurrent many-path aggregation within a layer. Under stated assumptions, Sessa admits regimes with a power-law memory tail in lag $\ell$ of order $O(\ell^{-β})$ for $0<β<1$, which is asymptotically slower than $1/\ell$; moreover, this rate is tight in an explicit diffuse uniform-routing setting where the influence is $Θ(\ell^{-β})$. Under the same conditions, only Sessa among the compared model classes realizes flexible selective retrieval, including non-decaying profiles. Empirically, under matched architectures and training budgets, Sessa achieves the strongest performance on our long-context benchmarks while remaining competitive with Transformer and Mamba style baselines on short-context language modeling.