核心发现
方法论
本文提出了一种名为Attractor模型的新架构,通过将潜在的精炼过程视为输出嵌入空间中的固定点问题来实现。模型首先使用非循环的骨干模块(实现为Transformer)提出初始猜测嵌入,然后由一个独立的、通常较小的循环网络进行精炼。通过隐式微分获得梯度,训练内存保持恒定,迭代次数根据收敛情况自适应选择。
关键结果
- 在大规模语言建模中,Attractor模型在140M、370M和770M参数规模下,分别在验证困惑度、Lambada困惑度和下游基准准确率上表现出色,使用的训练计算量显著低于可比的循环基线。特别是,770M参数的Attractor模型超越了在两倍数据上训练的1.3B参数Transformer。
- 在困难的推理任务中,Attractor模型仅用27M参数和约1000个训练样本,在Sudoku-Extreme上达到91.4%的准确率,在Maze-Hard上达到93.1%的准确率,而标准Transformer和前沿LLM如DeepSeek R1、Claude和o3-mini在这些任务上完全失败。
- Attractor模型展示了一种新现象,即平衡内化:通过固定点训练,模型的初始输出嵌入接近平衡点,使得在推理时可以去除求解器,且性能几乎不受影响。
研究意义
Attractor模型在语言建模和推理领域具有重要意义。它不仅在大规模语言建模中实现了困惑度和准确率的显著提升,还在小数据推理任务中表现出色,解决了循环架构在训练稳定性和计算成本上的长期痛点。通过将循环转化为模型可以学习内化的计算,Attractor模型使得迭代精炼变得可扩展,为学术界和工业界提供了新的思路。
技术贡献
Attractor模型的技术贡献在于其将潜在的精炼过程视为固定点问题,并通过隐式微分获得梯度。这种方法不同于传统的循环架构,避免了不稳定的训练过程和线性增长的内存需求。通过自适应选择迭代次数,Attractor模型在训练和推理中实现了高效的计算,显著降低了计算成本。
新颖性
Attractor模型的创新在于其将循环架构中的潜在精炼过程转化为固定点求解问题。这一方法首次实现了在不增加计算成本的情况下,显著提高语言建模和推理任务的性能。与现有的循环架构相比,Attractor模型通过隐式微分和自适应迭代选择,实现了更稳定和高效的训练。
局限性
- Attractor模型在某些复杂任务上可能需要更长的收敛时间,尤其是在初始嵌入距离平衡点较远的情况下。
- 由于隐式微分的计算复杂性,模型在某些情况下可能面临计算资源的限制。
- 在某些特定任务上,模型的表现可能受限于训练数据的多样性和规模。
未来方向
未来的研究方向包括探索Attractor模型在更多任务和数据集上的应用,进一步优化其在不同任务上的收敛速度和计算效率。此外,可以研究如何结合其他先进的架构和技术,如图神经网络和自监督学习,以进一步提升模型的性能和适应性。
AI 总览摘要
在现代语言建模领域,Transformer模型因其固定的前馈计算而占据主导地位。然而,这种方法在每个标记的生成上仅依赖单次计算,无法在输出前对潜在预测进行精炼。Attractor模型通过引入循环架构中的固定点求解,为语言建模和推理提供了一种新颖的方法。
Attractor模型由两个模块组成:一个非循环的骨干模块和一个循环的吸引子模块。骨干模块首先提出初始输出嵌入,吸引子模块通过固定点迭代对其进行精炼。通过隐式微分获得梯度,训练内存保持恒定,迭代次数根据收敛情况自适应选择。这种方法不仅提高了模型的训练效率,还显著提升了语言建模和推理任务的性能。
在实验中,Attractor模型在大规模语言建模和困难的推理任务中均表现出色。特别是在Sudoku-Extreme和Maze-Hard任务中,Attractor模型仅用27M参数和约1000个训练样本,分别达到91.4%和93.1%的准确率,超越了包括DeepSeek R1、Claude和o3-mini在内的前沿模型。
Attractor模型的一个重要贡献是其展示了平衡内化现象:通过固定点训练,模型的初始输出嵌入接近平衡点,使得在推理时可以去除求解器,且性能几乎不受影响。这一现象表明,Attractor模型能够将循环转化为模型可以学习内化的计算,使得迭代精炼变得可扩展。
尽管Attractor模型在多个任务上表现出色,但其在某些复杂任务上可能需要更长的收敛时间。此外,由于隐式微分的计算复杂性,模型在某些情况下可能面临计算资源的限制。未来的研究方向包括探索Attractor模型在更多任务和数据集上的应用,进一步优化其在不同任务上的收敛速度和计算效率。
深度分析
研究背景
近年来,Transformer模型因其在语言建模中的卓越表现而成为主流。然而,Transformer模型的固定前馈计算限制了其在生成每个标记时的潜在精炼能力。随着对语言建模和推理任务要求的提高,研究人员开始探索循环架构的潜力,以实现更高效的计算和更精确的预测。循环架构通过在生成输出前对潜在表示进行多次迭代精炼,提供了一种可能的解决方案。然而,传统的循环架构在训练稳定性和计算成本上面临挑战,这促使研究人员探索新的方法来克服这些限制。
核心问题
Transformer模型在语言建模中的成功掩盖了其在潜在精炼能力上的不足。固定的前馈计算使得每个标记的生成仅依赖单次计算,无法在输出前对潜在预测进行精炼。这一限制在复杂的推理任务中尤为明显,因为这些任务通常需要多次迭代计算以获得精确的结果。此外,传统的循环架构在训练稳定性和计算成本上面临挑战,限制了其在实际应用中的广泛采用。
核心创新
Attractor模型通过将潜在的精炼过程视为输出嵌入空间中的固定点问题,实现了循环架构的创新。首先,模型使用非循环的骨干模块提出初始猜测嵌入,然后由一个独立的、通常较小的循环网络进行精炼。通过隐式微分获得梯度,训练内存保持恒定,迭代次数根据收敛情况自适应选择。这种方法不仅提高了模型的训练效率,还显著提升了语言建模和推理任务的性能。
方法详解
- �� Attractor模型由两个模块组成:一个非循环的骨干模块和一个循环的吸引子模块。
- �� 骨干模块首先提出初始输出嵌入,吸引子模块通过固定点迭代对其进行精炼。
- �� 通过隐式微分获得梯度,训练内存保持恒定,迭代次数根据收敛情况自适应选择。
- �� 在推理时,模型可以去除求解器,且性能几乎不受影响。
实验设计
实验设计包括在大规模语言建模和困难的推理任务上对Attractor模型进行评估。在语言建模中,使用140M、370M和770M参数规模的模型进行对比,评估其在验证困惑度、Lambada困惑度和下游基准准确率上的表现。在推理任务中,选择Sudoku-Extreme和Maze-Hard作为基准,评估Attractor模型在小数据集上的表现。实验还包括与标准Transformer和前沿LLM的对比,以验证Attractor模型的优越性。
结果分析
实验结果显示,Attractor模型在大规模语言建模和困难的推理任务中均表现出色。在语言建模中,Attractor模型在140M、370M和770M参数规模下,分别在验证困惑度、Lambada困惑度和下游基准准确率上表现出色,使用的训练计算量显著低于可比的循环基线。在推理任务中,Attractor模型仅用27M参数和约1000个训练样本,在Sudoku-Extreme上达到91.4%的准确率,在Maze-Hard上达到93.1%的准确率。
应用场景
Attractor模型在语言建模和推理任务中具有广泛的应用潜力。在语言建模中,模型可以用于提高文本生成的质量和效率,特别是在长文本生成和复杂语境理解中。在推理任务中,模型可以用于解决复杂的逻辑推理问题,如数独和迷宫解题。此外,Attractor模型的高效计算和稳定性使其在资源受限的环境中具有优势。
局限与展望
尽管Attractor模型在多个任务上表现出色,但其在某些复杂任务上可能需要更长的收敛时间。此外,由于隐式微分的计算复杂性,模型在某些情况下可能面临计算资源的限制。在某些特定任务上,模型的表现可能受限于训练数据的多样性和规模。未来的研究方向包括探索Attractor模型在更多任务和数据集上的应用,进一步优化其在不同任务上的收敛速度和计算效率。
通俗解读 非专业人士也能看懂
想象一下,你在厨房里做饭。传统的Transformer模型就像是一个只按照食谱一步一步做的厨师,每一步都不加思考地完成。而Attractor模型则像是一个有经验的厨师,他会在每一步中反复品尝和调整,直到味道达到完美。这个有经验的厨师在每一步中都会停下来,尝试一下,然后根据味道的反馈进行调整。这种方法不仅提高了菜肴的质量,还减少了浪费,因为厨师在每一步中都能及时纠正错误。Attractor模型通过将这种反复调整的过程视为一个固定点问题,使得模型在生成每个标记时都能达到最佳状态。通过这种方式,Attractor模型不仅提高了语言建模和推理任务的性能,还显著降低了计算成本。
简单解释 像给14岁少年讲一样
嘿,小伙伴们!你们有没有玩过那种需要不断调整策略的游戏?比如说,你在游戏中需要不断尝试不同的路径,直到找到最佳路线。Attractor模型就像是一个超级聪明的游戏玩家,他会在每次尝试后停下来,想一想,然后根据之前的经验调整策略。这样一来,他总能找到最快、最省力的通关方法!而传统的模型就像是一个只会按照固定步骤走的玩家,他可能会在某些关卡卡住,因为他不会根据情况调整策略。Attractor模型通过这种反复调整的方法,不仅在语言建模中表现出色,还能在复杂的推理任务中轻松应对。是不是很酷?
术语表
Transformer (变压器)
一种用于自然语言处理的深度学习模型,采用自注意力机制来处理输入数据。
在论文中,Transformer被用作Attractor模型的骨干模块。
Fixed Point (固定点)
在数学中,一个函数的固定点是指函数值等于输入值的点。
Attractor模型将潜在的精炼过程视为输出嵌入空间中的固定点问题。
Implicit Differentiation (隐式微分)
一种通过隐函数求导的方法,用于计算函数的导数。
在Attractor模型中,隐式微分用于获得梯度,从而保持训练内存恒定。
Perplexity (困惑度)
一种衡量语言模型性能的指标,数值越低表示模型预测越准确。
在实验中,困惑度被用来评估Attractor模型在语言建模任务中的表现。
Sudoku-Extreme
一种复杂的数独变体,通常用于测试推理模型的能力。
在论文中,Sudoku-Extreme被用作评估Attractor模型推理能力的基准任务。
Maze-Hard
一种复杂的迷宫解题任务,用于测试推理模型的能力。
在论文中,Maze-Hard被用作评估Attractor模型推理能力的基准任务。
Equilibrium Internalization (平衡内化)
一种现象,指通过固定点训练,模型的初始输出嵌入接近平衡点。
在Attractor模型中,平衡内化使得在推理时可以去除求解器,且性能几乎不受影响。
Anderson Acceleration (安德森加速)
一种用于加速固定点迭代的技术,通过结合过去的迭代和残差来更快地达到固定点。
在Attractor模型中,Anderson加速用于提高求解器的收敛速度。
Deep Equilibrium Model (深度平衡模型)
一种通过求解隐藏状态的固定点来进行预测的模型。
Attractor模型受到深度平衡模型的启发,但在输出嵌入空间中进行固定点求解。
Root Finder (根求解器)
一种用于找到函数零点的算法。
在Attractor模型中,根求解器用于计算输出嵌入的平衡点。
开放问题 这项研究留下的未解疑问
- 1 Attractor模型在某些复杂任务上的收敛速度仍然是一个开放问题。尽管模型在大多数任务上表现出色,但在初始嵌入距离平衡点较远的情况下,可能需要更长的收敛时间。未来的研究可以探索如何优化模型的初始嵌入,以加速收敛过程。
- 2 隐式微分的计算复杂性限制了Attractor模型在某些情况下的应用。尽管隐式微分在保持训练内存恒定方面具有优势,但其计算复杂性可能导致在资源受限的环境中面临挑战。研究如何简化隐式微分的计算过程,可能是未来的一个重要方向。
- 3 Attractor模型在某些特定任务上的表现可能受限于训练数据的多样性和规模。尽管模型在小数据集上表现出色,但在数据多样性不足的情况下,可能无法充分发挥其潜力。未来的研究可以探索如何通过数据增强和迁移学习等方法来提升模型的泛化能力。
- 4 Attractor模型的平衡内化现象虽然在大多数任务中表现出色,但其在不同任务和数据集上的适用性仍需进一步验证。研究如何在不同任务中有效地实现平衡内化,可能是未来的一个重要方向。
- 5 尽管Attractor模型在推理任务中表现出色,但其在其他领域的应用潜力仍需探索。研究如何将Attractor模型应用于图像处理、语音识别等领域,可能为其提供新的应用场景和发展方向。
应用场景
近期应用
文本生成
Attractor模型可以用于提高文本生成的质量和效率,特别是在长文本生成和复杂语境理解中。
逻辑推理
在推理任务中,Attractor模型可以用于解决复杂的逻辑推理问题,如数独和迷宫解题。
资源受限环境
Attractor模型的高效计算和稳定性使其在资源受限的环境中具有优势,适用于移动设备和嵌入式系统。
远期愿景
跨领域应用
研究如何将Attractor模型应用于图像处理、语音识别等领域,可能为其提供新的应用场景和发展方向。
自动化决策系统
Attractor模型的推理能力可以用于开发自动化决策系统,提高决策的准确性和效率。
原文摘要
Looped Transformers offer a promising alternative to purely feed-forward computation by iteratively refining latent representations, improving language modeling and reasoning. Yet recurrent architectures remain unstable to train, costly to optimize and deploy, and constrained to small, fixed recurrence depths. We introduce Attractor Models, in which a backbone module first proposes output embeddings, then an attractor module refines them by solving for the fixed point, with gradients obtained through implicit differentiation. Thus, training memory remains constant in effective depth, and iterations are chosen adaptively by convergence. Empirically, Attractor Models outperform existing models across two regimes, large-scale language-model pretraining and reasoning with tiny models. In language modeling, Attractor Models deliver a Pareto improvement over standard Transformers and stable looped models across sizes, improving perplexity by up to 46.6% and downstream accuracy by up to 19.7% while reducing training cost. Notably, a 770M Attractor Model outperforms a 1.3B Transformer trained on twice as many tokens. On challenging reasoning tasks, we show that our model with only 27M parameters and approximately 1000 examples achieves 91.4% accuracy on Sudoku-Extreme and 93.1% on Maze-Hard, scaling favorably where frontier models like Claude and GPT o3, fail completely, and specialized recursive reasoners collapse at larger sizes. Lastly, we show that Attractor Models exhibit a novel phenomenon, which we call equilibrium internalization: fixed-point training places the model's initial output embedding near equilibrium, allowing the solver to be removed at inference time with little degradation. Together, these results suggest that Attractor Models make iterative refinement scalable by turning recurrence into a computation the model can learn to internalize.
参考文献 (20)
Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought
Jianhao Huang, Zixuan Wang, Jason D. Lee
Parcae: Scaling Laws For Stable Looped Language Models
Hayden Prairie, Zachary Novack, Taylor Berg-Kirkpatrick 等
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
Jonas Geiping, Sean McLeish, Neel Jain 等
The LAMBADA dataset: Word prediction requiring a broad discourse context
Denis Paperno, Germán Kruszewski, Angeliki Lazaridou 等
Scaling Latent Reasoning via Looped Language Models
Ruiming Zhu, Zixuan Wang, Kai Hua 等
Looped Transformers as Programmable Computers
Angeliki Giannou, Shashank Rajput, Jy-yong Sohn 等
Loop, Think,&Generalize: Implicit Reasoning in Recurrent-Depth Transformers
Harsh Kohli, Srinivasan Parthasarathy, Huan Sun 等
A Mechanistic Analysis of Looped Reasoning Language Models
Hugh Blayney, 'Alvaro Arroyo, Johan S. Obando-Ceron 等
Iterative Procedures for Nonlinear Integral Equations
Donald G. M. Anderson
LoopRPT: Reinforcement Pre-Training for Looped Language Models
Guo Tang, Shixin Jiang, Heng Chang 等
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
Sean McLeish, Ang Li, John Kirchenbauer 等
JFB: Jacobian-Free Backpropagation for Implicit Networks
Samy Wu Fung, Howard Heaton, Qiuwei Li 等
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
Sangmin Bae, Yujin Kim, Reza Bayat 等
Understanding Dynamic Compute Allocation in Recurrent Transformers
Ibraheem Muhammad Moosa, Suhas Lohit, Ye Wang 等
Reasoning with Latent Thoughts: On the Power of Looped Transformers
Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li 等
One Step Forward and K Steps Back: Better Reasoning with Denoising Recursion Models
Chris Cameron, Wangzheng Wang, N. Ivanov 等
Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models
Jonathan Williams, Esin Tureci