Generalization in LLM Problem Solving: The Case of the Shortest Path

TL;DR

研究表明，语言模型在最短路径问题上表现出强大的空间迁移能力，但在长度扩展上由于递归不稳定性而失败。

cs.AI 🔴 高级 2026-04-17 47 次浏览

Yao Tong Jiayuan Ye Anastasia Borovykh Reza Shokri

AI 阅读器 Arxiv 原文下载 PDF

语言模型最短路径空间迁移长度扩展递归不稳定性

核心发现

方法论

本研究通过构建一个基于最短路径规划的合成环境，分析语言模型的系统泛化能力。研究采用了两种正交的泛化轴：空间迁移和长度扩展。通过控制训练数据、训练范式和推理策略，研究能够独立评估这些因素对模型泛化能力的影响。

关键结果

结果1：模型在空间迁移任务中表现出超过90%的成功率，但在长度扩展任务中表现显著下降，表明递归不稳定性是主要原因。
结果2：在有限的训练预算下，增加问题的多样性比增加解的多样性更能提高空间迁移能力。
结果3：强化学习虽然提高了训练稳定性，但未能超越最佳的监督微调性能，尤其是在长度扩展任务中。

研究意义

本研究揭示了语言模型在解决组合优化问题时的泛化能力及其局限性，特别是在处理更长路径时的递归不稳定性。这一发现对语言模型在复杂推理任务中的应用具有重要意义，提示研究者在设计训练数据和推理策略时需考虑这些因素。

技术贡献

技术贡献包括构建了一个可控的合成环境，使得研究者能够独立评估训练数据、训练范式和推理策略对模型泛化能力的影响。此外，研究揭示了在处理长度扩展任务时，递归不稳定性是语言模型的主要限制因素。

新颖性

本研究首次在一个可控的合成环境中系统地评估了语言模型在组合优化问题上的泛化能力，特别是空间迁移和长度扩展。这一方法不同于以往的自然语言基准测试，提供了更清晰的泛化能力评估。

局限性

局限1：模型在长度扩展任务中表现不佳，主要由于递归不稳定性，这限制了其在更复杂任务中的应用。
局限2：虽然强化学习提高了训练稳定性，但未能扩展模型的能力边界。

未来方向

未来研究可以探索如何通过改进训练数据和推理策略来增强模型在长度扩展任务中的表现。此外，研究可以进一步分析递归不稳定性的根本原因，并开发新的算法来克服这一限制。

AI 总览摘要

在解决组合优化问题时，语言模型的系统泛化能力一直是一个备受关注的研究课题。现有的研究表明，语言模型的推理能力受到多种因素的影响，包括训练数据、训练范式和推理策略。然而，这些因素的复杂交互使得模型失败的原因难以解释。为了解决这一问题，研究者们构建了一个基于最短路径规划的合成环境。这个环境允许研究者在两个正交的泛化轴上评估模型的表现：空间迁移和长度扩展。

在空间迁移任务中，模型需要在完全未知的地图上解决最短路径问题。实验结果显示，模型在这一任务中表现出强大的泛化能力，成功率超过90%。然而，在长度扩展任务中，模型需要处理比训练中更长的路径，其表现显著下降。这种失败主要归因于递归不稳定性，即模型在递归应用已学规则时的不稳定性。

研究进一步分析了学习管道的不同阶段如何影响系统性问题解决能力。结果表明，数据覆盖范围决定了模型的能力上限；虽然强化学习提高了训练稳定性，但未能扩展模型的能力边界；推理时的扩展策略虽然提高了性能，但未能解决长度扩展任务中的失败问题。

这一研究的意义在于，它揭示了语言模型在解决组合优化问题时的泛化能力及其局限性，特别是在处理更长路径时的递归不稳定性。这一发现对语言模型在复杂推理任务中的应用具有重要意义，提示研究者在设计训练数据和推理策略时需考虑这些因素。

未来的研究可以探索如何通过改进训练数据和推理策略来增强模型在长度扩展任务中的表现。此外，研究可以进一步分析递归不稳定性的根本原因，并开发新的算法来克服这一限制。

深度分析

研究背景

语言模型在自然语言处理中的应用已经取得了显著进展，尤其是在生成和理解任务中。然而，模型在复杂推理任务中的系统泛化能力仍然存在争议。现有的研究表明，模型的推理能力受到多种因素的影响，包括训练数据的性质、训练范式（如监督微调和强化学习）以及推理时的策略。这些因素的复杂交互使得模型失败的原因难以解释。此外，自然语言基准测试往往难以确定模型是否真正泛化，因为训练和评估设置之间的差异未被清晰控制。

核心问题

本研究的核心问题是评估语言模型在组合优化问题上的系统泛化能力，特别是在最短路径规划任务中的表现。最短路径规划是一个经典的组合优化问题，要求模型在给定的起始和结束节点之间生成完整的解决路径。研究的挑战在于，如何在一个可控的环境中独立评估训练数据、训练范式和推理策略对模型泛化能力的影响。

核心创新

本研究的核心创新在于构建了一个基于最短路径规划的合成环境，使得研究者能够在两个正交的泛化轴上评估模型的表现：空间迁移和长度扩展。 • 空间迁移：测试模型在完全未知的地图上解决任务的能力。 • 长度扩展：评估模型在同一地图上处理更长路径的能力。 • 通过控制训练数据、训练范式和推理策略，研究能够独立评估这些因素对模型泛化能力的影响。

方法详解

研究采用了以下方法： • 构建合成环境：基于最短路径规划，提供明确的全局目标和无歧义的最优解。 • 空间迁移测试：在完全未知的地图上评估模型的泛化能力。 • 长度扩展测试：在同一地图上处理更长路径。 • 控制训练数据、训练范式和推理策略，独立评估这些因素对模型泛化能力的影响。

实验设计

实验设计包括： • 数据集：使用随机生成的地图和路径。 • 基线：与现有的最短路径算法进行比较。 • 评估指标：成功率（SR），即模型生成有效最短路径的概率。 • 关键超参数：训练数据的覆盖范围和多样性，推理时的扩展策略。

结果分析

实验结果显示： • 模型在空间迁移任务中表现出强大的泛化能力，成功率超过90%。 • 在长度扩展任务中，模型的表现显著下降，表明递归不稳定性是主要原因。 • 增加问题的多样性比增加解的多样性更能提高空间迁移能力。

应用场景

研究结果在以下场景中具有应用潜力： • 自然语言处理：提高语言模型在复杂推理任务中的表现。 • 机器人导航：应用于动态环境中的路径规划。 • 数据科学：优化组合问题的求解策略。

局限与展望

研究的局限性包括： • 模型在长度扩展任务中表现不佳，主要由于递归不稳定性。 • 强化学习虽然提高了训练稳定性，但未能扩展模型的能力边界。 • 未来研究需探索新的算法来克服这些限制。

通俗解读非专业人士也能看懂

想象你在一个巨大的迷宫中，任务是从入口找到出口。这个迷宫有很多不同的路径，有些路径很短，有些则很长。你有一个助手，他可以帮助你找到最短的路径。这个助手就像是我们的语言模型。助手非常擅长在新的迷宫中找到出口，因为他可以很快地适应新的环境。这就像我们的模型在空间迁移任务中表现出色一样。然而，当迷宫变得非常大时，助手开始犯错误，因为他在处理更长的路径时变得不稳定。这就像我们的模型在长度扩展任务中表现不佳一样。为了帮助助手更好地完成任务，我们可以给他更多的训练，让他习惯处理更长的路径。这就是我们在研究中所做的，通过调整训练数据和策略来提高模型的表现。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级复杂的迷宫游戏。你的任务是从起点找到终点，而且要走最短的路。你有一个超级聪明的机器人助手，他可以帮你找到最快的路线。这个机器人就像是一个语言模型，他在新的迷宫中表现得特别好，因为他能很快适应新的环境。但是，当迷宫变得特别大时，机器人就有点犯晕了，因为他在处理更长的路径时有点不稳定。为了让机器人更厉害，我们可以给他更多的训练，让他习惯处理更长的路径。这样，他就能在更复杂的迷宫中表现得更好了！

术语表

语言模型 (Language Model)

一种用于自然语言处理的模型，能够生成和理解人类语言。

在本文中用于解决最短路径问题。

最短路径 (Shortest Path)

在图中从起点到终点的最短路径，通常用于优化问题。

作为研究的核心任务。

空间迁移 (Spatial Transfer)

模型在完全未知的环境中解决问题的能力。

用于评估模型的泛化能力。

长度扩展 (Length Scaling)

模型在同一环境中处理更长路径的能力。

用于测试模型的递归稳定性。

递归不稳定性 (Recursive Instability)

模型在递归应用已学规则时的不稳定性，导致性能下降。

是长度扩展任务中失败的主要原因。

监督微调 (Supervised Fine-Tuning)

一种训练范式，通过标注数据对模型进行微调。

用于提高模型的性能。

强化学习 (Reinforcement Learning)

一种训练范式，通过奖励信号指导模型学习。

用于提高训练稳定性。

成功率 (Success Rate)

模型生成有效最短路径的概率。

作为评估指标。

合成环境 (Synthetic Environment)

一个可控的环境，用于测试模型的泛化能力。

用于独立评估训练数据和策略的影响。

组合优化问题 (Composable Optimization Problem)

需要通过一系列局部决策来满足全局目标的问题。

最短路径规划是一个典型的例子。

开放问题这项研究留下的未解疑问

1 如何提高模型在长度扩展任务中的表现？现有方法在处理更长路径时表现不佳，主要由于递归不稳定性。需要开发新的算法来克服这一限制。
2 递归不稳定性的根本原因是什么？虽然已知这是长度扩展任务中失败的主要原因，但其根本机制尚不清楚。
3 如何设计更有效的训练数据和推理策略？现有的策略未能解决长度扩展任务中的失败问题。
4 在复杂推理任务中，语言模型的系统泛化能力如何进一步提高？现有研究表明，模型的推理能力受到多种因素的影响。
5 如何在不增加训练数据的情况下提高模型的泛化能力？现有研究表明，数据覆盖范围决定了模型的能力上限。
6 强化学习在提高模型泛化能力方面的潜力如何？虽然提高了训练稳定性，但未能扩展模型的能力边界。
7 如何在不影响训练稳定性的情况下提高模型的推理能力？现有研究表明，推理时的扩展策略虽然提高了性能，但未能解决长度扩展任务中的失败问题。

应用场景

近期应用

自然语言处理

提高语言模型在复杂推理任务中的表现，特别是在处理组合优化问题时。

机器人导航

应用于动态环境中的路径规划，提高机器人在未知环境中的导航能力。

数据科学

优化组合问题的求解策略，提高数据分析的效率和准确性。

远期愿景

智能交通系统

通过改进路径规划算法，提高智能交通系统的效率和安全性。

自动驾驶

增强自动驾驶系统在复杂环境中的决策能力，提高行车安全。

原文摘要

Whether language models can systematically generalize remains actively debated. Yet empirical performance is jointly shaped by multiple factors such as training data, training paradigms, and inference-time strategies, making failures difficult to interpret. We introduce a controlled synthetic environment based on shortest-path planning, a canonical composable sequential optimization problem. The setup enables clean separation of these factors and supports two orthogonal axes of generalization: spatial transfer to unseen maps and length scaling to longer-horizon problems. We find that models exhibit strong spatial transfer but consistently fail under length scaling due to recursive instability. We further analyze how distinct stages of the learning pipeline influence systematic problem-solving: for example, data coverage sets capability limits; reinforcement learning improves training stability but does not expand those limits; and inference-time scaling enhances performance but cannot rescue length-scaling failures.

cs.AI cs.LG

参考文献 (20)

Understanding R1-Zero-Like Training: A Critical Perspective

Zi-Yan Liu, Changyu Chen, Wenjun Li 等

2025 881 引用 ⭐ 高影响力查看解读 →

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Xuezhi Wang, Jason Wei, D. Schuurmans 等

2022 6331 引用 ⭐ 高影响力查看解读 →

Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks

B. Lake, Marco Baroni

2017 905 引用 ⭐ 高影响力

On the generalization of language models from in-context learning and finetuning: a controlled study

Andrew Kyle Lampinen, Arslan Chaudhry, Stephanie C Y Chan 等

2025 40 引用查看解读 →

Instruction Tuning with GPT-4

Baolin Peng, Chunyuan Li, Pengcheng He 等

2023 795 引用查看解读 →

Contrastive Decoding: Open-ended Text Generation as Optimization

Xiang Lisa Li, Ari Holtzman, Daniel Fried 等

2022 582 引用查看解读 →

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Carlos E. Jimenez, John Yang, Alexander Wettig 等

2023 1913 引用查看解读 →

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Wenxuan Huang, Bohan Jia, Zijie Zhai 等

2025 484 引用查看解读 →

Task Generalization With AutoRegressive Compositional Structure: Can Learning From D Tasks Generalize to DT Tasks?

Amirhesam Abedsoltan, Huaqing Zhang, Kaiyue Wen 等

2025 10 引用查看解读 →

Compositional Generalization from First Principles

Thaddäus Wiedemer, P. Mayilvahanan, M. Bethge 等

2023 64 引用查看解读 →

On Provable Length and Compositional Generalization

Kartik Ahuja, Amin Mansouri

2024 16 引用查看解读 →

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Tianzhe Chu, Yuexiang Zhai, Jihan Yang 等

2025 520 引用查看解读 →

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

Naman Jain, King Han, Alex Gu 等

2024 1314 引用查看解读 →

CTL++: Evaluating Generalization on Never-Seen Compositional Patterns of Known Functions, and Compatibility of Neural Representations

R'obert Csord'as, K. Irie, J. Schmidhuber

2022 14 引用查看解读 →

COGS: A Compositional Generalization Challenge Based on Semantic Interpretation

Najoung Kim, Tal Linzen

2020 319 引用查看解读 →

The Paradox of the Compositionality of Natural Language: A Neural Machine Translation Case Study

Verna Dankers, Elia Bruni, Dieuwke Hupkes

2021 87 引用查看解读 →

All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning

Gokul Swamy, Sanjiban Choudhury, Wen Sun 等

2025 52 引用查看解读 →

Understanding Addition in Transformers

Philip Quirke, Fazl Barez

2023 35 引用查看解读 →

Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task

Maya Okawa, E. Lubana, Robert P. Dick 等

2023 95 引用查看解读 →

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 2371 引用

Generalization in LLM Problem Solving: The Case of the Shortest Path

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

语言模型 (Language Model)

最短路径 (Shortest Path)

空间迁移 (Spatial Transfer)

长度扩展 (Length Scaling)

递归不稳定性 (Recursive Instability)

监督微调 (Supervised Fine-Tuning)

强化学习 (Reinforcement Learning)

成功率 (Success Rate)

合成环境 (Synthetic Environment)

组合优化问题 (Composable Optimization Problem)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自然语言处理

机器人导航

数据科学

远期愿景

智能交通系统

自动驾驶

原文摘要

参考文献 (20)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问