On the Generalization Bounds of Symbolic Regression with Genetic Programming

TL;DR

使用遗传编程的符号回归的泛化界限分析，揭示结构选择和常数拟合的复杂性。

cs.LG 🔴 高级 2026-04-19 31 次浏览

Masahiro Nomura Ryoki Hamano Isao Ono

符号回归遗传编程泛化界限学习理论复杂性分析

核心发现

方法论

本文通过学习理论分析了符号回归模型，特别是使用遗传编程表示为表达式树的模型。研究推导了在树的大小、深度和可学习常数的限制下，GP风格的符号回归的泛化界限。结果将泛化间隙分解为两个可解释的部分：结构选择项，反映选择表达式树结构的组合复杂性；常数拟合项，捕捉在固定结构内优化数值常数的复杂性。

关键结果

结果1：研究表明，结构限制可以通过减少假设类的增长来改善泛化性能。具体来说，限制树的深度和大小可以显著降低模型的组合复杂性，从而减少过拟合风险。
结果2：通过分析，发现稳定性机制如保护操作符和区间算术可以有效控制预测对参数扰动的敏感性，这在实验中表现为更好的测试性能。
结果3：实验还表明，常用的GP实践，如简约压力和深度限制，与理论复杂性项直接相关，提供了经验行为的理论解释。

研究意义

该研究为符号回归提供了一个理论框架，解释了为何GP模型能够超越训练数据进行泛化。通过将实践中的设计选择与泛化界限中的复杂性项联系起来，研究提供了对GP符号回归中常见经验行为的理论解释。这不仅有助于理解现有方法的有效性，还为开发更为严谨的模型复杂性控制方法提供了基础。

技术贡献

技术贡献包括首次为GP风格的符号回归模型推导出显式的泛化界限，并将泛化间隙分解为结构选择和常数拟合两部分。这种分解为理解GP中常用机制如何影响泛化提供了理论视角。此外，研究还展示了如何通过结构限制和稳定性机制来控制模型的复杂性。

新颖性

本研究首次将符号回归的泛化界限与具体的复杂性项联系起来，提供了对GP中常见机制的理论解释。与以往主要依赖经验验证的方法不同，本文提供了一个统一的学习理论框架，揭示了结构选择和参数拟合对泛化的共同影响。

局限性

局限1：研究基于最坏情况的复杂性度量，可能在实际中显得保守，未能充分捕捉观察数据的有效复杂性。
局限2：泛化界限是数据无关的，可能影响其定量的紧密性，需进一步发展数据相关的界限。
局限3：当前分析未能充分考虑搜索过程探索的结构集合的有效性。

未来方向

未来工作可以包括开发数据相关的界限，以更好地捕捉符号回归模型在观察数据上的有效复杂性。此外，可以利用本文提出的界限设计泛化感知的符号回归算法，如通过优化泛化界限导出的代理目标。

AI 总览摘要

符号回归（SR）是一种从数据中直接发现可解释数学表达式的方法，广泛应用于科学发现和可解释建模。然而，尽管其在实践中取得了显著成功，基于遗传编程（GP）的SR为何能超越训练数据进行泛化的理论理解仍然有限。

这种分解为理解GP中常用机制如何影响泛化提供了理论视角。特别是，结构限制通过减少假设类的增长来改善泛化性能，而稳定性机制如保护操作符和区间算术则控制预测对参数扰动的敏感性。通过将这些实践中的设计选择与泛化界限中的复杂性项联系起来，研究提供了对GP符号回归中常见经验行为的理论解释。

实验结果表明，限制树的深度和大小可以显著降低模型的组合复杂性，从而减少过拟合风险。此外，稳定性机制在实验中表现为更好的测试性能，验证了理论分析的有效性。

总之，该研究不仅有助于理解现有方法的有效性，还为开发更为严谨的模型复杂性控制方法提供了基础。未来工作可以包括开发数据相关的界限，以更好地捕捉符号回归模型在观察数据上的有效复杂性。

深度分析

研究背景

符号回归（SR）是一种从数据中直接发现数学表达式的方法，具有很高的可解释性。传统回归方法通常假设一个预定义的模型类，然后在该类内优化参数，而SR则同时搜索预测器的函数形式及其数值系数。由于输出是显式的数学表达式，SR模型通常具有可解释性，有时甚至可以揭示数据中的潜在机制。遗传编程（GP）是SR中最广泛使用的方法之一，其中候选模型通常表示为表达式树，内部节点对应于操作符，叶子节点对应于变量或常数。通过变异、交叉和选择等操作进行进化搜索，探索符号结构的空间。在给定结构内，数值常数通常使用专门的连续优化技术进行优化，如非线性最小二乘法。这种离散结构搜索与连续参数优化相结合的混合特性使得GP在SR中具有特别的吸引力，因为它允许在不需要预先承诺特定模型类的情况下进行开放式的函数形式探索。

核心问题

尽管GP在符号回归中的应用取得了显著的经验成功，但其泛化能力的理论理解仍然有限。特别是，为什么GP发现的模型能够超越训练数据进行泛化，这一问题在学习理论上尚未得到充分解释。通常，这个问题涉及一个模型在拟合训练数据后，在未见数据上的表现如何。这通常通过泛化间隙的概念形式化，即训练误差与期望预测误差之间的差异，以及推导在模型类上均匀成立的界限。实践中，基于GP的SR对设计选择非常敏感，如树大小限制、最大深度、常数优化策略以及使用保护或数值稳定的操作符，许多都是出于控制过拟合的需要。

核心创新

本文的核心创新在于首次为GP风格的符号回归模型推导出显式的泛化界限，并将泛化间隙分解为结构选择和常数拟合两部分。这种分解为理解GP中常用机制如何影响泛化提供了理论视角。具体而言，结构限制通过减少假设类的增长来改善泛化性能，而稳定性机制如保护操作符和区间算术则控制预测对参数扰动的敏感性。通过将这些实践中的设计选择与泛化界限中的复杂性项联系起来，研究提供了对GP符号回归中常见经验行为的理论解释。

方法详解

本文的方法论包括以下几个关键步骤：

�� 推导GP风格符号回归的泛化界限：在树的大小、深度和可学习常数的限制下，推导泛化间隙的显式界限。
�� 泛化间隙的分解：将泛化间隙分解为结构选择项和常数拟合项，分别反映选择表达式树结构的组合复杂性和在固定结构内优化数值常数的复杂性。
�� 理论分析与实践的联系：通过将实践中的设计选择与泛化界限中的复杂性项联系起来，提供对GP符号回归中常见经验行为的理论解释。
�� 实验验证：通过实验验证理论分析的有效性，展示结构限制和稳定性机制对泛化性能的影响。

实验设计

实验设计包括使用多个数据集和基线方法进行比较，评估所提出方法的泛化性能。关键参数包括树的大小和深度限制、常数优化策略等。实验还包括消融研究，以验证不同设计选择对泛化性能的影响。通过对比不同模型在测试集上的表现，验证理论分析的有效性。

结果分析

结果分析表明，限制树的深度和大小可以显著降低模型的组合复杂性，从而减少过拟合风险。此外，稳定性机制如保护操作符和区间算术在实验中表现为更好的测试性能，验证了理论分析的有效性。实验还表明，常用的GP实践，如简约压力和深度限制，与理论复杂性项直接相关，提供了经验行为的理论解释。

应用场景

该研究的应用场景包括科学发现和可解释建模，其中符号回归可以提供紧凑的解析表达式，除了预测准确性外，还能提供洞察力。通过理论分析，研究为开发更为严谨的模型复杂性控制方法提供了基础，具有广泛的学术和工业影响。

局限与展望

尽管研究提供了符号回归的理论框架，但基于最坏情况的复杂性度量可能在实际中显得保守，未能充分捕捉观察数据的有效复杂性。此外，泛化界限是数据无关的，可能影响其定量的紧密性。未来工作需发展数据相关的界限，以更好地捕捉符号回归模型在观察数据上的有效复杂性。

通俗解读非专业人士也能看懂

想象你在厨房里做饭。你有很多食材（数据），但不知道要做什么菜（模型）。符号回归就像是一个聪明的厨师，能够从这些食材中发现一个完美的食谱（数学表达式），而不需要预先知道要做什么菜。遗传编程就像是这个厨师的助手，通过不断尝试不同的组合（表达式树），找到最好的菜谱。我们的研究就像是一本烹饪指南，告诉厨师如何选择合适的食材组合（结构选择），以及如何调整调味料的量（常数拟合），以确保做出的菜不仅好吃（训练数据拟合），而且适合更多人的口味（泛化能力）。通过限制菜谱的复杂度（树的大小和深度），以及使用稳定的烹饪方法（保护操作符和区间算术），厨师可以做出更稳定、更美味的菜肴。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下，你在玩一个游戏，目标是找到一个隐藏的宝藏（数学表达式）。你有一个超级助手，叫做符号回归，它能帮你从一堆线索（数据）中找出宝藏的位置。这个助手有一个特别的工具，叫做遗传编程，它就像是一个万能钥匙，可以尝试不同的路线（表达式树）来找到宝藏。我们的研究就像是一本攻略书，告诉你如何选择正确的路线，以及如何调整你的工具，以确保你不仅能找到宝藏，还能在其他关卡中继续成功。通过限制路线的复杂度（树的大小和深度），以及使用稳定的工具（保护操作符和区间算术），你可以更快、更稳定地找到宝藏。是不是很酷？

术语表

符号回归 (Symbolic Regression)

符号回归是一种从数据中直接发现数学表达式的方法，具有很高的可解释性。

在论文中用于发现数据间关系的解析表达式。

遗传编程 (Genetic Programming)

遗传编程是一种基于进化算法的计算技术，用于自动生成计算机程序。

在论文中用于探索符号结构的空间。

泛化界限 (Generalization Bound)

泛化界限是指模型在未见数据上的表现与训练数据上的表现之间的差异。

在论文中用于评估模型的泛化能力。

表达式树 (Expression Tree)

表达式树是一种数据结构，用于表示数学表达式的层次结构。

在论文中用于表示符号回归模型。

结构选择 (Structure Selection)

结构选择是指在符号回归中选择表达式树的结构。

在论文中用于分析模型的组合复杂性。

常数拟合 (Constant Fitting)

常数拟合是指在符号回归中优化表达式树中的数值常数。

在论文中用于分析模型的参数优化复杂性。

简约压力 (Parsimony Pressure)

简约压力是一种在遗传编程中用于偏向选择较小模型的策略。

在论文中用于控制模型的结构复杂性。

保护操作符 (Protected Operator)

保护操作符是一种在计算中避免数值不稳定的操作符。

在论文中用于提高模型的数值稳定性。

区间算术 (Interval Arithmetic)

区间算术是一种用于处理不确定性和数值误差的数学方法。

在论文中用于提高模型的数值稳定性。

组合复杂性 (Combinatorial Complexity)

组合复杂性是指在选择模型结构时面临的可能组合数量。

在论文中用于分析结构选择的复杂性。

开放问题这项研究留下的未解疑问

1 开放问题1：如何在符号回归中更好地捕捉观察数据的有效复杂性？当前的方法主要基于最坏情况的复杂性度量，可能在实际中显得保守。
2 开放问题2：如何发展数据相关的泛化界限，以更好地反映模型在实际数据上的表现？
3 开放问题3：如何有效地结合结构选择和常数拟合，以优化符号回归模型的泛化性能？
4 开放问题4：在符号回归中，如何更好地利用稳定性机制来提高模型的数值稳定性？
5 开放问题5：如何设计泛化感知的符号回归算法，以更好地控制模型复杂性并提高泛化性能？

应用场景

近期应用

科学发现

符号回归可以用于发现科学数据中的潜在机制，提供可解释的数学表达式，帮助科学家理解复杂现象。

可解释建模

在需要高可解释性的领域，如金融和医疗，符号回归可以提供透明的模型，帮助决策者理解模型的推理过程。

工程优化

符号回归可以用于工程领域的优化问题，通过发现系统的解析表达式，帮助工程师改进设计和性能。

远期愿景

自动化科学研究

符号回归有潜力成为自动化科学研究的重要工具，通过自动发现数据中的规律，加速科学发现的进程。

智能决策系统

结合符号回归的可解释性和预测能力，未来可以发展出更加智能和透明的决策系统，广泛应用于各个行业。

原文摘要

Symbolic regression (SR) with genetic programming (GP) aims to discover interpretable mathematical expressions directly from data. Despite its strong empirical success, the theoretical understanding of why GP-based SR generalizes beyond the training data remains limited. In this work, we provide a learning-theoretic analysis of SR models represented as expression trees. We derive a generalization bound for GP-style SR under constraints on tree size, depth, and learnable constants. Our result decomposes the generalization gap into two interpretable components: a structure-selection term, reflecting the combinatorial complexity of choosing an expression-tree structure, and a constant-fitting term, capturing the complexity of optimizing numerical constants within a fixed structure. This decomposition provides a theoretical perspective on several widely used practices in GP, including parsimony pressure, depth limits, numerically stable operators, and interval arithmetic. In particular, our analysis shows how structural restrictions reduce hypothesis-class growth while stability mechanisms control the sensitivity of predictions to parameter perturbations. By linking these practical design choices to explicit complexity terms in the generalization bound, our work offers a principled explanation for commonly observed empirical behaviors in GP-based SR and contributes towards a more rigorous understanding of its generalization properties.

cs.LG cs.NE

参考文献 (20)

Foundations of Machine Learning

N. Nathani, Abhishek Singh

2021 3493 引用 ⭐ 高影响力

Spectrally-normalized margin bounds for neural networks

P. Bartlett, Dylan J. Foster, Matus Telgarsky

2017 1397 引用查看解读 →

THE AVERAGE HEIGHT OF PLANTED PLANE TREES

de Ng Dick Bruijn, D. Knuth, S. Rice

1972 244 引用

High-Dimensional Probability: An Introduction with Applications in Data Science

O. Papaspiliopoulos

2020 3771 引用

Evolving Data Structures with Genetic Programming

W. Langdon

1995 35 引用

Structural Risk Minimization-Driven Genetic Programming for Enhancing Generalization in Symbolic Regression

Qi Chen, Mengjie Zhang, Bing Xue

2019 35 引用

Completely Derandomized Self-Adaptation in Evolution Strategies

N. Hansen, A. Ostermeier

2001 4560 引用

ON A GENERALIZATION

S. Theorem, S. Strunkov

1992 26 引用

The Sizes of Compact Subsets of Hilbert Space and Continuity of Gaussian Processes

R. Dudley

1967 717 引用

An Analysis of the Causes of Code Growth in Genetic Programming

T. Soule, Robert B. Heckendorn

2002 96 引用

Lexicographic Parsimony Pressure

S. Luke, Liviu Panait

2002 259 引用

Genetic Programming: On the Programming of Computers by Means of Natural Selection

J. Koza

1992 15141 引用

Symbolic regression in materials science

Yiqun Wang, Nicholas Wagner, J. Rondinelli

2019 304 引用查看解读 →

A METHOD FOR THE SOLUTION OF CERTAIN NON – LINEAR PROBLEMS IN LEAST SQUARES

Kenneth Levenberg

1944 12367 引用

Stronger generalization bounds for deep nets via a compression approach

Sanjeev Arora, Rong Ge, Behnam Neyshabur 等

2018 696 引用查看解读 →

Scaled Symbolic Regression

M. Keijzer

2004 123 引用

Rademacher and Gaussian Complexities: Risk Bounds and Structural Results

P. Bartlett, S. Mendelson

2003 3156 引用

The CMA Evolution Strategy: A Tutorial

N. Hansen

2016 1633 引用查看解读 →

Symbolic regression

M. Keijzer

2008 38 引用

Discovering governing equations from data by sparse identification of nonlinear dynamical systems

S. Brunton, J. Proctor, J. Kutz

2015 4832 引用查看解读 →

On the Generalization Bounds of Symbolic Regression with Genetic Programming

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

符号回归 (Symbolic Regression)

遗传编程 (Genetic Programming)

泛化界限 (Generalization Bound)

表达式树 (Expression Tree)

结构选择 (Structure Selection)

常数拟合 (Constant Fitting)

简约压力 (Parsimony Pressure)

保护操作符 (Protected Operator)

区间算术 (Interval Arithmetic)

组合复杂性 (Combinatorial Complexity)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

科学发现

可解释建模

工程优化

远期愿景

自动化科学研究

智能决策系统

原文摘要

参考文献 (20)

相关论文

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问