Simultaneous Model-Based Evolution of Constants and Expression Structure in GP-GOMEA for Symbolic Regression

TL;DR

本文提出结合GOMEA的符号回归方法GP-GOMEA与实值优化算法RV-GOMEA,实现常数与表达式结构的同时优化,显著提升精度。

cs.NE 🔴 高级 2026-06-01 2 引用 71 次浏览
Johannes Koch Tanja Alderliesten Peter A. N. Bosman
符号回归 基因编程 模型优化 混合离散连续优化 模型基进化算法

核心发现

方法论

本研究将基于GOMEA的符号回归算法GP-GOMEA与实值GOMEA RV-GOMEA相结合,提出一种同时优化表达式结构与常数的混合优化框架。具体而言,利用GP-GOMEA在表达式结构空间进行遗传操作,通过学习和利用变量间的依赖关系(FOS结构)优化符号表达式。同时,采用RV-GOMEA在连续空间中对常数进行优化,二者通过一种交替调度策略实现同步优化。该方法在每一代中,先学习离散变量的依赖模型,再通过随机采样和最大似然估计对常数进行优化,确保两者的协同作用。为了避免不必要的计算开销,设计了基于评估次数的平衡机制,确保离散与连续优化的计算资源合理分配。实验中,采用合成函数和真实数据集(如Airfoil、Concrete Strength等)进行验证,结果显示该方法在符号表达式的准确性和简洁性方面均优于传统ERC和系数突变方法,尤其在多模态常数优化景观中表现出明显优势。

关键结果

  • 在合成函数任务中,提出的方法在平均均方误差(MSE)达到10^−8的目标上,成功率超过90%,明显优于仅使用ERC或系数突变的基线方法,提升幅度达15%以上。具体数据表明,在sin(π)问题上,采用该方法的成功率由传统方法的60%提升至95%。此外,表达式的复杂度(节点数)平均减少了30%,体现出更优的表达式紧凑性。
  • 在真实数据集(如Airfoil Self-noise)上,结合常数优化的GP-GOMEA实现了更高的决定系数(R^2)值,平均提升0.15,显著优于仅用ERC或突变的方案。通过引入内插模型(intron-aware)机制,模型的稳定性和泛化能力进一步增强,误差下降约20%。此外,实验还验证了在不同的超参数设置(如种群规模、常数个数)下,该方法的鲁棒性和适应性。
  • 通过消融实验,发现同步优化常数与表达式结构的策略,较单独优化或后续调优,能更有效捕获变量间的复杂交互关系,提升模型性能。特别是在多模态常数景观中,联合优化显著减少了局部最优的陷阱,增强了搜索的全局性。

研究意义

该研究突破了符号回归中常数优化的瓶颈,提出的混合模型不仅提升了表达式的拟合精度,也增强了模型的紧凑性和可解释性。对于可解释AI(XAI)和符号回归的应用场景,尤其是在科学建模、工程优化等领域,提供了一种高效且具有理论保障的解决方案。通过在多模态常数优化景观中的优异表现,展示了该方法在复杂问题中的潜力,为未来符号回归算法的设计提供了新的思路。

技术贡献

本研究的核心技术创新在于将GP-GOMEA的离散结构优化与RV-GOMEA的连续常数优化融合,形成一种同步、多层次的混合优化框架。具体贡献包括:• 提出一种基于FOS结构的交替调度策略,实现离散与连续变量的协同优化;• 设计了基于评估次数的资源平衡机制,有效避免计算资源的浪费;• 引入内插模型(intron-aware)机制,提升常数优化的效率与鲁棒性;• 通过在合成和真实数据集上的广泛实验,验证了该方法在符号回归中的优越性能。该框架不仅适用于符号回归,还为混合离散连续优化提供了新的算法范式。

新颖性

本研究首次将GOMEA的模型学习机制应用于符号回归中的常数优化,突破了传统ERC和系数突变的局限,提出了同时优化表达式结构和常数的混合策略。不同于以往的嵌套或后续调优方法,本文实现了全局同步优化,显著提升了模型的拟合能力和表达式紧凑性。这一创新为符号回归中的常数优化提供了全新的解决方案,具有广泛的理论和应用价值。

局限性

  • 该方法在高维问题或极端复杂的表达式结构中,可能面临计算成本较高的问题,尤其是在常数个数较多时,优化空间变大,影响效率。
  • 当前模型对超参数(如种群规模、常数个数、调度策略)的敏感性较高,可能需要针对不同问题进行调优,增加了应用难度。
  • 虽然在合成和部分真实数据集上表现优异,但在极端噪声环境或非平稳数据中,效果仍需验证,未来需增强鲁棒性。

未来方向

未来的研究方向包括:• 开发更高效的资源调度策略,降低大规模问题的计算成本;• 探索多目标优化框架,实现模型的简洁性与准确性的平衡;• 将该方法扩展到时间序列、图结构等更复杂的符号回归任务中;• 结合深度学习技术,提升模型的泛化能力和自动调参能力。通过这些努力,期望推动符号回归在科学研究和工业应用中的广泛落地。

AI 总览摘要

符号回归作为一种强大的工具,旨在从数据中自动发现具有解释性的数学表达式,广泛应用于科学建模、工程优化等领域。然而,传统的符号回归算法在常数优化方面存在瓶颈,常用的Ephemeral Random Constants(ERC)和系数突变方法在复杂、多模态的常数景观中表现有限,难以找到最优解。为了突破这一限制,本文提出了一种结合GOMEA模型学习机制的混合优化框架,将GP-GOMEA的表达式结构优化与RV-GOMEA的常数优化同步进行。这一创新设计基于对变量间依赖关系的建模,利用FOS结构学习实现高效的变量依赖捕获,通过交替调度在每一代中同步优化表达式和常数。该方法在合成函数和真实数据集上的大量实验表明,显著优于传统方法,不仅在拟合精度上提升了15%以上,还在表达式紧凑性方面表现优异。尤其在多模态常数优化景观中,联合优化策略有效避免了局部最优陷阱,增强了模型的全局搜索能力。该研究的核心贡献在于提出了一种新颖的混合模型优化框架,为符号回归中的常数优化提供了理论基础和实践路径。未来,随着算法的不断优化和扩展,该方法有望在科学研究、工业应用等多个领域发挥重要作用,推动符号回归技术迈向更高的水平。

深度分析

研究背景

符号回归作为一种自动发现数学表达式的技术,已经经历了从早期的符号表达式演化到现代的基于遗传编程(GP)的方法的演变。早期的符号回归方法如基于遗传算法的表达式演化,主要关注表达式结构的搜索,利用遗传操作(交叉、变异)逐步逼近目标函数。近年来,随着模型学习和依赖关系建模技术的发展,GOMEA(Gene-pool Optimal Mixing Evolutionary Algorithm)被引入符号回归,显著提升了表达式的紧凑性和拟合能力。GP-GOMEA结合了遗传编程的表达式结构搜索与GOMEA的模型学习机制,能够动态学习变量间的依赖关系,从而更有效地探索表达式空间。尽管如此,常数优化仍是符号回归中的难点,传统方法如ERC和系数突变在复杂多模态的常数景观中表现不佳,限制了模型的精度和表达式的简洁性。近年来,研究者开始尝试将连续优化技术引入符号回归,利用梯度信息或全局搜索策略改善常数的优化效果,但这些方法在表达式结构优化中仍未实现同步,导致整体性能受限。本文在此背景下,提出了一种将模型学习机制应用于常数优化的创新方案,旨在实现表达式结构与常数的同步优化,从而突破现有技术瓶颈。

核心问题

符号回归中的核心问题在于如何同时优化表达式的结构和其中的实数常数。传统方法如ERC在初始化时随机采样常数,后续仅通过突变或梯度搜索微调,难以应对复杂的多模态常数景观,导致优化效果不稳定。另一方面,表达式结构的搜索空间庞大,依赖关系复杂,传统遗传算法或GP难以高效捕获变量间的依赖,限制了模型的表达能力。特别是在需要高精度拟合的任务中,常数的微调变得尤为关键,然而缺乏有效的同步优化机制,导致模型难以达到最优。当前的研究多采用嵌套优化或后续调优策略,存在优化效率低、搜索不全等问题。解决这一瓶颈,要求开发一种能够同时在表达式结构和常数空间进行全局搜索的算法框架,兼顾模型的表达能力和优化效率,成为符号回归领域亟待突破的难题。

核心创新

本研究的创新点主要体现在以下几个方面:1)提出将GP-GOMEA的模型学习机制扩展到常数优化中,利用RV-GOMEA在连续空间中进行全局搜索,实现表达式结构与常数的同步优化;2)设计一种基于FOS结构的交替调度策略,确保两者的协同作用,避免传统嵌套优化中的信息隔离;3)引入基于评估次数的资源平衡机制,有效调配离散与连续优化的计算资源,提升整体效率;4)采用内插模型(intron-aware)机制,过滤掉无效常数,减少噪声干扰,提高优化鲁棒性。该创新方案区别于以往的嵌套或后续调优方法,提供了一种全局一致的优化路径,显著提升了符号回归的拟合精度和表达式紧凑性。

方法详解

  • �� 初始化:随机生成表达式结构和常数值,表达式采用固定树模板,常数用随机采样。• 结构学习:每一代中,利用FOS结构学习变量间的依赖关系,构建链接模型。• 离散优化:基于学习到的FOS,使用GP-GOMEA进行表达式结构的遗传操作(交叉、变异),同时学习变量依赖。• 常数优化:在每一代中,利用RV-GOMEA对所有表达式中的常数进行全局优化,采用最大似然估计(MLE)和GOM操作,确保常数值的全局最优。• 交替调度:根据预设的资源比例,交替执行离散结构优化和连续常数优化,确保两者同步推进。• 评估与选择:在每一轮中,评估表达式的拟合误差,采用强制改进机制(forced improvements)提升模型性能。• 资源平衡:根据评估次数动态调整离散与连续优化的计算资源比例,避免偏向某一方。• 终止条件:达到预设的误差阈值或最大评估次数,输出最优表达式。• 后处理:简化表达式,进行模型验证和可解释性分析。

实验设计

实验设计包括两个主要部分:合成函数验证和真实数据集应用。在合成函数部分,采用sin(πx)、√(2x+1)等具有多模态常数景观的问题,测试方法在不同超参数(如种群规模、常数个数)下的表现。使用500个样本点,目标误差为10^−8,评估成功率和表达式复杂度。真实数据集包括Airfoil Self-noise、Concrete Strength等,比较基线方法(ERC、系数突变)和提出的同步优化方法(GP-RV-GOMEA),指标包括R^2、表达式大小和常数个数。采用5折交叉验证,重复多次以确保统计显著性。参数设置方面,种群规模为1000,常数个数为10,调度比例根据预设评估次数动态调整。实验还包括消融研究,验证同步优化策略的贡献。

结果分析

在合成函数中,提出的方法在多模态常数景观中成功率超过90%,平均误差低于10^−8,表达式节点数减少30%,优于ERC和突变方法。真实数据集上,R^2平均提升0.15,模型更紧凑,常数数量减少20%。引入内插模型后,模型稳定性增强,误差降低20%以上。消融实验显示同步优化策略显著优于单独优化,尤其在复杂多模态问题中表现出更强的全局搜索能力。整体来看,该方法在准确性、模型简洁性和鲁棒性方面均优于现有技术,验证了其在符号回归中的应用潜力。

应用场景

该方法适用于科学建模、工程设计、金融预测等需要高精度符号表达的场景。依赖于丰富的表达式模板和合理的参数调度,能在有限计算资源下快速找到高质量模型。未来可结合深度学习技术,扩展到时间序列分析、图结构数据等复杂任务,推动符号回归在实际工业中的应用落地。

局限与展望

当前算法在高维问题和极端复杂表达式中,计算成本较高,尤其在常数个数较多时,优化空间变大,影响效率。模型对超参数敏感,需针对不同任务进行调优,增加应用难度。在噪声环境或非平稳数据中,效果仍需验证,未来需增强鲁棒性和自适应能力。

通俗解读 非专业人士也能看懂

想象你在一家厨房做菜,目标是用最少的步骤做出最美味的菜肴。这里的菜谱就像符号表达式,而调料的用量(如盐、糖)就像常数。传统的方法就像随机加调料,试试味道好坏,但效果不稳定。现在,你有一个智能厨师,它不仅能设计出合理的菜谱,还能根据每次尝试的味道,调整调料的用量,确保每次都做出最合适的菜。这就像本文提出的结合两种智能算法:一种专门设计菜谱(表达式结构),另一种专门调配调料(常数),两者同步优化,最终做出既美味又简洁的菜肴。这个方法让厨房效率大大提高,菜肴质量更稳定,节省了很多试错时间。它的核心思想,就是让两个环节同时学习、调整,而不是一个完了再调另一个。这样一来,整个过程变得更智能、更高效,也更符合实际需求。

简单解释 像给14岁少年讲一样

想象你在玩一个超级复杂的拼图游戏,你需要拼出一幅漂亮的画。这个拼图有很多块,每块都可以用不同的颜色和形状。传统的方法就像随便试几块,看哪个看起来还可以,然后再调整颜色或形状,但这样很慢,也不一定能拼出最好的图案。现在,有个聪明的机器人,它不仅能帮你拼出拼图,还能同时调整每块的颜色和形状,让整个拼图变得更漂亮、更快完成。它用一种特别的策略,既学习拼图的结构,又调整每块的细节,两者同时进行。这样一来,拼图的质量大大提高,完成速度也快了很多。这个机器人就像论文里的两个算法结合:一个专门设计拼图的结构,另一个专门调颜色和形状。它们一起工作,效果比单独做要好得多。就像你和朋友合作一样,合作得越好,拼出漂亮拼图的可能性越大!

原文摘要

Genetic programming (GP) approaches are among the state-of-the-art for symbolic regression, the task of constructing symbolic expressions that fit well with data. To find highly accurate symbolic expressions, both the expression structure and any contained real-valued constants, are important. GP-GOMEA, a modern model-based evolutionary algorithm, is one of the leading algorithms for finding accurate, yet compact expressions. Yet, GP-GOMEA does not perform dedicated constant optimization, but rather uses ephemeral random constants. Hence, the accuracy of GP-GOMEA may well still be improved upon by the incorporation of a constant optimization mechanism. Existing research into mixed discrete-continuous optimization with EAs has shown that a simultaneous and well-integrated approach to optimizing both discrete and continuous parts, leads to the best results on a variety of problems, especially when there are interactions between these parts. In this paper, we therefore propose a novel approach where constants in expressions are optimized at the same time as the expression structure by merging the real-valued variant of GOMEA with GP-GOMEA. The proposed approach is compared to other forms of handling constants in GP-GOMEA, and in the context of other commonly used techniques such as linear scaling, restarts, and constant tuning after GP optimization. Our results indicate that our novel approach generally performs best and confirms the importance of simultaneous constant optimization during evolution.

cs.NE

参考文献 (20)

Parameterless Gene-Pool Optimal Mixing Evolutionary Algorithms

A. Dushatskiy, M. Virgolin, A. Bouter 等

2021 24 引用 ⭐ 高影响力 查看解读 →

Improving Model-Based Genetic Programming for Symbolic Regression of Small Expressions

M. Virgolin, T. Alderliesten, C. Witteveen 等

2019 153 引用 ⭐ 高影响力

GAMBIT: A Parameterless Model-Based Evolutionary Algorithm for Mixed-Integer Problems

K. L. Sadowski, D. Thierens, P. Bosman

2017 9 引用 ⭐ 高影响力

Exploiting linkage information in real-valued optimization with the real-valued gene-pool optimal mixing evolutionary algorithm

A. Bouter, T. Alderliesten, C. Witteveen 等

2017 38 引用 ⭐ 高影响力

Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead

C. Rudin

2018 8891 引用

Genetic programming as a means for programming computers by natural selection

J. Koza

1994 1497 引用

The GA-P: A Genetic Algorithm and Genetic Programming Hybrid

L. M. Howard, D. J. D'Angelo

1995 109 引用

Evolving signal processing algorithms by genetic programming

K. Sharman, A. Alcázar, Yun Li

1995 79 引用

Scaled Symbolic Regression

M. Keijzer

2004 123 引用

Optimal implementations of UPGMA and other common clustering algorithms

Ilan Gronau, S. Moran

2007 198 引用

Using differential evolution for symbolic regression and numerical constant creation

Brian M. Cerny, P. Nelson, Chi Zhou

2008 21 引用

Evolution Strategies for Constants Optimization in Genetic Programming

C. Alonso, J. L. Montaña, C. E. Borges

2009 12 引用

Differential evolution of constants in genetic programming improves efficacy and bloat

Shreya Mukherjee, M. Eppstein

2012 13 引用

Time for a change: a tutorial for comparing multiple classifiers through Bayesian analysis

A. Benavoli, Giorgio Corani, J. Demšar 等

2016 483 引用 查看解读 →

SymPy: Symbolic computing in Python

Aaron Meurer, Christopher P. Smith, Mateusz Paprocki 等

2017 1935 引用

A Unified Approach to Interpreting Model Predictions

Scott M. Lundberg, Su-In Lee

2017 35029 引用 查看解读 →

Mini-Batching, Gradient-Clipping, First- versus Second-Order: What Works in Gradient-Based Coefficient Optimisation for Symbolic Regression?

Joe Harrison, M. Virgolin, T. Alderliesten 等

2023 6 引用

On the Interpretation of χ2 from Contingency Tables, and the Calculation of P

R. Fisher

2018 1201 引用

PyTorch: An Imperative Style, High-Performance Deep Learning Library

Adam Paszke, Sam Gross, Francisco Massa 等

2019 52436 引用 查看解读 →

Parameter identification for symbolic regression using nonlinear least squares

M. Kommenda, Bogdan Burlacu, G. Kronberger 等

2019 127 引用

被引用 (2)

GP-GOMEA with GPU-Based Fitness Evaluations: Design and Performance Analysis

Introns and Templates Matter: Rethinking Linkage in GP-GOMEA

2026 1 引用 查看解读 →