Evaluating the Progression of Large Language Model Capabilities for Small-Molecule Drug Design

TL;DR

使用强化学习后训练的小模型在小分子药物设计任务中表现出色，接近最先进的前沿模型。

cs.LG 🔴 高级 2026-04-18 32 次浏览

Shriram Chennakesavalu Kirill Shmilovich Hayley Weir Colin Grambow John Bradshaw Patricia Suriana Chen Cheng Kangway Chuang

AI 阅读器 Arxiv 原文下载 PDF

大语言模型小分子药物设计强化学习化学任务模型评估

核心发现

方法论

本研究提出了一套化学任务，包括分子性质预测、分子表示转换和分子设计，并将这些任务构建为强化学习环境。通过在这些任务上进行后训练，研究发现小模型可以在小分子药物设计中表现出与最先进模型相当的能力，尽管其基础模型较弱。

关键结果

结果1：后训练的小模型在多轮分子设计任务中表现优异，尽管基础模型较弱，但其性能与闭源前沿模型相当，特别是在模拟真实世界的引导优化任务中。
结果2：在RDKit性质预测任务中，Aspen模型显著提高了氢键供体和受体计数的预测准确性，分别达到0.80和0.85。
结果3：在多属性约束生成任务中，Aspen模型的有效响应率从0.77提升到1.00，所有约束的满足率从0.09提高到0.21。

研究意义

本研究通过将化学任务构建为强化学习环境，展示了大语言模型在小分子药物设计中的潜力。通过后训练，小模型可以在化学任务中达到与前沿模型相当的性能，这为药物发现提供了一条实用的途径，特别是在数据有限的实验环境中。

技术贡献

技术贡献在于将小分子药物设计任务构建为强化学习环境，并展示了后训练如何显著提高模型性能。这种方法使得较小的模型在化学任务中表现出色，缩小了与最先进模型的能力差距。

新颖性

本研究首次将小分子药物设计任务系统地构建为强化学习环境，并证明了后训练可以显著提高模型性能，特别是在数据有限的情况下。

局限性

局限1：尽管后训练提高了模型性能，但在实验数据有限的情况下，模型仍然面临挑战，特别是在DMPK溶解度预测任务中，所有模型的R2值仍为负。
局限2：在分子表示转换任务中，Aspen模型在最困难的命名法和表示任务中仍接近零准确率。
局限3：多属性约束生成任务中，尽管Aspen模型有所改进，但约束组合仍然是核心难题。

未来方向

未来的研究方向包括探索其他训练程序，例如中期训练，以在基础模型中注入新知识，并进一步提高模型在化学任务中的性能。

AI 总览摘要

大语言模型（LLMs）在小分子药物设计中展示了加速潜力，但其实际效用尚不明确，部分原因是缺乏反映真实场景的基准。在这项研究中，我们引入了一套化学任务，包括分子性质预测、分子表示转换和分子设计，并将这些任务构建为强化学习（RL）环境，从而实现统一的评估和后训练方法。

通过对三种模型家族的研究，我们发现前沿模型在化学任务中的能力日益提高，但在低数据的实验环境中仍有显著的改进空间。关键的是，我们展示了基于RL的后训练可以显著提高性能。一个在我们环境中后训练的小模型在多轮分子设计任务中表现出色，尽管基础模型较弱，但其性能与最先进的前沿模型相当。

这表明，通过结合精心设计的评估任务和有针对性的后训练，我们可以揭示并弥合关键能力差距，为药物发现提供了一条实用的途径。我们的研究表明，尽管基础模型较弱，但通过后训练，小模型可以在化学任务中达到与前沿模型相当的性能。

在实验设计中，我们使用了RDKit性质预测任务、实验性质预测任务、多选任务、分子表示转换任务和多属性约束生成任务。这些任务评估了模型在真实世界环境中对小分子化学的推理能力。实验结果表明，Aspen模型在多个任务中表现优异，尤其是在多属性约束生成任务中，其有效响应率从0.77提升到1.00。

尽管取得了显著进展，但在实验数据有限的情况下，模型仍然面临挑战，特别是在DMPK溶解度预测任务中，所有模型的R2值仍为负。未来的研究方向包括探索其他训练程序，例如中期训练，以在基础模型中注入新知识，并进一步提高模型在化学任务中的性能。

深度分析

研究背景

近年来，大语言模型（LLMs）在多个领域展示了强大的能力，尤其是在自然语言处理和生成任务中。然而，在小分子药物设计领域，LLMs的实际应用仍然受到限制，部分原因是缺乏能够反映真实世界场景的基准测试。药物发现是一个复杂的过程，涉及大量的计算、实验和临床方法。设计能够综合信息并利用工具的通用系统可以显著减少药物设计的时间和成本。近年来，LLMs被用于药物发现的多个环节，包括靶点识别、先导优化和毒性预测。然而，这些应用受限于基础模型的性能，特别是在生物和化学任务中。

核心问题

小分子药物设计是药物发现中的一个关键环节，涉及分子性质预测、分子表示转换和分子设计等任务。然而，现有的LLMs在这些任务中的表现有限，特别是在数据有限的实验环境中。如何提高LLMs在小分子药物设计任务中的性能，尤其是在低数据的情况下，是当前研究的一个重要挑战。

核心创新

本研究的核心创新在于将小分子药物设计任务构建为强化学习环境，并通过后训练显著提高模型性能。具体而言，我们设计了一套化学任务，包括分子性质预测、分子表示转换和分子设计，并将这些任务构建为RL环境。这种方法使得较小的模型在化学任务中表现出色，缩小了与最先进模型的能力差距。

方法详解

�� 任务设计：构建一套化学任务，包括分子性质预测、分子表示转换和分子设计。
�� RL环境：将任务构建为RL环境，实现统一的评估和后训练方法。
�� 模型选择：选择三种模型家族进行研究，包括GPT-5、Claude Opus 4和Qwen-30B-A3B。
�� 后训练：对小模型进行RL后训练，评估其在化学任务中的性能。

实验设计

实验设计包括多个化学任务：RDKit性质预测、实验性质预测、多选任务、分子表示转换和多属性约束生成。这些任务评估了模型在真实世界环境中对小分子化学的推理能力。我们使用了多个数据集，包括内部效能和DMPK数据集以及FS-Mol数据集。实验结果表明，Aspen模型在多个任务中表现优异，尤其是在多属性约束生成任务中，其有效响应率从0.77提升到1.00。

结果分析

实验结果显示，Aspen模型在多个任务中表现优异。在RDKit性质预测任务中，Aspen模型显著提高了氢键供体和受体计数的预测准确性，分别达到0.80和0.85。在多属性约束生成任务中，Aspen模型的有效响应率从0.77提升到1.00，所有约束的满足率从0.09提高到0.21。尽管取得了显著进展，但在实验数据有限的情况下，模型仍然面临挑战，特别是在DMPK溶解度预测任务中，所有模型的R2值仍为负。

应用场景

本研究的应用场景包括药物发现中的多个环节，如靶点识别、先导优化和毒性预测。通过结合精心设计的评估任务和有针对性的后训练，我们可以揭示并弥合关键能力差距，为药物发现提供了一条实用的途径。

局限与展望

尽管后训练提高了模型性能，但在实验数据有限的情况下，模型仍然面临挑战，特别是在DMPK溶解度预测任务中，所有模型的R2值仍为负。此外，在分子表示转换任务中，Aspen模型在最困难的命名法和表示任务中仍接近零准确率。未来的研究方向包括探索其他训练程序，例如中期训练，以在基础模型中注入新知识，并进一步提高模型在化学任务中的性能。

通俗解读非专业人士也能看懂

想象你在厨房里做饭，而大语言模型就像一个超级厨师助手。这个助手不仅能帮你查找食谱，还能根据你的口味调整菜谱，甚至能预测你可能喜欢的菜肴。就像在厨房里，你需要根据不同的食材和工具来做出美味的菜肴，在药物设计中，我们需要根据不同的分子特性来设计出有效的药物。大语言模型就像这个超级厨师助手，通过学习和训练，它可以帮助我们更快地找到合适的分子组合，从而加速药物的研发过程。通过强化学习，这个助手还能不断提高自己的能力，即使在食材有限的情况下，也能做出美味的菜肴。这就是大语言模型在小分子药物设计中的作用：通过学习和训练，帮助科学家更快、更有效地设计出新的药物。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级复杂的游戏，游戏里有各种各样的任务，比如找到隐藏的宝藏或者解锁新的关卡。大语言模型就像是游戏里的超级助手，它能帮你找到最快的路线，甚至能预测敌人的动向，让你轻松过关。在科学世界里，这个助手被用来设计新药物。科学家们给它设置了各种任务，比如预测分子的特性或者设计新的分子组合。通过不断的训练，这个助手变得越来越聪明，甚至在数据很少的情况下也能表现出色。就像在游戏里，你的助手能帮你打败最强的BOSS，在药物设计中，大语言模型能帮助科学家找到最有效的药物组合。是不是很酷？

术语表

大语言模型 (Large Language Model)

一种能够理解和生成自然语言的大规模机器学习模型，通常包含数十亿个参数。

在本文中用于小分子药物设计任务的能力评估。

小分子药物设计 (Small-Molecule Drug Design)

一种通过设计和优化小分子化合物来发现新药的过程。

本文的研究重点，评估大语言模型在此任务中的能力。

强化学习 (Reinforcement Learning)

一种机器学习方法，通过奖励和惩罚来训练模型，使其在特定任务中表现更好。

用于后训练大语言模型以提高其在化学任务中的性能。

RDKit

一种用于化学信息学和分子建模的开源工具包。

用于评估模型在分子性质预测任务中的表现。

DMPK (药物代谢和药代动力学)

研究药物在体内的代谢过程和药代动力学特性的领域。

用于评估模型在实验性质预测任务中的表现。

SMILES (简化分子输入线性表示法)

一种用于描述分子结构的文本格式。

用于分子表示转换任务中的输入和输出。

IUPAC命名法

国际纯粹与应用化学联合会制定的化学物质命名规则。

用于评估模型在分子表示转换任务中的表现。

多属性约束生成

在给定多个属性约束的情况下生成满足所有约束的分子。

用于评估模型在复杂分子设计任务中的能力。

Qwen-30B-A3B

一种具有30亿参数的混合专家语言模型。

本文中用于评估的模型之一。

Claude Opus 4

一种用于自然语言处理任务的前沿大语言模型。

本文中用于评估的模型之一。

开放问题这项研究留下的未解疑问

1 如何在数据有限的情况下提高大语言模型在药物设计任务中的性能？现有方法在实验数据有限的情况下表现不佳，特别是在DMPK溶解度预测任务中，所有模型的R2值仍为负。
2 在分子表示转换任务中，如何提高模型在最困难的命名法和表示任务中的准确率？现有模型在IUPAC→SMILES和SMILES→IUPAC任务中表现不佳。
3 如何设计更有效的奖励函数以提高模型在复杂化学任务中的性能？现有奖励函数在某些任务中无法提供足够的学习信号。
4 在多属性约束生成任务中，如何提高模型的约束组合能力？尽管Aspen模型有所改进，但约束组合仍然是核心难题。
5 如何在基础模型中注入新知识以提高其在化学任务中的性能？现有方法在某些任务中无法显著提高模型性能。

应用场景

近期应用

靶点识别

通过大语言模型的推理能力，科学家可以更快地识别潜在的药物靶点，从而加速药物发现过程。

先导优化

利用大语言模型进行分子设计和优化，提高先导化合物的效能和安全性。

毒性预测

通过大语言模型的预测能力，科学家可以更准确地评估化合物的毒性，从而减少实验成本。

远期愿景

个性化药物设计

利用大语言模型的强大推理能力，为个体患者设计个性化药物，提高治疗效果。

自动化药物发现

通过大语言模型的自动化能力，实现药物发现过程的全面自动化，显著减少时间和成本。

原文摘要

Large Language Models (LLMs) have the potential to accelerate small molecule drug design due to their ability to reason about information from diverse sources and formats. However, their practical utility remains unclear due to the lack of benchmarks that reflect real-world scenarios. In this work, we introduce a suite of chemically-grounded tasks spanning molecular property prediction, molecular representation transformations, and molecular design. Importantly, we formulate these tasks as reinforcement learning (RL) environments, enabling a unified approach for evaluation and post-training. Across three model families, we find that frontier models are increasingly proficient at chemical tasks, but that there is significant room for improvement, especially in experimental settings with low data. Critically, we show that RL-based post-training can substantially improve performance. A smaller model post-trained on our environments becomes competitive with state-of-the-art frontier models, despite a significantly weaker base model. This suggests a practical route toward employing LLMs in drug discovery; by combining carefully-designed evaluation tasks with targeted post-training, we can both elucidate and close critical capability gaps.

cs.LG physics.chem-ph

参考文献 (20)

FS-Mol: A Few-Shot Learning Dataset of Molecules

Megan Stanley, J. Bronskill, Krzysztof Maziarz 等

2021 73 引用 ⭐ 高影响力

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Yang Yue, Zhiqin Chen, Rui Lu 等

2025 685 引用 ⭐ 高影响力查看解读 →

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Qiying Yu, Zheng Zhang, Ruofei Zhu 等

2025 1550 引用 ⭐ 高影响力查看解读 →

Training a Scientific Reasoning Model for Chemistry

Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths 等

2025 34 引用 ⭐ 高影响力查看解读 →

Self-referencing embedded strings (SELFIES): A 100% robust molecular string representation

Mario Krenn, Florian Hase, AkshatKumar Nigam 等

2019 879 引用 ⭐ 高影响力

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等

2023 5402 引用 ⭐ 高影响力查看解读 →

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao, Peiyi Wang, Qihao Zhu 等

2024 5529 引用 ⭐ 高影响力查看解读 →

Augmenting large language models with chemistry tools

Andrés M Bran, Sam Cox, Oliver Schilter 等

2023 850 引用 ⭐ 高影响力查看解读 →

Multitask Deep Learning Models of Combined Industrial Absorption, Distribution, Metabolism, and Excretion Datasets to Improve Generalization.

Joseph A Napoli, Michael Reutlinger, Patricia Brandl 等

2025 8 引用

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

Wanghan Xu, Yuhao Zhou, Yifan Zhou 等

2025 10 引用查看解读 →

What Will it Take to Fix Benchmarking in Natural Language Understanding?

Samuel R. Bowman, George E. Dahl

2021 210 引用查看解读 →

Vinardo: A Scoring Function Based on Autodock Vina Improves Scoring, Docking, and Virtual Screening

R. Quiroga, Marcos A. Villarreal

2016 304 引用

Policy Gradient Methods for Reinforcement Learning with Function Approximation

R. Sutton, David A. McAllester, Satinder Singh 等

1999 7607 引用

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao, Jeffrey Zhao, Dian Yu 等

2022 7039 引用查看解读 →

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Carlos E. Jimenez, John Yang, Alexander Wettig 等

2023 1921 引用查看解读 →

Towards an AI co-scientist

Juraj Gottweis, Wei-Hung Weng, Alexander Daryin 等

2025 249 引用查看解读 →

OmniScience: A Domain-Specialized LLM for Scientific Reasoning and Discovery

Vignesh Prabhakar, Md. Amirul Islam, Adam A. Atanas 等

2025 17 引用查看解读 →

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

Tri Dao

2023 2501 引用查看解读 →

Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns, Steven Basart 等

2020 7675 引用查看解读 →

Assessing the Chemical Intelligence of Large Language Models

Nicholas T. Runcie, Charlotte M. Deane, F. Imrie

2025 13 引用查看解读 →

Evaluating the Progression of Large Language Model Capabilities for Small-Molecule Drug Design

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

大语言模型 (Large Language Model)

小分子药物设计 (Small-Molecule Drug Design)

强化学习 (Reinforcement Learning)

RDKit

DMPK (药物代谢和药代动力学)

SMILES (简化分子输入线性表示法)

IUPAC命名法

多属性约束生成

Qwen-30B-A3B

Claude Opus 4

开放问题 这项研究留下的未解疑问

应用场景

近期应用

靶点识别

先导优化

毒性预测

远期愿景

个性化药物设计

自动化药物发现

原文摘要

参考文献 (20)

相关论文

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问