MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry

TL;DR

MolE-RAG结合化学文献、分子特征和结构相似性，显著提升LLMs的分子性质预测性能，分类任务ROC-AUC提升至28个百分点。

cs.LG 🔴 高级 2026-06-04 73 次浏览

Joey Chan Wonbin Kweon Ashley Shin Niharika Bhattacharjee Pengcheng Jiang Yue Guo Jiawei Han

化学AI 检索增强生成分子性质预测大语言模型结构相似性

核心发现

方法论

本文提出的MolE-RAG框架是一种无需模型微调的分子中心检索增强生成方法，结合三类推理时上下文：文本检索（采用BM25算法，从化学文献中检索相关段落）、分子特征（包括化合物同义词、标识符、官能团注释和物理化学描述符）以及结构相似分子（基于任务适应的分子指纹进行相似性搜索）。具体流程包括：首先利用LLM生成结合任务描述和化学关键词的混合查询，检索相关文献段落；其次，从分子SMILES中提取结构信息和化学特征，注入到提示中；最后，通过分子指纹计算相似性，从训练集检索出结构相似的分子作为示例。不同的任务和模型对这些上下文源的依赖不同，本文系统评估了九个分子性质预测任务中的性能变化。该方法在多种LLMs（如GPT-4、Qwen、ChemDFM）上均取得了显著提升，分类任务ROC-AUC最高提升28个百分点，回归任务RMSE降低67%。

关键结果

在六个二分类任务中，采用MolE-RAG的模型平均ROC-AUC提升了15-28个百分点，最大提升出现在基础性能较低的模型（如GPT-4o-mini，从54.9提升至74.7）；在三项回归任务中，RMSE平均降低了50%以上，FreeSolv任务中最高达67%的降幅（如Mistral从12.585降至4.128）；不同模型和任务对不同上下文源的依赖性明显，文本检索在某些模型中效果最佳，而结构相似性在其他模型中表现更优。
实验还显示，采用MolE-RAG后，小型开源模型（如Qwen3）性能大幅提升，甚至接近或超越部分专用模型（如ChemDFM），验证了检索增强在模型能力有限时的补偿作用。不同的分子指纹（如ECFP4、MACCS）在不同任务中的表现差异显著，模型通过验证集选择最优指纹以实现最佳性能。整体来看，MolE-RAG在不依赖模型微调的情况下，有效融合多源化学知识，显著提升分子性质预测的准确性。
此外，结构相似分子检索在药物设计和ADMET预测中具有重要意义，结合任务适应的指纹和多源信息，增强了模型的化学推理能力，为未来基于LLMs的药物筛选提供了新思路。该方法的灵活性和可扩展性使其适用于多种化学任务，推动了AI在药物研发中的应用边界。

研究意义

该研究突破了传统大语言模型在化学领域的局限，提出无需微调的检索增强框架，有效弥合了化学结构与自然语言之间的语义鸿沟。通过引入多源上下文信息，显著改善了分子性质预测的性能，尤其在数据有限或模型能力有限的情况下表现突出。这不仅为药物设计、材料科学等领域提供了强大的工具，也推动了AI在专业化科学任务中的应用普及。该方法的灵活性和扩展性，为未来整合异构化学知识提供了新范式，有望引领智能药物筛选和精准医学的发展。

技术贡献

本文的主要技术创新在于提出一种多源上下文融合的检索增强生成框架（MolE-RAG），实现了在无需模型微调的情况下，结合文献检索、分子特征注入和结构相似性搜索，提升LLMs的化学推理能力。具体包括：• 利用基于BM25的文本检索结合任务描述和化学关键词，增强模型对文献知识的访问；• 从SMILES中提取结构信息和物理化学描述符，注入到提示中，丰富分子表达；• 采用任务适应的分子指纹进行结构相似性检索，提供类比示例。该框架突破了传统依赖大量训练数据和微调的限制，为化学知识的动态整合提供了新途径。实验验证显示，该方法在多个公开和专有LLMs上均取得了优异性能，推动了检索增强生成在科学领域的应用边界。

新颖性

本研究首次系统性地将三类推理上下文（文本、分子特征、结构相似性）结合到LLM的分子性质预测中，提出了无需微调的多源检索增强框架（MolE-RAG），在化学领域实现显著性能提升。与以往仅依赖单一知识源的工作不同，本文通过多模态信息融合，有效弥补了SMILES表示的不足，提升了模型的化学推理能力。这种多源信息的动态整合，为未来基于LLMs的科学推理提供了新范式，具有重要的理论和实践意义。

局限性

尽管MolE-RAG在多个任务中表现优异，但在某些任务（如ClinTox）仍落后于专用图神经网络模型，说明结构信息的显式建模仍具优势。
结构相似性检索依赖于预定义的指纹和相似性度量，可能在某些化学空间中表现不足，限制了其普适性。
该方法在极端复杂或异构的化学任务中可能面临信息整合不足的问题，未来需结合更丰富的知识库和多模态信息以提升性能。

未来方向

未来的研究方向包括：• 结合更丰富的化学知识库和多模态数据（如图像、光谱等），进一步增强模型的推理能力；• 探索动态知识更新机制，使模型能实时获取最新科研进展；• 设计更高效的指纹和检索策略，以适应大规模化学数据库的快速检索需求；• 将该框架应用于药物设计、材料发现等实际场景，验证其工业应用潜力。

AI 总览摘要

在药物研发和材料科学的数字化转型中，分子性质预测一直是核心难题。传统方法依赖大量实验和专家知识，成本高昂且周期长。近年来，大型语言模型（LLMs）凭借其强大的自然语言理解能力，开始在化学领域展现潜力，但其对分子结构的理解仍有限，尤其是在处理SMILES等结构表示时，表现出明显的局限性。

为解决这一瓶颈，本文提出了MolE-RAG（Molecule-Centric Retrieval-Augmented Generation）框架，一种无需微调的多源检索增强生成方法，旨在提升LLMs在分子性质预测中的表现。该方法结合了三类推理上下文：首先，通过BM25算法从丰富的化学文献中检索相关文本段落，为模型提供科学背景；其次，从分子SMILES中提取结构信息、官能团和物理化学描述符，注入到提示中，增强分子表达能力；最后，利用任务适应的分子指纹进行结构相似性检索，找到训练集中结构相似的分子作为示例。

这种多源信息融合的策略极大地丰富了模型的推理基础，显著改善了分子性质的预测性能。在九个公开和专有数据集上的实验结果显示，采用MolE-RAG的模型在分类任务中的ROC-AUC提升最高达28个百分点，回归任务的RMSE降低了67%。尤其在数据有限或模型能力受限的情况下，检索增强的效果尤为明显，甚至使小型开源模型的性能接近或超越部分专用模型。

该研究的意义在于突破了传统依赖大量训练数据和微调的限制，为化学科学中的AI应用提供了新思路。通过引入多模态、多源的知识整合框架，极大地拓展了LLMs在科学推理中的潜能，为药物设计、材料创新等领域的智能化发展奠定了基础。未来，结合更丰富的知识库和多模态信息，MolE-RAG有望在实际工业场景中实现更广泛的应用，推动科学研究的数字化和智能化进程。

深度分析

研究背景

化学AI的发展经历了从规则基方法到机器学习的演变。早期依赖专家知识和手工设计的特征工程，效率低下且难以推广。近年来，深度学习尤其是图神经网络（如SchNet、GROVER）在分子性质预测中取得突破，但仍受限于结构表示的表达能力。大规模预训练语言模型（如GPT系列）在自然语言处理中的成功激发了其在化学中的应用热潮，催生了ChemNet、MolInstructions等专门模型，试图用自然语言理解化学知识。然而，SMILES等结构表示在模型理解中存在语义鸿沟，限制了模型的推理能力。尽管如此，利用检索增强的方法（如ChemRAG、MolRAG）显示出在无需微调的情况下，显著提升模型性能的潜力。这些背景为本文提出的多源检索增强框架提供了理论基础。

核心问题

当前大语言模型在化学领域的应用面临两个主要瓶颈：一是结构表示（如SMILES）与自然语言的语义鸿沟，导致模型难以准确推理分子性质；二是缺乏有效的化学知识整合机制，限制了模型在复杂任务中的表现。传统方法依赖大量标注数据和微调，成本高昂且不易推广。现有的知识增强技术多依赖单一信息源，难以全面覆盖化学知识体系，尤其在面对结构复杂或新颖分子时表现不足。这些问题严重制约了LLMs在药物设计、毒理学评估等实际应用中的效果，亟需一种高效、灵活的知识融合策略，突破信息表达和推理能力的局限。

核心创新

本文的核心创新在于提出一种多源推理上下文融合的检索增强框架（MolE-RAG），实现了在无需模型微调的情况下，结合文献检索、分子特征注入和结构相似性搜索，显著提升化学推理能力。具体创新点包括：• 利用基于BM25的文本检索，从海量化学文献中获取相关背景信息，弥补模型对专业知识的不足；• 从SMILES中提取结构信息、官能团和物理化学描述符，注入提示丰富模型的分子表达；• 采用任务适应的分子指纹进行结构相似性检索，提供类比示例，增强模型的结构推理能力。这种多模态、多源信息的融合策略，突破了传统单一知识源的局限，为模型提供了更全面的化学推理基础。

方法详解

�� 输入：待预测分子的SMILES字符串和任务描述。• 文本检索：利用LLM生成结合任务描述和化学关键词的混合查询，采用BM25算法从化学文献库中检索相关段落。• 分子特征注入：从SMILES中提取官能团、物理化学描述符（如LogP、分子量等），注入到提示中，丰富分子表达。• 结构相似性检索：计算分子指纹（如ECFP4），利用Tanimoto相似性从训练集检索出结构相似的分子作为示例。• 提示构建：将任务指令、检索到的文本、分子特征和相似分子作为输入，形成增强提示。• 预测：由LLM生成最终的分子性质预测结果。• 多源融合：根据任务和模型表现，灵活选择不同的上下文源组合，优化预测性能。

实验设计

�� 数据集：采用九个分子性质预测任务，包括公开（如MoleculeNet）和专有数据集，采用 scaffold 分割，训练/验证/测试比例为8:1:1。• 模型：评估多类LLMs（GPT-4、Qwen、ChemDFM等），在零样本设置下进行推理。• 基线：仅使用SMILES的模型表现作为对比。• 评估指标：分类任务用ROC-AUC，回归任务用RMSE。• 超参数：检索Top-5相似分子，指纹类型通过验证集选择。• Ablation：逐步剔除不同上下文源，分析其对性能的贡献。

结果分析

�� 分类任务中，MolE-RAG显著提升性能，最大ROC-AUC提升达28个百分点（如Qwen3从53.0到80.1），在性能较差的模型中效果尤为明显。• 回归任务中，RMSE平均降低超过50%，在FreeSolv任务中最高达67%的降幅（如Mistral从12.585降至4.128）。• 不同模型对不同上下文源的依赖性不同，文本检索在某些模型中效果最佳，而结构相似性在其他模型中表现更优。• 小型开源模型（Qwen3、Mistral）在引入MolE-RAG后，性能大幅接近甚至超越部分专用模型（如ChemDFM），验证了检索增强的补偿作用。• 结构指纹的选择（如ECFP4、MACCS）对不同任务影响显著，模型通过验证集动态选择最优指纹。

应用场景

�� 立即应用：该方法可用于药物筛选、毒理评估、材料设计等场景，利用现有化学文献和结构数据库，快速提升模型性能，降低实验成本。• 长期愿景：未来结合实时科研文献和多模态数据，打造智能化的药物发现平台，实现全流程的自动化设计与优化，推动精准医学和新材料的快速开发。

局限与展望

�� 结构相似性检索依赖预定义指纹和相似性度量，可能在某些化学空间表现不足。• 目前的文献检索主要依赖关键词匹配，可能遗漏深层次的知识关联。• 复杂或异构的化学任务中，信息融合仍存在不足，未来需引入更丰富的知识源和多模态信息以提升鲁棒性。

通俗解读非专业人士也能看懂

想象你在一家厨房里做菜。每次做菜，你不仅用食谱，还会查找一些相关的菜谱、用料和烹饪技巧。比如，遇到一道新菜，你会去找类似的菜谱，看看用的食材和调料；还会查阅一些烹饪书或视频，获取额外的知识。这样，单靠食谱本身可能不够，你会结合多方面信息，做出更美味的菜肴。类似地，科学家用计算机预测药物或材料的性质，也面临类似问题。传统方法只看分子的结构（像食谱），但缺少背景知识和相似的例子。本文的方法就像在厨房里加了“智能助手”，它帮你检索相关的文献、找出相似的分子，甚至结合化学特征，帮助模型更好地理解分子，从而做出更准确的预测。这种多渠道的“信息调取”让科学家可以更快、更准地设计新药或新材料，就像厨师用多种技巧做出美味佳肴一样。

简单解释像给14岁少年讲一样

想象你在学校的科学实验室里做实验。你有一个实验手册（就像模型的基础知识），但有时候还需要查阅一些科学书籍或问老师（相当于检索文献），这样可以帮你理解得更透彻。有时候，你还会找一些和你实验类似的例子（结构相似的分子），用它们的经验来指导你的操作。最后，你还会用一些工具（比如显微镜或测量仪器）来观察和测量，得到更详细的信息。这样一整套做法，能让你更快、更准确地完成实验。同样的，科学家用电脑预测药物的性质，也遇到类似的问题。单靠分子结构（像实验手册）可能不够，他们需要查阅相关的科学文章（文献检索）、找出相似的分子（结构相似性）和提取一些化学特征（工具测量），把这些信息结合起来，帮助模型更好地理解分子，从而做出更准确的预测。这就像你用多种方法帮自己做实验一样，效果会更好，也更快找到答案。

术语表

Retrieval-Augmented Generation (RAG)（检索增强生成）

一种结合信息检索和生成模型的方法，通过检索相关知识增强生成内容的准确性。技术上结合了检索系统和生成模型的优势，广泛应用于知识问答和科学推理中。

本文提出的MolE-RAG即是基于RAG思想，将多源检索信息融入生成过程。

SMILES（简化分子线性输入系统）

一种用线性字符串表示分子结构的方法，便于计算机处理，但在语义理解上与自然语言存在差异。

作为输入的基础结构表示，本文尝试弥补SMILES在化学知识表达上的不足。

BM25（Okapi信息检索算法）

一种基于词频和逆文档频率的文本检索算法，用于从大规模文本中检索相关段落。

用于化学文献的文本检索，提升相关信息的获取效率。

分子指纹（Molecular Fingerprint）

一种将分子结构编码为固定长度向量的技术，用于结构相似性计算。常用的有ECFP、MACCS等。

在结构相似性检索中起核心作用，帮助找到结构相似的分子。

Tanimoto相似性（Tanimoto similarity）

一种衡量两个分子指纹相似度的指标，值在0到1之间，越接近1表示越相似。

用于结构相似检索的相似性度量。

Physicochemical descriptors（物理化学描述符）

描述分子物理和化学性质的数值参数，如LogP、分子量、HBD、HBA等。

注入提示中，增强模型对分子性质的理解。

Functional groups（官能团）

分子中的特定原子团，决定其化学反应性和性质。

作为结构特征注入模型，帮助理解分子反应性。

Pretrained Language Models（预训练语言模型）

在大量文本上预训练的模型，具备强大的自然语言理解能力，可迁移到科学任务中。

如GPT-4、Qwen等，用于化学性质预测。

Zero-shot learning（零样本学习）

模型在未见过特定任务样本的情况下，直接进行预测的能力。

本文在零样本设置下评估模型性能。

Ablation study（消融实验）

逐步移除模型或方法的某一部分，分析其对整体性能的影响。

验证不同上下文源的贡献。

开放问题这项研究留下的未解疑问

1 尽管多源信息融合显著提升性能，但在极端复杂或新颖的化学任务中，模型仍可能面临信息不足或推理不充分的问题。未来需要引入实时更新的科学文献和多模态数据（如图像、光谱）以增强模型的适应性和鲁棒性。
2 目前的结构相似性检索主要依赖预定义的指纹和相似性度量，可能在某些化学空间中表现不足。未来应探索深度学习驱动的端到端结构表示学习，以提升检索的准确性和泛化能力。
3 多源信息的融合策略虽然有效，但在实际应用中存在计算成本较高、响应速度较慢的问题。未来研究应优化检索和提示生成流程，实现高效的实时推理。
4 模型在某些特定任务（如临床毒理）中的表现仍有限，说明需要结合更多专业知识和任务特定的微调策略，提升模型的专业化能力。
5 如何动态更新知识库，确保模型获取最新科研进展，仍是未来的重要研究方向。

应用场景

近期应用

药物筛选与优化

利用MolE-RAG结合文献和结构相似性，快速筛选潜在药物候选分子，降低实验成本，加快药物研发流程。

毒理学评估

通过丰富的化学知识和文献支持，提高毒性预测模型的准确性，为药物安全性评估提供科学依据。

材料设计

在新材料开发中，结合结构相似性和化学特征，指导材料性能优化，缩短研发周期。

远期愿景

智能药物发现平台

构建集成多源知识的自动化药物设计系统，实现从分子筛选到优化的全流程智能化。

精准医学与个性化治疗

结合最新科研文献和结构信息，开发个性化药物方案，推动精准医疗的实现。

原文摘要

Large language models (LLMs) have shown promise for molecular property prediction, but their ability to reason over chemical structures remains limited, as molecular representations such as SMILES differ substantially from the natural language on which LLMs are primarily trained. To bridge this semantic and chemical knowledge gap, we propose MolE-RAG, a training-free, molecule-centric retrieval-augmented generation framework for LLM-based molecular property prediction. MolE-RAG augments each prediction with three complementary sources of inference-time context: retrieved chemistry literature, molecule-specific information including compound synonyms, identifiers, functional group annotations, and physicochemical descriptors, and structurally similar molecules retrieved from the training set. We evaluate MolE-RAG across nine molecular property prediction tasks using proprietary, chemistry-specialized, and open-source LLMs. Across general-purpose LLMs, MolE-RAG improves ROC-AUC by up to 28 percentage points on classification tasks and reduces regression RMSE by up to 67% relative to a SMILES-only baseline. We further find that the utility of each context source varies across models and tasks, with different models benefiting most from textual retrieval, molecular context, or structural retrieval. These results suggest that molecule-centric retrieval can improve LLM-based molecular property prediction without model fine-tuning while providing a flexible framework for integrating heterogeneous chemical knowledge at inference time.

cs.LG cs.IR

参考文献 (20)

Knowledge graph-enhanced molecular contrastive learning with functional prompt

Yin Fang, Qiang Zhang, Ningyu Zhang 等

2023 218 引用 ⭐ 高影响力

MoleculeNet: a benchmark for molecular machine learning

Zhenqin Wu, Bharath Ramsundar, Evan N. Feinberg 等

2017 2456 引用 ⭐ 高影响力查看解读 →

The Probabilistic Relevance Framework: BM25 and Beyond

S. Robertson, H. Zaragoza

2009 5346 引用 ⭐ 高影响力

Self-Supervised Graph Transformer on Large-Scale Molecular Data

Yu Rong, Yatao Bian, Tingyang Xu 等

2020 1014 引用 ⭐ 高影响力

SchNet: A continuous-filter convolutional neural network for modeling quantum interactions

Kristof Schütt, Pieter-Jan Kindermans, Huziel Enoc Sauceda Felix 等

2017 1406 引用 ⭐ 高影响力查看解读 →

Benchmarking Retrieval-Augmented Generation for Chemistry

Xianrui Zhong, Bowen Jin, Siru Ouyang 等

2025 24 引用 ⭐ 高影响力查看解读 →

Molecular Property Prediction: A Multilevel Quantum Interactions Modeling Perspective

Chengqiang Lu, Qi Liu, Chao Wang 等

2019 224 引用 ⭐ 高影响力查看解读 →

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Patrick Lewis, Ethan Perez, Aleksandara Piktus 等

2020 14522 引用查看解读 →

Addressing toxicity risk when designing and selecting compounds in early drug discovery.

M. Segall, Chris Barber

2014 134 引用

Molecular property prediction: recent trends in the era of artificial intelligence.

Jie Shen, C. Nicolaou

2019 127 引用

Molecular fingerprint similarity search in virtual screening.

Adrià Cereto-Massagué, María José Ojeda, Cristina Valls 等

2015 759 引用

AccFG: Accurate Functional Group Extraction and Molecular Structure Comparison

Xuan Liu, Sarathkrishna Swaminathan, Dmitry Zubarev 等

2025 3 引用

SPECTER: Document-level Representation Learning using Citation-informed Transformers

Arman Cohan, Sergey Feldman, Iz Beltagy 等

2020 814 引用查看解读 →

Improvement of Prediction Performance With Conjoint Molecular Fingerprint in Deep Learning

Liangxu Xie, Lei Xu, R. Kong 等

2020 63 引用

Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations

Pengcheng Jiang, Cao Xiao, Tianfan Fu 等

2023 10 引用查看解读 →

Molecular similarity: a key technique in molecular informatics.

A. Bender, R. Glen

2004 581 引用

Understanding the Limitations of Deep Models for Molecular property prediction: Insights and Solutions

Jun Xia, Lecheng Zhang, Xiao Zhu 等

2023 47 引用

Concepts and applications of molecular similarity

Marvin Johnson, G. Maggiora

1990 1083 引用

Extended-Connectivity Fingerprints

David Rogers, M. Hahn

2010 6341 引用

One molecular fingerprint to rule them all: drugs, biomolecules, and the metabolome

A. Capecchi, Daniel Probst, J. Reymond

2020 305 引用

MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Retrieval-Augmented Generation (RAG)（检索增强生成）

SMILES（简化分子线性输入系统）

BM25（Okapi信息检索算法）

分子指纹（Molecular Fingerprint）

Tanimoto相似性（Tanimoto similarity）

Physicochemical descriptors（物理化学描述符）

Functional groups（官能团）

Pretrained Language Models（预训练语言模型）

Zero-shot learning（零样本学习）

Ablation study（消融实验）

开放问题 这项研究留下的未解疑问

应用场景

近期应用

药物筛选与优化

毒理学评估

材料设计

远期愿景

智能药物发现平台

精准医学与个性化治疗

原文摘要

参考文献 (20)

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问