Effective Biological Representation Learning by Masking Gene Expression

TL;DR

本文提出TxFM，一种基于掩码自编码的转录组表达学习模型，在1.4M数据集上训练，显著优于大规模基础模型。

cs.LG 🔴 高级 2026-05-30 86 次浏览

Kian Kenyon-Dean Alina Selega Ihab Bendidi Jordan M. Sorokin Luca Bertinetto David Errington Hayley Donnella Oren Kraus

转录组表达自监督学习掩码自编码基因表示迁移学习

核心发现

方法论

本文设计了一种基于Transformer的掩码自编码器TxFM，专为RNA测序计数数据优化。模型由编码器和MLP解码器组成，采用Poisson似然作为重建损失，结合特定的激活函数（tanh）以适应计数数据的非负特性。训练数据为精心策划的1.4百万样本的公共数据集DiverseRNA-1.4M，涵盖单细胞和宏观RNA-seq样本。模型在不同的掩码比例、激活函数、解码深度和数据预处理策略下进行系统消融，验证了架构设计对迁移性能的影响。模型训练过程中只对未掩码的基因进行编码和重建，利用Poisson负对数似然作为目标函数，确保模型关注低到中等表达水平的基因，避免过度拟合高表达基因的噪声。模型学习到的基因表示在基因关系重建和功能聚类中表现优异，超越了atlas级别的基础模型，验证了自监督学习在转录组表达中的潜力。

关键结果

在三组未见过的细胞Perturbation数据集上，TxFM在多项指标中均优于所有对比模型，包括atlas规模的Geneformer-v2和Tahoe-x1，平均性能提升超过10%。特别是在perturbation一致性和细胞表征的判别能力上，TxFM表现出显著优势，得分分别达到39.11和36.52，远超Atlas模型的最高分（30.67和27.49）。
在基因关系的内在表示方面，TxFM的解码器参数在基因关系重现任务中表现最佳，关系召回率达42.7%，明显优于scVI（40.4%）和PCA（29.2%）。此外，通过PCA后处理，Transformer编码器的基因嵌入在关系重建中提升了42%的召回率，显示高维空间中的关系在低秩子空间中自然显现。
在不同的模型架构和训练数据消融实验中，TxFM在数据规模较小（1.4M样本）时仍优于atlas级别模型，验证了数据策划的重要性。移除K562细胞或宏观RNA-seq样本后，模型性能仍保持优越，说明模型的优势源自架构设计和数据质量，而非数据重叠或特定样本偏差。

研究意义

本研究突破了深度表达表征在转录组学中的应用瓶颈，证明了自监督掩码自编码策略在高噪声、多样性数据中的有效性。通过在较小但高质量的数据集上训练，模型实现了超越传统线性方法和Atlas规模模型的性能，极大地推动了基因功能解析、药物靶点发现和细胞状态表征的研究进展。这一方法为未来的转录组分析提供了新的范式，尤其在缺乏标注或外部先验信息的场景中具有广泛应用潜力。

技术贡献

技术上，本文提出了结合Poisson似然和特定激活函数的掩码自编码器架构，解决了RNA-seq计数数据的非负性和离散性问题。模型采用只对未掩码基因进行编码的策略，显著减少了模型复杂度，提高了迁移能力。通过系统的消融分析，明确了掩码比例、激活函数、解码深度和数据预处理对模型性能的影响，为基因表达模型的设计提供了实证依据。模型在学习到的基因参数空间中自然捕获了基因间的功能关系，为无监督基因功能注释和关系推断提供了新的工具。

新颖性

本研究首次将掩码自编码器应用于RNA-seq计数数据，结合Poisson损失和特定激活函数，显著提升了迁移学习能力。不同于以往依赖外部蛋白结构或预训练语言模型的工作，TxFM纯粹利用表达数据实现高效表示，强调数据策划的重要性。模型在较小数据集上达到优异性能，突破了Atlas级别模型对大规模数据的依赖，展示了高效、可迁移的基因表达学习新路径。

局限性

模型在极端稀疏或高噪声数据中表现仍有限，特别是在低表达基因的重建和关系捕获方面存在一定的偏差，可能受限于Poisson模型对过度离散的适应性。
训练过程中对掩码比例和数据预处理的敏感性较高，参数调优复杂，可能影响模型在不同数据集的泛化能力。
模型在多模态整合和动态细胞状态捕获方面仍有待提升，未来需结合时间序列和空间信息进行扩展。

未来方向

未来将探索多模态数据融合，如结合蛋白质组、空间转录组信息，提升模型的多维表征能力。还计划引入更复杂的噪声模型（如负二项分布）以应对过度离散和零膨胀问题。此外，将优化模型的训练效率，推动其在临床和工业应用中的落地，特别是在药物筛选、疾病诊断和个性化治疗中的潜力。

AI 总览摘要

在现代生物医学研究中，RNA测序技术为揭示细胞状态和功能提供了丰富的数据资源，但如何从这些高维、噪声多样的数据中提取具有生物学意义的表征，仍然是一个巨大挑战。传统的线性方法如主成分分析（PCA）在一定程度上满足需求，但难以捕获复杂的非线性关系。近年来，深度学习模型，特别是Transformer架构，已在自然语言和计算机视觉中取得突破，但其在转录组学中的应用仍面临技术难题。本文提出了一种名为TxFM的掩码自编码器，专为RNA-seq计数数据设计，旨在实现高效、可迁移的基因表达表征。

TxFM的核心思想是利用Transformer的自注意力机制，通过随机掩码部分基因表达值，训练模型在只观察部分信息的情况下重建完整表达谱。模型由编码器和MLP解码器组成，采用Poisson似然作为重建目标，结合特定的激活函数（tanh）以适应计数数据的非负特性。训练数据来自精心策划的1.4百万样本的公共数据集DiverseRNA-1.4M，涵盖多种细胞类型和实验条件。通过系统的消融实验，作者验证了掩码比例、激活函数、解码深度和数据预处理对模型性能的影响。

实验结果显示，TxFM在多个未见过的细胞Perturbation数据集上均优于Atlas级别的基础模型，特别是在细胞表征和基因关系重建方面表现突出。模型学习到的基因表示在功能聚类和关系推断中表现出色，关系召回率超过42%，远超传统线性模型和其他深度模型。此外，模型在较小数据集上仍保持优异性能，验证了数据策划和模型架构的有效性。这一研究不仅证明了自监督掩码自编码策略在转录组学中的潜力，也为未来多模态、多尺度的细胞表征提供了新的思路。

总体而言，本文展示了深度学习在高噪声、多样性转录组数据中的应用前景，推动了基因功能解析、药物开发和疾病诊断的研究进展。未来，结合空间信息、多模态数据和更复杂的噪声模型，有望进一步提升模型的生物学解释能力和实际应用价值。

深度解读

原文摘要

RNA sequencing produces rich and diverse datasets of gene expression, offering compelling insights into cellular state and function that have many applications in drug discovery. Modeling such data is challenging due to inherent technical noise and experimental batch effects, as evidenced by many existing transcriptomic foundation models (FMs) underperforming relative to linear baselines. Such results raise the question of whether deep representation learning provides a distinct advantage over the direct use of raw transcript counts. Our work explores this by developing a new self-supervised model, TxFM, with a focus on inductive representation learning evaluations. TxFM employs a masked autoencoding approach tailored to diverse RNA-seq count data, and our ablation study empirically identifies crucial architecture configurations required for strong transfer performance. Additionally, we curate a public training corpus, DiverseRNA-1.4M, and find that TxFM trained on this curated dataset yields high-fidelity gene representations that outperform FMs trained on atlas-scale corpora over 100x larger. Overall, our results indicate that inductive self-supervised learning is a viable modeling approach for transcriptomics representation, provided a careful synthesis of model architecture and training data curation.

cs.LG

参考文献 (20)

Mapping information-rich genotype-phenotype landscapes with genome-scale Perturb-seq

J. Replogle, R. Saunders, Angela N. Pogson 等

2021 619 引用 ⭐ 高影响力

Zero-shot evaluation reveals limitations of single-cell foundation models

Kasia Z. Kedzierska, L. Crawford, A. Amini 等

2025 77 引用 ⭐ 高影响力

Masked Autoencoders Are Scalable Vision Learners

Kaiming He, Xinlei Chen, Saining Xie 等

2021 11581 引用 ⭐ 高影响力查看解读 →

Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all

Ihab Bendidi, Shawn T. Whitfield, Kian Kenyon-Dean 等

2024 33 引用 ⭐ 高影响力查看解读 →

Predicting cellular responses to perturbation across diverse contexts with State

Abhinav Adduri, Dhruv Gautam, Beatrice Bevilacqua 等

2025 93 引用 ⭐ 高影响力

Deep Generative Modeling for Single-cell Transcriptomics

Romain Lopez, J. Regier, Michael Cole 等

2018 2294 引用 ⭐ 高影响力

Universal Cell Embeddings: A Foundation Model for Cell Biology

Yanay Rosen, Yusuf H. Roohani, Ayush Agrawal 等

2026 150 引用 ⭐ 高影响力

A Cross-Species Generative Cell Atlas Across 1.5 Billion Years of Evolution: The TranscriptFormer Single-cell Model

James D. Pearce, Sara E. Simmonds, Gita Mahmoudabadi 等

2025 31 引用 ⭐ 高影响力

CellPLM: Pre-training of Cell Language Model Beyond Single Cells

Hongzhi Wen, Wenzhuo Tang, Xinnan Dai 等

2023 81 引用

A general and flexible method for signal extraction from single-cell RNA-seq data

D. Risso, Fanny Perraudeau, S. Gribkova 等

2017 620 引用

Simple controls exceed best deep learning algorithms and reveal foundation model effectiveness for predicting genetic perturbations

Daniel R. Wong, A. Hill, Rob Moccia

2025 23 引用

GeneJepa: A Predictive World Model of the Transcriptome

Elon Litman, Tyler Myers, Vinayak Agarwal 等

2025 3 引用

scPRINT: pre-training on 50 million cells allows robust gene network predictions

Jérémie Kalfon, Jules Samaran, Gabriel Peyré 等

2024 47 引用

Evolutionary-scale prediction of atomic level protein structure with a language model

Zeming Lin, Halil Akin, Roshan Rao 等

2022 4625 引用

Large Scale Foundation Model on Single-cell Transcriptomics

Minsheng Hao, Jing Gong, Xin Zeng 等

2023 514 引用

Scaling Large Language Models for Next-Generation Single-Cell Analysis

S. Rizvi, Daniel Levine, Aakash Patel 等

2025 37 引用

MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations

Benedikt Alkin, Lukas Miklautz, Sepp Hochreiter 等

2024 21 引用查看解读 →

SIGNOR: a database of causal relationships between biological entities

L. Perfetto, Leonardo Briganti, Alberto Calderone 等

2015 226 引用

scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data

Wenchuan Wang, Fan Yang, Yuejing Fang 等

2022 573 引用

The Tabula Sapiens: A multiple-organ, single-cell transcriptomic atlas of humans

S. Quake

2021 1025 引用

Effective Biological Representation Learning by Masking Gene Expression

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies