HOME> 世界杯谁是冠军> Nature 2025 重磅:揭秘多模态分子生物学基础模型!
{$vo.文章标题}
{$vo.文章标题}

Nature 2025 重磅:揭秘多模态分子生物学基础模型!

admin
8989

高通量组学技术的发展带来了生物数据量的指数级增长,现有的工作却很少能从分子方面给出细胞的洞察。在自然语言处理领域,大语言模型通过整合大量数据构建了基础模型,实现了多种下游应用,展示了从数据中提取有效范式的路径。在这样的基础上作者提出了构架多模态基准模型的设想:这类模型预训练于多种组学数据上,包括基因组学、转录组学、表观遗传组学、蛋白质组学、代谢组学和空间组学。期望模型能够描绘细胞在分子层面上的状态面貌,进而描绘细胞、基因、组织的综合图谱。作者通过上下文特异性的迁移学习,训练了一个多模态的可迁移模型,具有新型细胞类型识别,生物标志物发现、基因调控推断以及模拟扰动计算能力。

1 引言

分子细胞生物学的核心问题在于揭示并表征生物分子(DNA、RNA、蛋白质及代谢物)间的动态互作与调控关系。这种系统性认知将为捕捉、模拟及预测细胞发育与状态变化的动态过程奠定基础。此前的许多工作主要围绕全细胞建模和虚拟细胞概念展开,传统建模方法多采用基于规则的子模块组合或常微分方程体系,每个子模块对应特定的生物过程的模拟。例如首个全细胞模型即通过28个ODEs方程组来描述生殖支原体的细胞活动。然而,这类方法常受限于动态过程的过度简化及ODEs的数学不稳定性,导致现有虚拟细胞模型多局限于微生物体系,难以全面表征高等生物组织中非线性互作的规模复杂度及细胞状态多样性。

近些年,分析技术(新一代测序、单细胞测序、质谱蛋白质组学;)与数据驱动计算方法在大规模机器学习中的突破进展共同催生了新的研究机遇,生物学中心法则的分子(DNA,RNA,蛋白质)通过高通量测序所构建的庞大知识库,这对跨模态建模提出了迫切需求(见下图a,b)。为充分利用这些多模态数据,作者提出构建多模态基础模型(MFMs)作为应对这一挑战的新范式——其核心策略是通过跨模态自监督学习从海量数据中获取基础知识与能力,即基础模型(foundation model)。该模型应能接受不同输入模态,并能够完成健康/疾病状态下的细胞特征刻画、基因功能解析以及动态过程预测等多元任务。

2 多模态基础模型概述

基础模型是采用自监督学习方法在多种数据集上训练,通过迁移学习展示了对各种下游任务的强大能力。在自然语言处理中,基于transformer的基础模型是在文本库中训练的,可以通过微调或者上下文学习快速适应不同的下游任务。在分子生物学的背景下,基础模型提供了一种令人信服的方法来统一对不同生物过程的理解。生物基础模型的关键优势在于它们能够学习和表示细胞系统内部的复杂的相互关联的性质。通过对不同组学数据进行训练,这些模型可以揭示在孤立实验或单一模态分析中可能不明显的微妙模式和关系,进而揭示在单一研究中被忽视生物学原理。(MFMs和一般机器学习模型的对比见下图)

2.1 预期特征和架构

多模态基础模型(MFMs)代表了将大模型技术引入生物组学研究的前沿方向。通过统一的自监督学习策略,MFMs 可整合包括单细胞与整体转录组、蛋白质组、代谢组和表观遗传组等多种数据类型,学习捕捉基因、蛋白质、通路等生物分子之间复杂关系的通用表示。在此基础上,借助迁移学习(如微调与上下文学习),模型可高效适配于诸如细胞状态轨迹重建、新型细胞类型识别以及药物扰动预测等多种下游任务。其核心依赖的 Transformer 架构及注意力机制,已在 AlphaFold、ESM、Enformer 和 scGPT 等多项生物学任务中展现出强大的表达学习与分子建模能力,显示出其作为下一代组学基础模型的广泛适应性与发展潜力。

2.2 以数据为中心的实验室工作流程

传统的假设驱动型研究模式依赖于特定生物场景下的模式识别和假设验证(例如通过癌细胞研究癌症机制、心肌细胞探究心脏健康),这些研究模式忽略了跨组织和细胞类型的共有的生化规律。MFMs通过预训练大规模高维组学数据,可捕捉复杂非线性生物规律,形成普适性分子表征。作者期望这一突破不止在数据分析中发挥作用,更能够优化实验室的研究模式。(见下图)

实验室的lab-in-the-loop的迭代研究模式是“实验-模型轮转”策略:基于模型结果对实验进行假设设计实验,基于实验结果进一步更新模型性能。最终,经过多轮实验反馈,基础模型可演化为细胞分子机制的计算模拟器,在规模化、精细化实验设计中发挥关键指导作用。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

3 MFMs的机遇

MFMs在现有的数据上进行预训练,这一节将主要介绍MFMs模型的潜在使用场景。

3.1对组织进行细胞分类

近年来,单细胞组学的技术进步推动了对细胞亚群体的高分辨率解析,突破了传统表面标志物的局限,尤其在复杂组织如肿瘤中揭示了显著的细胞异质性。例如,单细胞RNA测序已揭示胶质母细胞瘤中与治疗反应相关的转录水平差异;表观基因组分析通过染色质状态进一步区分不同起源的肿瘤亚克隆;而质谱流式细胞术则识别了癌症细胞中的独特信号状态。这些不同层次的测量数据集成,有助于更准确地描绘细胞状态的连续变化与命运轨迹。多模态基础模型(MFMs)在此背景下提供了前所未有的建模能力,不再局限于离散分类,而是支持细胞状态在连续谱中的建模与推断。MFMs通过整合多模态数据,能够在三个关键层面展现优势:(1)在“上下文嵌入”方面,MFMs可将新样本嵌入到丰富的参考图谱中,实现对细胞在发育或疾病进程中的位置表征;(2)在“状态比较”方面,MFMs可跨测序平台与组学模态实现异质性数据的对齐与整合,从而促进健康与疾病状态间的细胞比较分析;(3)在“状态补全”方面,MFMs具有生成式能力,可在观测缺失的情况下重建细胞的完整组学特征,如预测代谢标记下难以直接测得的表达动态。这些特性使MFMs在解析细胞状态连续性与跨模态整合中展现出独特潜力,推动单细胞研究迈向更全面与精确的系统生物学建模。

3.2预测基因功能和调节规律

多模态基础模型(MFMs)为复杂疾病背景下的生物标志物发现与上下游调控网络重构提供了强大手段。通过从大规模、异质性的多组学数据中学习统一规律,MFMs有望识别跨模态的预测性特征,例如关键的基因模块、蛋白质标志物或代谢谱特征。研究已证实,单靠基因组序列或单细胞图谱即可预测基因功能;进一步引入染色质可及性与DNA甲基化等组学维度,有望提升预测精度。特别是在重建上下文特异的基因调控网络(GRNs)方面,MFMs展现出独特潜力。首先,基因调控机制天然是多组学交叉的过程,包括DNA结合、RNA剪接与蛋白质翻译后修饰等传统转录组学难以覆盖的调控环节。其次,调控网络具备强烈的上下文依赖性,如转录因子结合特异性受组织类型与病理状态影响显著。MFMs在预训练阶段通过多样条件下的数据捕捉通用调控规律,并在微调阶段可转化为特定条件下的GRNs建模。此外,融合已有GRNs数据库作为先验知识,以及在生成模型中表达时序或发育过程中的状态变化,将进一步提升模型对动态生物系统的解析能力。因此,MFMs不仅推动了基因功能与调控关系的统一建模,也为实现更精确的细胞状态预测与调控网络还原提供了新范式。

3.3预测药物扰动

多模态基础模型(MFMs)通过整合多组学数据,有望实现细胞状态在基因或药物扰动下的精准预测。近期模型如scGPT、Geneformer、CPA等已展示出在扰动嵌入空间预测转录响应方面的初步成果。未来,MFMs可拓展至整合表观遗传、蛋白质组等多模态特征,构建完整的细胞表示,并结合细胞类型和扰动条件进行建模,从而实现更精细的响应预测。结合时空数据,模型还可模拟扰动在组织或时间维度上的动态变化。同时,MFMs可利用学习到的信号通路与调控网络信息,预测下游多层级反应,而不仅限于转录层面。随着单细胞CRISPR扰动数据如Perturb-seq的大规模积累,MFMs将在原始细胞状态和特定扰动条件之间学习复杂映射关系,提升推理精度。由于扰动组合空间呈指数增长,准确的计算模拟将极大加速对调控机制的理解与潜在治疗靶点的发现。

4MFMs的设计

为实现前述潜在应用,作者对分子细胞生物学多模态基础模型进行了下边的介绍 :

4.1训练数据说明

训练具备广泛适应性的多模态基础模型(MFMs)依赖于大规模、异质性的多组学数据,包括bulk测序、单细胞组学、空间转录组、染色质可及性与蛋白质组等。目前已有如HuBMAP、ENCODE、IHEC与HCA等多组学数据库,但这些资源中真正实现跨模态、同细胞/样本配对测量的数据仍然有限。新兴测序技术如10X Multiome、CITE-seq和ASAP-seq正逐步填补该空缺,为建模中央法则相关生物过程提供关键锚点。同时,跨物种数据亦有助于提供进化背景。由于揭示个体细胞异质性能力强,单细胞组学在MFM训练中将扮演核心角色。例如,CellxGENE中的细胞数量在过去一年已从3千万增长至近1亿,且已有模型基于数千万级别的单细胞转录组数据进行训练。然而,RNA测序之外的数据模态(如ATAC-seq)仍严重不足,限制了模型对其他层级生物过程的理解。未来,系统地生成与整合更多高质量多模态数据,并进行标签标准化、质控与归一化,是提升MFM训练数据质量的关键。同时,MFMs 本身也可反向助力数据整合与清洗,形成模型与数据相互促进的良性循环。

4.2MFMs模型的组件

多组学数据由于多样化数据类型以及从核苷酸到蛋白质的不同分辨率带来了研究挑战。为了应对这一挑战,作者参考了机器学习的跨模态统一token表示方法(见下图a)。在大语言模型的图像领域已经证明将不同领域内的基础语义单元(如词语、图像patch、DNA碱基序列)编码为共享向量空间中的嵌入表示,是实现模态统一的有效方法。尽管对单一模态的token化较为直接,如GPT系列和DNABERT中使用的BPE方法已广泛应用于语言与序列建模,更具前景的是在模型初始阶段实现跨模态的统一token表示,即“早期融合”策略。考虑到分子数据的多尺度特点,未来的token化可分为不同层级:低层级的k-mer序列摘要、中层级的功能性motif结构、高层级的基因或蛋白质级表示。例如,子词级token可编码核苷酸或氨基酸序列,而更高级别的token则可直接表示完整基因或蛋白,这一多层级token设计为多模态数据的深度整合提供了可能性。

4.3 多尺度注意力融合

得分子数据的建模需要结构上具备层次性。为此,可借助混合式Transformer架构,通过将局部(模态内)与全局(模态间)注意力机制相结合,有效捕捉各生物学层级间的相互作用(下图b)。其中,局部注意力主要建模同一层级token间的关系,例如基因与基因、碱基与碱基的相互作用;而全局注意力则致力于连接不同层级token,形成跨模态的整合视角,从而揭示如基因–蛋白、调控元件–转录本等复杂生物机制。尽管该多尺度注意力机制已在计算机视觉中取得显著进展,其在生物基础模型中的潜力尚待深入挖掘。通过结合这两类注意力机制,模型不仅可捕捉组学内部的精细结构,也可学习跨模态的系统性规律,从而推动对分子生物系统的全面理解。

4.4预训练任务

多模态基础模型(MFMs)的训练任务可根据任务类型分为模态内(intramodal)与跨模态(cross-modal)两大类。模型可通过掩码语言建模(masked language modelling)与下一个token预测等目标,在无监督的多组学数据上进行预训练。模态内任务主要关注于单一模态数据的自监督学习,例如掩码基因表达预测、蛋白质丰度补全或扰动前细胞状态预测扰动后的反应。而跨模态训练则更进一步,主要包括:(1) 对比式自监督学习,通过最大化正负样本对之间的表示差异,训练模型理解模态间一致性;正样本可来源于同一细胞的不同模态数据。(2) 任务引导的跨模态预测,例如在mRNA到蛋白质预测中引入“mRNA”与“protein”等任务token,令模型基于mRNA数据生成蛋白表达量。类似的框架也适用于时间序列预测与扰动反应预测(见下图)。所有上述训练任务均可在统一的token生成框架下进行,仅需少量提示token(如模态说明、条件说明、控制token,实现任务间参数共享,极大提升模型通用性。此外,与通用LLM不同,MFM训练中常可结合如年龄、性别、疾病等监督信息,进一步增强模型表达能力。

4.5 整合人类知识

整合人类知识可为多模态基础模型(MFMs)的训练引入有效的归纳偏置,从而增强模型泛化与生物学解释能力。我们重点介绍两类知识整合方式,分别对应结构化与非结构化知识:(1) 结构化知识整合:生物医学数据库(如Gene Ontology、Reactome)以知识图谱形式记录了基因、蛋白等分子间的功能关系。通过图嵌入方法学习的基因表示,可作为MFMs中基因token的初始化,从而在预训练初期注入生物学先验。类似策略也可扩展至蛋白、通路等其他token类型。(2) 非结构化知识整合:生物医学文献蕴含海量非结构化信息。借助BioGPT、Med-PaLM等大型语言模型,可将文献转换为语义向量数据库,并通过向MFMs输入这些知识嵌入,支持联合训练。这一方法可使模型同时吸收实验数据与文本知识。

5 挑战与缺陷

下图展示了MFMs的一些缺陷:

预训练多模态基础模型(MFMs)需要配对且对齐的多组学数据,最好包含空间信息与时间序列样本。尽管全球细胞图谱中已有部分数据,但样本数量有限且分散,因此需要跨联盟的全球协作来推动数据采集与算法发展。同时,训练和部署大型模型常需大量计算资源,限制了MFMs的可及性并增加能耗。为此,LORA、adapter-transformer等低资源技术可助力构建更环保、易获取的模型。此外,在真实数据稀缺的情形下,合成数据可作为有力补充,特别是在优化跨模态训练目标时。

要推动MFMs的发展,需建立严格而多元的评估体系。在标准化数据集上评估模型在细胞类型预测、疾病样本生成、扰动响应预测等任务中的表现是关键。然而,目前评估往往依赖专家标注,如基于标记基因的细胞类型划分,可能限制模型发现罕见或新亚型的能力。过分依赖此类标签,反而会惩罚识别新生物现象的模型。因此,需要发展更客观、去人为偏见的评估指标。

尽管MFMs展现出巨大潜力,但仍存在关键限制,尤其是在可解释性与幻觉风险方面。MFMs可生成表达谱或预测突变,但为何得出某一结论常难以解释。近期如Kolmogorov–Arnold网络等新方法为增强模型可解释性提供了方向,可与transformer结合解析预测逻辑。另一方面,幻觉风险指模型生成看似合理但实际上错误的输出。为此,MFMs应满足以下真实性要求:(1) 输出应以训练数据为基础;(2) 应与上下文一致;(3) 当无法给出可靠结果时应能承认。要实现这些目标,量化预测不确定性将是重要方向,有助于发现并警示潜在幻觉。

预训练模型应开放可用,并清晰说明其能力、局限性与适用场景。在生物医学中,模型透明性愈发重要。借鉴自然语言领域的经验,MFMs也应从数据来源、训练方法、使用政策、伦理风险和公平性等维度进行评估。此外,大规模生物数据训练需要严密的数据隐私保护措施,避免数据泄露带来的潜在危害。模型也必须在不同群体中具备代表性,以防性能偏倚。在临床应用中,所有预测需在真实队列中验证,避免幻觉影响医疗决策。同时,开放共享的模型与基础设施对于促进领域公平性和发展同样至关重要。

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图

2.100套AI大模型商业化落地方案

3.100集大模型视频教程

4.200本大模型PDF书籍

5.LLM面试题合集

6.AI产品经理资源合集***

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓