以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型 原创

发布于 2025-8-25 12:53
浏览
0收藏

上海交通大学第三届「AI for Bioengineering 暑期学校」于 2025 年 8 月 8—10 日正式开启。本次暑期学校汇聚了自全球 70 余所高校、 10 余所科研机构及 10 余家行业领军企业的 200 余位青年才俊、科研学者和产业代表,共同聚焦于人工智能(AI)与生物工程(Bioengineering)的融合发展。

其中,在「AI 算法前沿」课程板块,上海交通大学自然科学研究院 &洪亮课题组博士后李明辰以「蛋白质与基因组基础大模型」为主题,向大家分享了蛋白质语言模型在功能预测、序列生成、结构预测等方向的前沿成果,以及扩展定律、基因组模型的相关研究进展。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

李明辰博士演讲现场

HyperAI 超神经在不违原意的前提下,对李明辰博士的精彩分享进行了整理汇总,以下为演讲精华实录。

蛋白质语言模型新型分类:蛋白质结构、序列和功能的关系

蛋白质的用途极其广泛,其功能可以应用于化工、农业、食品、美妆、医药、检测等多个领域,市场规模达到万亿级别。从简单的角度来讲,蛋白质语言模型是一个概率分布问题。它相当于给定一个氨基酸序列,判断其在自然界中出现的概率并据此进行采样。通过海量的数据预训练,模型能够较好地表示自然界中的概率分布。

蛋白质语言模型具有三大类核心功能:

* 将蛋白质序列表示为高维向量的学习过程 

* 判别氨基酸序列的合理性

* 生成新的蛋白质序列

很多研究论文在介绍蛋白质语言模型的分类时会按照 Transformer 架构型分类,直接介绍基于 Transformer Encoder 或者基于 Transformer Decoder 的内容。这样的分类方法对于生物学科的研究人员而言不易理解,通常会造成困惑,因此我来介绍一种新的分类方法:基于蛋白质结构、序列和功能之间的关系进行分类。

蛋白质的序列即氨基酸序列,一旦明确了氨基酸序列,我们便能够在实验室或工厂中进行合成,并将其应用到实际中。蛋白质的结构同样至关重要,之所以能够发挥功能,正是因为其在三维空间中形成了一定的结构,而这种结构能够从微观层面实现功能。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

根据这一思路,可以将蛋白质语言模型分为以下四类:

1. 序列→功能:根据给定的氨基酸序列预测其功能,即 「功能预测模型」。

2. 功能→序列:根据给定功能设计对应的氨基酸序列,包括 「生成模型」和 「挖掘模型」。

3. 序列→结构:根据氨基酸序列预测其结构,通常称为 「结构预测模型」,诺奖成果 AlphaFold 就属于此类模型。

4. 结构→序列:根据给定蛋白质结构设计对应的序列,通常称为 「逆折叠模型」。

应用场景与技术路径:四种主流模式解析

「序列→功能」

理解「序列→功能」的一个最简单的思路就是监督学习。

首先是最基础的功能预测模型,该过程是把蛋白质序列表达成向量,然后在一个特殊的数据集上进行训练。例如:我们想预测蛋白质的熔点,首先要收集一大批蛋白质熔点标签的数据,把训练集中所有的蛋白质序列都转成高维向量,并用监督学习的方法进行训练,最后为测试或者预测集中的序列上进行推理,预测功能。这种方法能做的任务非常多,是目前研究的热点方向之一,同时也是一个比较容易产出成果的研究方向。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

其次,蛋白质语言模型还能进行突变功能预测,其核心思想是在蛋白质序列中将某些氨基酸做一些改变,然后利用蛋白质语言模型判断这个改变是否「合理」。

这里的「合理」,并不是指生活中的合乎逻辑,而是指这种氨基酸变化是否符合自然蛋白质序列的概率分布。这个概率分布来自大量真实的氨基酸序列统计,而这些氨基酸分布本身就是上千万年进化的产物。

蛋白质语言模型在训练中学习了这种进化规律,因此能够判断某个突变是符合进化规律,还是偏离进化规律。从数学的角度来看,这一判断可以转化为突变前后两个序列概率的比值,为了便于计算,通常会对比值取对数,将其转化为减法形式。

语言模型对突变体和野生型之间的似然比能估计突变效应的强弱,这一思路最早由 2018 年 Nature Methods 上的一篇介绍 DeepSequence 模型的论文提出了验证,但当时模型规模还相对较小。随后在 2021 年,ESM-1v 模型进一步表明蛋白质语言模型同样能够通过似然比有效预测突变效应。

要评价蛋白质突变功能预测模型的准确性,就需要一个 Benchmark 。

所谓 Benchmark 就是一些为衡量准确性所收集的众多小量数据,例如由哈佛医学院和牛津大学联合开发的 ProteinGym,是目前最常用的一个 Benchmark,内含 217 个突变蛋白的数据,数百万个突变序列。研究人员会让蛋白质语言模型逐一对这些突变序列打分,再将模型预测的分数与真实的分数进行对比,如果相关性越高,就说明模型的性能越好。

不过,ProteinGym 属于高通量、低精度的 Benchmark 。受实验条件限制,它可以进行大规模测试,但在精度上可能有所不足。如果重复一次实验,结果和原始数据的相关性可能会有误差,导致评测结果不能准确反映模型实际应用的表现好坏。

为了解决这个问题,我们开发了 VenusMutHub 这样的低通量、高精度的小样本 Benchmark 。它的数据量虽然不大,但每一条数据都比较精确,而且重复实验的结果几乎一致,更贴近真应用场景。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

* 论文地址:Zhang L, Pang H, Zhang C, et al. VenusMutHub: A systematic evaluation of protein mutation effect predictors on small-scale experimental data[J]. Acta Pharmaceutica Sinica B, 2025, 15(5): 2454-2467.

除此之外,还可以引入结构来增强的蛋白质语言模型的突变预测准确度。我们团队去年在 NeurIPS 上发表了一篇蛋白质语言模型的工作——ProSST 模型,运用了蛋白质的氨基酸序列和蛋白质结构化的序列完成了一个多模态的预训练,在目前最大规模零样本突变效应预测的 ProteinGym Benchmark 上,ProSST 排名第一。

* 论文地址:Li M, Tan Y, Ma X, et al. ProSST: Protein language modeling with quantized structure and disentangled attention[C]. Advances in Neural Information Processing Systems, 2024, 37: 35700-35726.

大家在做实验或者做设计的时候会经常碰到一类问题:「就是我该用哪个模型?」「作为使用者我该怎么选?」

在今年发表的一项研究中,我们团队发现蛋白质语言模型对目标序列的困惑度(Perplexity)可以大致反映它在突变预测任务中的准确性,好处在于不需要任何目标蛋白突变数据的情况下,就能够给出一个性能预估。具体体现在困惑度越低,说明模型对该序列的理解越好,也往往意味着它在该序列上的突变预测会更准确。

基于这一想法,我们开发了一个集成模型——VenusEEM 。其根据困惑度来确定模型的权重,或直接选择困惑度最低的模型,这能够把突变预测准确度提升到一个较高的标准。无论面对哪类策略,最终的预测分数都相对稳定,不会出现因为选错模型而导致性能明显下降的情况。

* 论文地址:Yu Y, Jiang F, Zhong B, et al. Entropy-driven zero-shot deep learning model selection for viral proteins[J]. Physical Review Research, 2025, 7(1): 013229.

最后,在「序列→功能」方向的研究中,除前面提到的几类模型外,我们团队去年还开发了一种新型的迭代式高位点突变设计模型 PRIME 。具体而言,我们首先在 9,800 万条蛋白质序列上预训练了一个大型蛋白质语言模型。在高位点突变预测任务中,先获取低位点突变数据,并输入到蛋白质语言模型中,将其编码为功能向量;再基于该功能向量训练回归模型,用于预测高点突变。通过这种来回迭代式的反应,仅需 2-3 轮实验就能够把一个优异的蛋白质产品开发出来。

* 论文地址:Jiang F, Li M, Dong J, et al. A general temperature-guided language model to design proteins of enhanced stability and activity[J]. Science Advances, 2024, 10(48): eadr2641.

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

「功能→序列」

前面讲的都是从序列到功能,我们想一下是不是能够从功能反推出序列呢?

序列与功能之间,存在一个正逆向的问题。正向问题就像在寻找一个确定的答案,但是逆向问题是在一个巨大的可行空间中寻找一个可解性,而「从功能生成序列」就是这个逆向问题。究其原因在于:序列通常只对应一或少数几个功能,但一个功能可以由多种完全不同的序列来实现。与此同时,逆向问题没有可信的 Benchmark,当模型根据给定功能生成序列时,通常只能通过实验检测准确性。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

在当前的研究中,从功能到序列的设计大多采用模板化思路,如果已知某个模板蛋白具备特定功能,就可以以它为基础去寻找或者生成一个新的区域。其流程是先从功能到模板序列,从模板蛋白可能会搜索出来一些家族蛋白/同源蛋白,再对蛋白质语言模型进行微调,利用微调后的语言模型生成新的序列区域,最终进行实验检测。

目前较具代表性的两个生成式蛋白质语言模型包括:

* ESM-3,以绿色荧光蛋白(GFP)为模板进行生成,但其所生成的蛋白功能较弱。 

* ProGen 纯自回归式语言模型,类似 ChatGPT 可根据功能提示进行生成,其在溶菌酶的蛋白架构上进行微调从而生成。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

除了直接生成新蛋白序列,还可以从现有的海量蛋白序列中直接搜索。将模板蛋白编码到高维空间,根据向量距离判断这两个蛋白是否具有相同的功能,最后在一个数据库中进行检索。这个思路的原理在于,高维空间里两个蛋白质的编码或向量之间的距离能够大致反映出这两个蛋白质的功能是否类似。

下图所示,列举了两个目前比较典型的应用蛋白质语言模型挖掘蛋白质的案例。其一,西湖大学开发的 ESM-Ezy,基于 ESM-1b 模型来进行向量搜索,挖掘出多重表达进行填充。其二,VenusMine 大模型挖掘高效 PET 水解酶。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

* 论文地址:Wu B, Zhong B, Zheng L, et al. Harnessing protein language model for structure-based discovery of highly efficient and robust PET hydrolases[J]. Nature Communications, 2025, 16(1): 6211.

除了「功能→序列」,还可以在功能与序列之间增加「媒介」:

* 当结构作为中间媒介:根据功能推测蛋白结构(常用工具如: RFdiffusion),再将生成的结构输入逆折叠蛋白质语言模型(如 ProteinMPNN)最后生成序列。 

* 当自然语言作为媒介:如研究论文「A text-guided protein design framework」中所介绍的方法,通过对比学习将自然语言和蛋白质序列对齐到一个高位空间,然后就可以直接在这个高位空间里面通过自然语言引导来生成一个蛋白的序列。

「序列→结构」

在序列→结构方向,最经典的模型无疑是 AlphaFold 。那么,为什么我们还需要蛋白质语言模型来做结构预测呢?最主要的原因是——快。

AlphaFold 之所以较慢,主要原因是 MSA(多序列比对)搜索依赖于 CPU 在大型数据库中进行检索,当然也可以使用 GPU 加速,但其实加速效果反而更慢。其次,AlphaFold 在折叠过程中还需要进行模板匹配,同样消耗了大量时间。如果将这两个模块替换为蛋白质语言模型,能够极大地加速结构预测的过程。然而,根据目前已发表的研究,基于蛋白质语言模型的结构预测在大多数评测指标上的精度仍整体低于 AlphaFold 模型。

目前几个比较常见的从序列到结构的蛋白质语言模型,采取了利用蛋白质语言模型提取的特征替代 MSA 的共同思路:

* ESMFold(Meta):第一个使用蛋白质语言模型直接预测蛋白质结构的方法,在不依赖 MSA 搜索的情况下实现了较高精度。

Proteinix-MINI(字节跳动):采用蛋白质语言模型代替 MSA ,同样达到了非常快速的效果,预测精度接近 AlphaFold 3 模型。

* xTrimo-Fold(百图生科):运用了千亿参数模型的特征代替 MSA,搜索速度得到了加快。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

「结构→序列」

根据已知功能设计出结构,但如何将其在实验室中合成出来呢?我们还需要把它转化成氨基酸的序列,这就是先前提到的「逆折叠语言模型」。

逆折叠语言模型可以理解为 AlphaFold 的「逆向问题」。不同于 AlphaFold 从氨基酸序列预测三维结构,逆折叠模型的目标是学习一个从蛋白质 3D 结构向氨基酸序列的映射函数。

我分享的几个此领域的工作:第一个工作是来自西湖大学研究团队的 PiFold 模型,其架构的一大创新在于采用非自回归生成方式。

第二个是 David Baker 课题组开发的 ProteinMPNN,作为是目前应用最广泛的逆折叠模型之一,其采用自回归生成方式,通过图神经网络对单个蛋白质结构进行编码,再逐个生成氨基酸序列。

此外,Meta 公司提出的 ESM-IF 也是一项重要进展,其亮点在于直接利用 AlphaFold 预测的大规模结构数据,将数千万条蛋白质序列统一预测出对应的三维结构,并以此构建了一个超大规模的训练集。 ESM-IF 的训练数据达到千万级别,模型参数量超过一亿。在此基础上,该模型除了能够完成逆折叠任务,也在突变稳定性预测上表现出极强的性能。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

多重方式实现蛋白质语言模型的增强

最后,补充一个当下非常热门的研究方向——蛋白质语言模型的增强。如果你打算在这个领域开展研究,可以从以下思路切入——引入外部信息、改进内部架构。

1. 引入外部信息

* 功能信息:例如将温度、 pH 等功能输入到 Transformer 中。这些信息既可以显式地融入模型输入,也可以通过学习的动作,从而增强蛋白质语言模型的性能。 

* 结构信息:引入三维结构或结构化序列信息。

* MSA 信息:多序列比对(MSA)是一类非常有用的信息,将其引入语言模型往往能显著提升性能。 

* 自然语言信息:近年来也有研究尝试加入自然语言信息,但这一方向仍在探索中。

2. 改进内部架构

* 扩展定律:通过大幅增加模型参数量与训练数据规模来换取性能提升。

提升数据质量:降低数据中的噪声,提升精度。

* 新型架构探索:如 CARP 、 ProtMamba 、 Evo 架构等。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

近年来,利用蛋白质结构信息增强模型性能成为热门研究方向。

早期的代表性研究之一是发表于 2021 年的论文「Learning the protein language: Evolution, structure, and function」,其展示了如何通过结构信息提升蛋白质语言模型的能力。在此之后,SaProt 模型提出了一种颇为巧妙的做法,其将蛋白质的氨基酸词表与 Foldseek 为蛋白质结构生成的 20 个虚拟结构词表进行拼接,最终得到一个大小为 400(20 × 20)的联合词表。基于这一词表训练掩码语言模型,取得了优异的精度。

我们团队也自主训练了一个针对蛋白质序列和结构的多模态预训练模型 ProSST,该模型通过将蛋白质的连续结构转化为离散的 token(2,048 种不同的 token),从而实现了结构信息的离散化表示。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

在蛋白质语言模型中加入结构信息可以显著提升模型性能。然而,在这一过程中可能会遇到一个问题:如果直接使用 AlphaFold 预测得到的结构数据进行训练,虽然训练集上的损失在逐步降低,但验证集或测试集上的损失却逐渐增大。解决这一问题的关键在于对结构信息进行正则化,通俗地讲,就是简化复杂的数据,使其更适合模型处理。

蛋白质的结构在三维空间中通常表示为连续坐标,需要通过将其转化为离散的整数序列来简化这一过程。为此,我们使用了一种图神经网络架构,并采用降噪编码器进行训练,最终构建了一个包含约 2,048 种 token 的离散结构词表。

有了结构信息和序列信息后,我们选择了交叉注意力机制来将两者结合,从而使得改造后的 Transformer 模型能够同时输入氨基酸和结构序列。在预训练阶段,我们将这一模型设计为一个研发语言模型任务,训练数据包含超过 1,880 万条高质量蛋白质结构,参数规模约 1.1 亿。该模型在当时达到了领先水平,尽管之后已被更新的模型所超越,但在发布之时仍是同类任务中的最佳结果。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

利用 MSA(多序列比对)增强蛋白质语言模型,也是提升模型性能的重要手段。最早可以追溯到 MSA-Transformer,它通过引入行规则和列规则的机制有效地将 MSA 信息融入到模型中。最近发布的 PoET2 模型,使用了层次编码器来处理 MSA 信息,并将其整合进一个全通的模型结构中,经过大规模训练后,展现了出色的性能表现。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

扩展定律:模型变大一定更强吗?

所谓扩展定律(Scaling Law),最早来源于自然语言处理领域。它揭示了一个普遍规律:模型性能会随着参数规模、训练数据量以及计算资源的增加而持续提升。

其中,参数规模是决定模型性能上限的关键因素。如果参数量不足,即使投入更多计算资源(通俗地讲就是「花更多钱」),模型的性能也会遇到瓶颈。在蛋白质语言模型领域,同样存在这样的规律,并且已经被多篇研究证实,代表性工作如:代表性工作如:RITA 、 xTrimoPGLM 、 ProGEN3 、 Amix-1 。
* RITA 模型:由牛津大学、哈佛医学院联合 LightOn AI 公司开发。

* xTrimoPGLM 模型:由百图生科团队开发,实现将模型参数规模扩展至约千亿级。

* ProGEN3 模型:由 Profluent 生物公司团队开发。

* Amix-1 模型:由清华大学智能产业研究院联合上海人工智能实验室提出,采用贝叶斯流匹配的网络架构,同样具有扩展定律。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

前面我们提到的「扩展定律」,是预训练过程。但在蛋白质研究中,我们最终关心的往往是下游任务的效果。那么问题来了:预训练性能提升,对下游任务是否一定有帮助?

在 xTrimoPGLM 的评测中,研究团队发现,在约 44% 的下游任务中,确实存在「预训练性能越好则下游表现越强」的正相关关系。

与此同时,Amix-1 模型在结构预测任务中,观察到了涌现能力(Emergent Capability)。其指在一些任务中,小模型完全不具备解决能力,但当模型参数规模突破某个临界点后,性能突然显著提升。在该实验中,这种现象在结构预测任务中尤为明显,当参数突破临界点时,性能提升呈现出一条「断崖式红线」。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

虽然在部分任务中,大模型确实能带来更好的下游表现。但是下游任务也发现了一种逆扩展定律(Inverse Scaling),即模型越小,性能反而变得越好。

有研究表明,如果训练数据本身存在大量噪声时,单纯增加模型参数量并不能改善结果,因此大家应该更关注数据的质量。在 ProteinGym 基准上的蛋白质突变预测任务中发现,中等规模的模型在准确率上表现反而较好。另外开发 xTirmoPGLM 的团队也发现了存在一些非正相关的案例,即预训练的性能跟下游任务的性能不相匹配。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

基因组模型:从 DNA 设计到蛋白质产量优化

基因组模型解决的问题是:我们如何去生产一个蛋白质?

在合成生物学中,生产一个蛋白质遵循分子生物学的中心法则:「DNA → RNA → 蛋白质」。在细胞中,这个过程由细胞体内管控,我们可以通过设计基因来完成这个过程。但核心在于,基因的设计会直接影响蛋白质的产量。

在实际应用中,常常会遇到这样的情况:某个蛋白质在功能上表现优异,但由于基因设计不佳,其表达量极低,无法满足工业化或大规模应用的需求。此时,AI 模型便可发挥作用。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

AI 模型的任务就是实现直接从蛋白质序列反推出如何设计 DNA 序列,并令其产量提升。我们团队提出的模型 ProDMM 就是基于预训练策略,整体分为两个阶段:

第一个阶段,联合预训练学习蛋白质和 DNA 的表征。输入包括蛋白质序列和 DNA 序列, 通过 Transformer 架构进行语言模型的训练。目标是同时学习蛋白质序列、密码子序列以及 DNA 序列的表征。第二阶段,在下游任务上训练生成任务,例如:从蛋白质到编码序列(CDS),给定一个蛋白质就能够生成出来一列 DNA 序列。

* 论文地址:Li M, Ren Y, Ye P, et al. Harnessing A Unified Multi-modal Sequence Modeling to unveil Protein-DNA Interdependency[J]. bioRxiv, 2025: 2025.02. 26.640480.

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

从密码子到非编码 DNA(NCDS)的目标任务意在完成密码子优化、 5’-UTR 的设计、启动子设计、代谢通路设计。

其中,代谢通路设计是指为合成一个特定产品服务时,基因中的多个蛋白质需要协同工作。我们需要优化整个代谢通路的产物,这一任务是基因组模型才能完成的,因为蛋白质模型仅针对单一蛋白质进行优化,且是上下文无关的。而基因组模型面临的一个巨大挑战是,它需要考虑细胞内环境的相互关系,这也是基因组模型目前面临的最大难题。

关于李明辰博士

本次分享嘉宾上海交通大学自然科学研究院洪亮课题组博士后李明辰,于华东理工大学获计算机科学与技术专业工学博士学位及数学专业理学学士学位,主要研究方向为预训练蛋白质语言模型及其微调。

曾获上海市优秀毕业生、国家奖学金、「互联网+」大学生创新创业大赛上海赛区金奖;以第一作者/共同第一作者/通讯作者身份在 NeurIPS 、 Science Advances 、 Journal of Cheminformatics 、 Physical Review Research 等期刊会议上发表 SCI 论文共 10 篇,参与发表 SCI 论文 10 篇。

一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型-AI.x社区

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-8-25 12:57:03修改
收藏
回复
举报
回复
相关推荐