ICLR会议论文
TItle:MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING
王泽源 1,2,7*张强 1,2*†余浩然 2,3 胡双伟 4
1 浙江大学计算机科学与技术学院
2 浙江大学-杭州全球科技创新中心
3 浙江大学化学与生物工程学院
4Vecx 生物医药股份有限公司,5 敏德 AI 有限公司,6 伦敦 7 大学学院
AZFT 知识引擎联合实验室,8 东海实验室
{yuanzew,qiang.zhang.cs,yuhaoran,huajuns ir}@zju.edu.cn
shuangwei@vecx.bio, xurui@m indrank.ai, ucabzgo@ucl.ac.uk
摘要
蛋白质可以专注于不同的结构水平来实现其功能。每种结构在描述特定特性时 都有自己的优点和驱动力,它们不能相互替代。现有的大多数功能预测方法要 么以一级结构,要么以三级结构作为输入, 无意中忽略了蛋白质结构的其他层 次。考虑到蛋白质序列可以确定多层次结构, 在本文中, 我们的目标是实现蛋 白质序列在功能预测方面的综合潜力。具体而言,我们提出了一种新的提示引 导的多任务预训练和微调框架。通过提示引导的多任务预训练, 我们学习了多个提示信号来引导提示蛋白(Prompt Protein)模型关注不同层次的结构。我们还设计了一个提示微调模块,为下游任务提供利用各自层次结构信息的按需灵活性。在功能预测和蛋白质工程方面的大量实验表明, 提示蛋白在很大程度上优于最 先进的方法。据我们所知, 这是第一个基于提示的预训练蛋白质模型。
1 介绍
预训练语言模型(P T L Ms)在自然语言处理(N LP )中占有重要地位。最近,一些方法(Alley et al., 2019; Eln agg ar et al., 2021; Rives 等人, 2021)使用 P TL Ms 编码蛋白质序列来预测生物功能,这被称为预训练蛋白质模型(ptpm)。与自然语言相比,蛋白质结构有四个不同的层次( Kessel & Be n- Tal, 2018)。初级是由氨基酸组成的蛋白质序列,第二级是指局部折叠结构(例如, α 螺旋和 β 折叠片), 三级描述自然折叠的三维结构, 四级是由多个多肽组成的蛋白质多聚体。一种蛋白质可以专 注于不同的结构层次来实现其特定的功能,包括保留一段序列, 将整个 3D 结构表现为构象元件,甚至与其他蛋白质合作。因此,在预测蛋白质功能时,灵活利用多层次的结构信息是至关重要的。AlphaFold2 (Jumper et al.2021 )在基于蛋白质序列的三级结构预测方面取得了很大进展。然而,直接从预测的结构中学习是无法实现的, 因为没有同源序列的蛋白质预测是不准确的。更重要 的是, 忠实描述蛋白质功能的蛋白质多聚体的四级结构通常与三级结构不同(见图 1),可靠的预测模型尚未发布。幸运的是, 蛋白质序列很容易获得, 并且可以确定所有其他层次的结构。本文旨在通过提示我们在 多个结 构级别设计了三个互补的 预训练任 务, 目标是精 细和粗分 辨率 。具体来说 , 我 们 使 用 事 实 上 的 掩 模 语 言 建 模 ( MLM ) 任务 来利用 初级结 构信息 , 其中模 型需 要预测蛋白 质中随机 屏蔽的 氨基酸 。对于二 级和 三级结构, 我们提出了 α -碳坐标预测(CR D )任务, 其中模型 应该输出 残基之 间的相 对位置。 对于 四级结构,我们提出了蛋白质 -蛋白质相互作用预测 (P P I) 任务, 其中需要 模型来估 计相互作 用概率 。我们从 UniRef 50 (Co nso rtium, 20 21)、 Protein data Bank (Berm an et al. , 2000 ) 和 STRING (S zkla r- cz yk et al.2019)中收集了数百万条涵盖不同层次蛋白质结构的数据。
图 1: 蛋白 C D K 1 三级(左 )和四级(右 )结构的比较。
对于第二个挑战, 一个直截了当的策略是利用多任务学习来结合不同预训练任务的损失。然而,许多作品( W u et al., 201 9; Y u et al., 2020 )发现, 当任务多样化时, 任务干扰很常见。由于预训 练与下游任务之间的差距, 这个问题在多任务预训练中可能会更加严重, 导致负知识转移。例 如, BE R T ( K ento n & T outan ov a, 201 9) 利用 M L M 和下一个句子预测(NS P )同时学习顺序依赖和句 子关系, 而 RoB E RT a ( Liu et al., 2019)发现当去除 NS P 损失时,性能会略有提高。我们假设这 个问题也存在于多层次的蛋白质结构中, 因为不同的结构可能是不协调的。M L M 任务强调沿序 列的相邻关系,而 CR D 任务更侧重于三级结构中空间上接近的长链氨基酸对。
2.本文创新点
为了解决这一挑战,受近期提示学习的启发, 我们提出了一个提示引导的多任务预训练和微调框架, 并由此产生的蛋白质模型被称为 P ro mpt P rotein。提示引导的多任务预训练将多个预训练任务与专用的哨兵令牌(称为提示符)关联起来。为了利用提示令牌, 我们引入了一个提示感知的注意力模块, 该模块修改了 Transformer 架构的两个组件: 1)注意力掩码(attention mask), 其目的是阻止从输入数据到提示的注意力计算, 因为提示应该是任务依赖的,而不是样本依赖的。2)对于跳过连接,使用提示来计算跳过权重, 该权重可以过滤掉与任务无关的信息。在微调阶段, 我们提出了一个提示微调模块来协调所有提示令牌,使模型能够灵活地利用多层次的蛋白质结构信息, 使学习到的结构知识正向迁移到下游任务。
我们将功能预测和蛋白质工程作为下游任务进行了实验,其中 P ro mpt P rotein 在所有数据集上都显著优于最先进的技术, 特别是在低资源蛋白质工程任务上, P rom pt P rotein 实现了 17.0 %的平均改进。
蛋白质表示模型
蛋白质具有复杂的结构, 决定了它们的生物学功能(Epstein et al., 196 3)。越来越多的工作集中在如何利用结构信息上。由于通过自然选择的进化已经将蛋白质序列作为它们的 “ 自然语言” ,各种自然语言处理方 法已经扩展到蛋白质上。 As gari & Mofr ad (2 015); Ya ng et al.(2018 )应用词嵌入算法(Mikolov et al., 2013 )获得蛋白质表征。Dalkiran et al. (2 018); Ozt ¨¨ urk等人(2018)使用一维 con -预测函数的进化神经网络。此外, Alley et al. ( 2019 ); Elnag gar et al. (2 021); Riv es et al.(2 021) 探讨了预训练和微调范式、变压器架构和目标函数是否可以有效地从自然语言转移到蛋白质。Zh ang 等人(2021 a)将氨基酸序列和文本序列对齐,以获得信息丰富的蛋白质表示。为了利用三级结构, H er mosilla et al. (202 0); S om nath et al. (20 21); Gan ea 等人(2021); Zha ng 等人(202 2)构建蛋白质图, 并使用消息传递神经网络来生成结构感知表示。Beple r & B erg er(2 021)采用接触图预测和结构相似性预测来预训练蛋白质模型。虽然已经研究了一级和三级结构, 但很少有作品尝试用忠实地描述蛋白质功能的四级结构来丰富蛋白质表示。在本文中,我们表明, 系统建模和灵活利用多层次结构是提高功能预测和蛋白质工程性能的关键。
多任务学习
多任务学习的目标是利用任务间的归纳迁移,实现更好的泛化性能。当任务多样化时, 使用朴素的共享 M T L 模型可能会受到任务干扰。之前已经提出了一些方法来消除来自不同任务的冲突梯度。Ch e n 等人(20 18 )动态调整梯度大小,以便在相似的尺度上训练不同的任务。 Y u et al.(2 02 0)考虑了梯度方向,如果一个任务梯度方向相互冲突,则将其投影到另一个任务梯度方向上。Javalo y & V al era (2 021 )没有剪裁冲突梯度方向, 而是为每个任务学习一个旋转矩阵,以使不同的最优点彼此更接近。然而,这些方法并不是为多任务预训练而设计的,不能正确处理知识向下游任务的可转移性。我们在附录 a .1 中提供了这些方法的示意图比较。
预训练模型提示
引入上下文学习(Bro w n et al., 20 20)来引导预训练的模型产生任务期望的表示。在 N LP 领域,设计提示符的主流方法可以分为两类: 离散提示符设计和连续提示符调整。离散提示技术(S chic k & S ch¨ utz e, 2 021 )将来自词汇表的任务描述令牌添加到上下文中,以获得丰富的句子嵌入。然而, 手工制作的提示可能会带来人为偏见的干扰, 并且仅限于离散的词汇空间。相 比之下, Li & Lia ng ( 202 1); Zh ang 等人(20 21b)在连续空间中生成最优提示向量。受这些作品的启发, 我们将提示调优的概念扩展到预训练阶段, 在预训练期间将多层次蛋白质结构信息与专用提 示令牌相关联,并自适应地将这些学习到的提示组合到下游任务中。
3 方法
为了从输入数据 x 中获取多个信息,传统的多任务学习通常会产生 P 一个通用表示。整个目标可以被表述为单个任务目标的加权和: L = i i α Li (h),其中{iα }是平衡这些损失的超参数。然而, 多层次的蛋白质结构可能是不协调的:主要结构集中.更多地关注沿序列的依赖性, 而三级和四级结构更多地关注空间组织, 这可能会导致任务干扰的问题。由于预训练和下游任务之间的差距,这个问题会导致多任务预训练中更严重的负迁移。为了解决这个问题, 我们提出了一个提示引导的多任务预训练和微调框架,该框架利用一个提示令牌 p 来产生一个特定于任务的表示 hp 。多个学习到的令牌可以灵活地组合起来, 引导预训练模型用于各种下游任务,弥合了预训练和下游任务之间的差距。
本节首先描述如何使用提示修改 Tr ansf or me r 架构,以便不同的神经层可以处理不同的任务, 并减少任务干扰。然后我们提出了获取多层次蛋白质结构信息的三个预训练任务:
(1)掩码语言建模,
(2)α -碳坐标预测,
(3)蛋白质-蛋白质相互作用预测。最后, 我们引入了提示引导的预训练和微调框架,其中可以在预训练阶段获取多个信息,并按需组合下游任务。得到的 Prompt Protein 模型如图 2 所示。
图 2: P rompt P rotein 的架构概述。在预训练阶段, 我们用三个与结构相关的任务来预训练我们的模型, 包括掩模语言建模、α -碳预测和蛋白质-蛋白质相互作用预测。对于每个任务, 模型都将蛋白质序列和特定于任务的 tok en 作为输入, 并学习生成编码相应结构信息的表示。在微调阶段,提示调谐模块 θ
3.1提示感知注意模块
为了减少预训练任务之间的干扰, 我们使用提示令牌来修改 Tr ansfo rm er 架构, 使预训练模型可以有效地获取多个信息。具体来说, 我们修改了 Transf or mer 的两个部分:注意掩码(attention mask)和跳过连接(skip conn ection), 由此得到的架构被称为 P rompt -aw ar e Tra nsfor me r。给定一个输入蛋白序列 x 和一个提示令牌 p,我们定义整个输入 p xp 表示 x= x||p,其中||是 conc aten ation。设 xi b ep为整个输入的第 i 个标记.
每个标记都可 以在任何 位置上注意 到其他标 记, 这意味着条件 提示将受 到输入序列 的影响。 更合 理的方法是只 保留提示 符对输入序 列的影响 , 并消除相反的影响 , 因为提 示符应该是 任务相关的,而不是样本相关的。如图 3 所示,我们设计了一个注意掩模矩阵 M 来满足这一要求。
跳过连接
跳过连接使深度 神经 网络 更容 易训练 (H e et al., 2 016 )。为了鼓励不同的任务由不同的层处理, 减少任务干扰,我们设计了一个加权跳跃连接。也就是说, 使用提示令牌为注意力模块的输出计算一个权重。整个过程可以是:
图 3:提示感知注意力模块。粉色圆圈代表氨基酸令牌, 紫色圆圈代表提示令牌。我们通过注意力掩码将提示令牌与氨基酸令牌解耦。解耦提示令牌的嵌入决定了剩余连接的权重。在微调阶段,我们 使用提示调谐 模块 τ(·θ )来学习下游任务-期望的组合提示。
其中,gp (l)是一个标量,是提示符 p 的第 L 层嵌入的线性投影.
3.2 蛋白质多层次结构学习
为了获取多层次的蛋白质结构信息,我们考虑了三个互补的预训练任务:(1)掩蔽语言建模,这已经被现有的ptpm 和can 普遍使用
捕获初级结构信息;(2)坐标预测,获取二级和三级结构;(3)相互作用预测,获取四级结构。
屏蔽语言建模
这个任务使用所有可用的氨基酸令牌来恢复掩码的人。设 Y 为屏蔽符号的集合, V 为氨基酸符号的词汇表。的 传销损失公式为:
q (y | hp) =exp (p (y | hp))v∈ V exp (p (v | hp)) LMLM(惠普)=X − logq(y|hp )。∈y (3)
α -碳坐标预测。由于二级结构可以从亲-tein 三维坐标(Kabsch & Sander, 1983),我们使用 α-C 坐标预测任务来学习二级和三级结构。给定序列长度|x|,我们表示基真
自然折叠的蛋白质三维结构为 Z ∈ R|x |× 3 ,结构预测器为 2 层 M L P网络,作为 κ,则预测结构为 κ (hp )∈R |x |× 3。通过平移和旋转(K a bsch,
1976)预测的结构,我们可以得到最小的均方根偏差之间的地-真值与预测结构,并根据这个偏差计算损失。这样,就有不需要考虑空间不变性或等变性,只需要关注相对位置之间的残留。CRD 损耗可计算为均方误差(mean square error, MSE):LCRD(hp)= MSE(Z,Kabsh(κ(hp)))。
蛋白质-蛋白质相互作用预测
为了获得四级结构信息,我们使用进行第三个预训练任务:预测第 m 个和第n 个蛋白是否可以相互作用批处理数据内的其他。让它 mp 是一个小批量中的第 m 个蛋白质,m,n 这是基本事实。我们首先计算成对感知的蛋 白质表示 hpm, n ,然后制定 PPI 损 失:
3.3提示引导的多任务预训练和微调
即时引导的多任务预训练和微调对应于三个预训练任务,提示符可以实例化为三者之一
令牌,即 p∈ p = {[ML M ], [CRD ], [PPI]}。因此, 特定于任务的表示表示为h[M L M ], h[CRD], h[PPI].提示引导的多任务预训练的目标函数
可以为制定:L = α1L M L M (h[M L M ]) + α2L CRD(h[CRD]) +α3L PPI(h[PPI] )。 (6)
当我们像方程 6 那样预训练一个有多个任务的模型时,模型参数都是 ψ 和提示符P 被优化。这样,模型就不一定需要学习最优表示对于所有的任务,而只需要学习每个任务各自的最优表示。因此,任务干扰的问题可以得到缓解。此外,为了弥合预训练和下游任务之间的差距,由于模型可以 ac-具有快速调整功能,可根据需要灵活混合获取的信息。我们表示一个提示-
调谐模块为 θ τ(·),并可以获得下游任务所需的蛋白质表示 p′通过输入调谐后的提示符 p'p' = τθ (p[M L M ], p[CRD], p[PPI])。
(7)然后,预训练的模型 p 可以为下游任务“的兴趣。方程 7 展示了如何在微调时灵活利用预训练任务信息阶段。注意,在预训练阶段,我们只附加一个提示符来获取一种类型的任务——具体信息,而在微调阶段,我们将所有学习到的提示令牌馈送到 τθ (· )并将获得的信息进行灵活组合。在这里,我们利用线性层作为我们的提示调谐模块来组合三个学习到的提示。为了便于理解,我们在附录A.3 中提供了提示引导的多任务预训练和微调框架的伪代码。
表 1:模型在 EC 数和 GO 项预测任务上的性能。† :取自 W a ng 等人(2022)的结果,‡ :取自 Zh ang 等人(2022)的结果。
数据集 |
EC 装配 |
Fmax |
GO-BP AUPRpair |
Fmax |
GO-MF AUPRpair |
Fmax |
GO-CC AUPRpair |
Fmax |
CNNr esn etLST M |
0.540 |
0.545 |
0.165 |
0.244 |
0.380 |
0.354 |
0.261 |
0.387 |
变压器 |
0.137 |
0.187 |
0.166 |
0.280 |
0.281 |
0.267 |
0.266 |
0.403 |
0.032 |
0.082 |
0.130 |
0.248 |
0.100 |
0.166 |
0.150 |
0.320 |
|
0.187 |
0.219 |
0.135 |
0.257 |
0.172 |
0.240 |
0.170 |
0.380 |
|
GAT† GVP 0.320 DEEP FR I GearNet - 0.482 |
0.368 0.489 |
0.171 0.224 |
0.284 0.326 |
0.329 0.458 |
0.317 0.426 |
0.249 0.278 |
0.385 0.420 |
|
Edge 0.547 |
0.631 |
0.282 |
0.399 |
0.462 |
0.465 |
0.363 |
0.460 |
|
0.892 |
0.874 |
0.292 |
0.490 |
0.596 |
0.650 |
0.336 |
0.486 |
|
E SM 0.889 |
0.864 |
0.343 |
0.470 |
0.639 |
0.657 |
0.384 |
0.488 |
|
ProtBER TB 0.859 |
0.838 |
0.188 |
0.279 |
0.464 |
0.456 |
0.234 |
0.408 |
|
LM− GV - |
- |
- |
- |
- |
- |
- |
- |
|
0.710 |
0.664 |
0.302 |
0.417 |
0.580 |
0.545 |
0.423 |
0.527 |
|
MT-LST 0.851 |
0.817 |
0.324 |
0.442 |
0.608 |
0.591 |
0.381 |
0.492 |
|
MTL 0.892 |
0.869 |
0.325 |
0.445 |
0.651 |
0.640 |
0.415 |
0.503 |
|
GRADNORM 0.893 |
0.874 |
0.331 |
0.466 |
0.647 |
0.643 |
0.415 |
0.504 |
|
ROTOGRAD - |
- |
- |
- |
- |
- |
- |
- |
|
0.895 |
0.876 |
0.334 |
0.470 |
0.648 |
0.638 |
0.416 |
0.509 |
|
PROMPTPROTEIN(我们的) 0.915 |
0.888 |
0.363 |
0.495 |
0.665 |
0.677 |
0.457 |
0.551 |
4实验
4.1 训练前设置
对于主要结构信息, 我们使用 U ni Ref 50 (S u ze k et al., 20 15),这是 U ni Ref 90 种子序列在 50 %序列同一性下的聚类。对于二级和三级结构信息,我们使用蛋白质数据库(P DB ) ( Be rm an et al., 2000 ), 其中包括通过实验方法获得的 200 ,00 0 个蛋白质 3D 结构。对于四级结构信息, 我们使用包含氨基酸序列和蛋白质-蛋白质相互作用对的 S TRI N G 数据集(S zkla rc zy k et al., 2 019 )。在 S TRI N G 数据集中, 蛋白质相互作用被分为 7 类。我们从 S T RI N G 中选择了仅物理相互作用的子集,该子集包含来自 14,0 95 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质相互作用对。
我 们 使 用 P ytorch (P as zk e 等人, 20 19 ) 和 F airseq ( Ot t 等人, 201 9) 实现 P ro mpt P rotein 。 P rompt P rotein 有 650 M 个参数, 33 层, 20 个注意头。嵌入尺寸为 1280 个。学习率为 1 × 10− 4 ,无权值衰减。我们使用平方根反比学习率调度。所有模型都在 2× A1 00 40 G gp u 上进行 270k 步的更新训练。预训练后, 单个残基上坐标预测任务的平均误差为 5 a, ˚ ,物理绑定预测准确率大于 90.0%。除非另有说明,否则我们在所有下游实验中都使用该模型。源代码将在网上提供。所有预训练和下游任务数据集统计的详细信息请参考附录 B。
4.2 下游任务:函数标注
Datasets and Metrics。 基因本体( G O)术 语和酶委员会( E C)编号 是组织无数蛋白质功能的 两个标准分类方案。 这些功能 预测任务 可以看作 是多个二元 分类任务 。我们遵 循( Gligo rijevi 等 人, 202 1)中的数据集分割方法。评估指标是以蛋白质为中心的最大 F -s co re (F ma x )和 pr ecisio n-r e call (AUP R )曲线下的以术语为中心的面积, 它们用于 C A F A 挑战(R a divoja c et al., 2013)。
基线
基线分为四类。(1)基于序列的编码器。C N N (S h an ehsa z- z ad eh et al., 2 020 )、R es Net 、 LS T M、 Tr ansfo r mer (R ao et al., 201 9)只将氨基酸序列作为输入;(2 )几何学习方法。 G AT ( V eli cko vi´c 等 人, 2018) 、 G VP (Jing 等 人, 202 0) 、 D ee pF RI ( Gligorijevi 等人 , 2021) 和 G ear N et -Edg e(通过 M ultivie w C ontrast 预训练)(Zh an g 等人, 2022)将蛋白质 3D 坐标作为额外输入以获得 信息表示;(3)预训练的蛋白质模型。ES M-1 b ( Rives 等人, 2021)、P rot B ER T- BF D ( El - n agg ar 等人, 2021) 和 LM- G VP ( W a ng 等 人, 202 2) 从大 型蛋白 质语料 库中学 习模式 。 MT- LS T M (B epler & Berger, 2021)使用接触图和结构相似性来丰富嵌入-
表 2:模型在蛋白质工程任务上的表现。小数点后两位的结果来自 Dallago et al.(2021)。
数据集 |
稳定 |
FLUORE。 |
热混合 |
AAV1- vs-R |
1-VS-R |
GB12- vs-R |
3-VS-R |
CNN |
0.51 |
0.67 |
0.34 |
0.48 |
0.17 |
0.32 |
0.83 |
ResnetL ST M esm- |
0.73 |
0.21 |
0.353 |
0.173 |
0.117 |
0.210 |
0.291 |
untrained |
0.69 |
0.67 |
0.317 |
0.215 |
0.124 |
0.349 |
0.491 |
0.452 |
0.337 |
0.36 |
0.01 |
0.05 |
0.05 |
0.46 |
|
ESM-1 B |
0.71 |
0.68 |
0.68 |
0.04 |
0.32 |
0.36 |
0.54 |
Esm-1vp ro be rt -bfd |
0.726 |
0.507 |
0.67 |
0.18 |
0.32 |
0.32 |
0.77 |
lstm-mt. |
0.732 |
0.675 |
0.651 |
0.234 |
0.303 |
0.387 |
0.654 |
0.741 |
0.648 |
0.665 |
0.258 |
0.335 |
0.402 |
0.741 |
|
PROMPTPROTEIN(我 们的) |
0.767 |
0.683 |
0.694 |
0.551 |
0.403 |
0.550 |
0.783 |
丁当作响。(4)多任务学习框架。我们采用朴素多任务学习(naive multitask learning, MTL)和两种优化方法(GradNorm (Chen et al., 2018)、RotoGram (Javaloy & Valera, 2021))。
我们在表 1 中给出了建议的 P rom pt P rotein 和最新基线的评估结果。与所有基线相比 , P rompt P rotein 在所有任务上都取得了新的最先进的性能, 这表明多层次结构信息的系统建模是有益的。尽管多任务学习基线与 P rom pt P rotein 整合了相同的信息,但它们不能很好地学习多个信息并正确地转移到下游任务。它们在 GO- BP 和 GO-CC 中的较差表现表明,下游任务期望表征与通用预训练表征之间存在差距。结构信息的灵活组合显著提高了模型对下游任务的性能。
4.3 下游任务:蛋白质工程任务
数据集和指标。 蛋白质工程被认为是一个序列回归任务, 给定一个蛋白质,需要模型来识别功能强 度,通常称为适应度景观。在这里, 我们使用来自 T AP E ( Ra o 等人, 2019)和 F LIP ( D allago 等人, 2021)的五个数据集(稳定性、荧光性、热稳定性、AAV 和 GB1 )来评估该模型是否可以对这些功能进行准确的定量预测。我们报告了常用的斯皮尔曼 ρ (秩相关系数)来衡量景观被学习的程度。 FLIP 上其他任务的结果可以在附录 5 中找到。
基线。 对于没有 3D 结构的蛋白质, 几何方法不能直接应用于这些任务。我们选择基于序列的方法(C N N、 LS T M 、T ra nsfo r me r)和预训练的蛋白质方法(ES M -1b、ES M -1 v ( M eier et al., 202 1)、 P rotein Bert - BF D、 LS T M- M T )作为蛋白质工程任务的基线。由于 Dalla go 等人(2 02 1)声称各种池化选择在数据集和分裂之间的表现不一致,为了公平的比较, 我们使用平均池化方法来获得蛋白质表示。
结 果。从表 2 中,我们观察到
PromptProtein 获得了更好的结果
性 能 优 于所 有 基 线 。 这 证 实 了结构 目 标 的预 训 练 有 助 于 蛋 白 质工程 任 务 , 蛋 白 质 多 层 次 结 构 的系统 建 模 导致 进 一 步 的 改 进 。 请注意, LS T M - MT 利用三级结 构信息来增强蛋白质表征,不能超过 ES M-1b
方法 GB1AAV热常规的材料0.2380.5250.651PromptProte in0.2790.5440.672-注意力面具0.2640.5310.663-层跳0.2700.5200.659-传销目标0.2400.4930.629- CRD 目标0.2620.5350.647- ppi 目标0.2530.5320.654
|
表 3:不同成分 PromptProtein 的消融。
在所有数据集 上, 而我 们提出的 方法获得 了更优越 的性能。 这一观察 表明, 并 不是所有 的结构信息都会导致正迁移, 灵活利用结构信息是提高性能的关键。此外,与 AAV 和 G B1 数据集相比,Pro m pt P rote in 在低资源设置下平均可以获得 1 7.0 % 的改进
图 4: 跳 过 连 接 可 视 化 和 提 示 关 联 。 (a) 我 们 将 所 有 神 经 层 的 学 习 跳 跃 权 值 可 视 化。 块 的 暗 度 代 表 了 给 定 提 示 所 使 用 的 块 的 权 重。(b)我们提供跳跃权值之间的 P earson 相关性。[M L M]提示符与其他两个提示符之间的跳过模式呈负相关 , 而三级和四级结构之间的模式呈正相关
到执行良好的 PTPM 基线。这些结果表明,提示引导 PTPM 是一种较好的短时学习方法。
4.4 消融研究
进行消融研究是为了验证 P rom pt P rotein 中设计模块的有效性, 即提示、注意屏蔽或跳过连接。如表 3 所示,如果任何一个模块缺失, 性能都会衰减,这表明所有模块都是有利的。此外, 我们注意到跳过连接对性能的贡献最大,这证实了减少任务干扰的必要性。
4.5 分析与讨论
提示如何决定结构信息的处理路径?
在图 4(a )中,我们可视化了三个预训练提示在不同神经层的跳过权值,并计算这些跳过权值的 P earso n’ s 相关性(Ben esty et al., 2009 ), 以衡量预训练任务之间的相互相关性(图 4(b))。我们有以下关键的观察结果。(a )所有提示的底层(1-13)的跳过权值相似, 表明所有三个任务都由这些层处理。传销任务信息主要由中间层获取(14-29),而 CRD 和 PPI 信息主要由顶层获取(30-33)。(b )我们清楚地观察到[CR D]和[P P I]提示的相关性更强。这与直觉一致,即三级和四级是三维结构,其氨基酸参与空间相邻的邻居, 导致类似的跳过重量模式。对模型层的进一步分析可以在附录B.3 中找到。
PromptPro tein 能 学习多层次结构吗?
为了检验提示引导的预训练是否可以学习多个结构信息, 我们进行了实验, 以可视化不同预训练提示标记条件下的蛋白质表征。我们使用 t-S N E (v an d er M aaten & Hinton, 2 008) 来降低嵌入的维数。图 5(a)说明了以[M L M]为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入是根据它们的类型进行分组的。图 5(b)显示了在[CR D]条件下的氨基酸层理。我们发现氨基酸沿着它们在蛋白质中的序列在二维空间中线性排列。为了获得表征和结构之间更准确的关系,我们比较了蛋白质接触图和嵌入坐标。它们之间的强相关性表明 CR D 物镜可以有效地学习蛋白质三维结构的信息。在图 5(c)中, 我们使用传统的多任务预训练可视化了氨基酸嵌入, 并突出显示了丝氨酸(一类氨基酸)。嵌入试图同时合并多个结构特征,这导致了不清晰的模式。这些结果表明, 提示引导的预训练减轻了任务干扰,并允许多个结构信息被很好地学习,从而产生了令人满意的性能。