通过提示学习进行多级蛋白质结构预训练-摩杜云开发者社区

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING

通过提示学习进行多级蛋白质结构预训练

期刊：ICLR2023
作者：浙江大学团队

背景

蛋白质可以关注不同的结构水平来实现其功能。蛋白质结构有四个不同的层次，第一级是由氨基酸组成的蛋白质序列，第二级是指局部折叠结构，第三季描述自然折叠的三维结构，第四级是由多个氨基酸组成的蛋白质聚体。

大多数现有的功能预测方法都采用一级或三级结构作为输入，无意中忽略了蛋白质结构的其他级别。

相关工作

Protein Representation Models（从一级结构出发）

●Asgari& Mofrad (2015); Yang et al. (2018) apply word embedding algorithms to obtain protein representations.

● Dalkiran et al. (2018); Ozturk et al. (2018) use one-dimensional convolutional neural networks to predict the functions.

● Alley et al. (2019); Elnaggar et al.(2021); Rives et al. (2021) explore whether the pre-training and fine-tuning paradigm, the transformer architectures, and the objective functions can effectively transfer from natural languages to proteins.

●Zhang et al. (2021) align the amino acid sequence and the text sequence to obtain informative protein representation.

Protein Representation Models（从三级结构出发）

●Hermosilla et al. (2020); Somnath et al.(2021); Ganea et al. (2021); Zhang et al. (2022) 构建蛋白质图并利用消息传递神经网络来生成结构感知表示。

●Bepler & Berger (2021)采用接触图预测和结构相似性预测来预训练蛋白质模型。

缺陷：

少有工作使用四级结构来丰富蛋白质表征。

两个挑战：

how to design proper pre-training tasks for different protein structures?

how to efficiently integrate these tasks in the pre-training phase and transfer the implicit protein structure knowledge for function prediction in fine-tuning phase？

作者工作

●提出了一种新的提示引导的多任务预训练和微调框架。

●通过提示引导的多任务预训练，我们学习多个提示信号来引导模型（称为 PromptProtein）专注于不同级别的结构。

●设计了一个即时微调模块，为下游任务提供利用各个级别的结构信息的按需灵活性。功能预测和蛋白质工程方面的大量实验表明

●这是第一个基于提示的预训练蛋白质模型。

The architecture overview of PromptProtein

MASLSCV[MASKJDKMVVTMASLSCVSDKMVVTPROMPT-AWAREFITNESSPREDICTIONLPHA-CARBONARAMETERSTABILITYPREDICTIONPROMPT-AWARENCTIONANNOTATIORPROMPTPOOLLNTERACTIONMASKLANGUAGE[MLM][CRD]TRANSFOMERTRANSFOMERPREDICTION夏MODELINGCOMPOSEDDIVERSEPREDICTIONASLSCVMASKLDPROMPTO(.)SHARING[PPI]TASKSRP个QHP(ARFS

通过提示学习进行多级蛋白质结构预训练_二级

SHIFTEDRIGHT)PROBABILITIESADD&NORMMULTI-HEADPOSITIONALADD&NORMPOSITIONALMULTI-HEADADD&NORMMULTI-HEADOUTPUTSENCODINGMASKEDATTENTIONFORWARDEMBEDDINGOUTPUTEMBEDDINGADD&NORMLNPUTSATTENTIONENCODINGADD&NORMFONWARDOUTPUTSOFTMAXATTENTIONLINEARNXNXFEEDINPUTFEED

通过提示学习进行多级蛋白质结构预训练_多任务_02

方法

PROMPT-AWARE ATTENTION MODULE

Attention mask

SKIPCONNECTIONATTENTIONMASK0123PSOFTMAXSCALEMATMUL一MATMULLINEARLINEARLINEAR9P03012A090P88

通过提示学习进行多级蛋白质结构预训练_ci_03

EPANDEAM三1.OTHERS

通过提示学习进行多级蛋白质结构预训练_ci_04

Skip connection

)ATTN(HS),H9十(1-万(+1)(2)一9%N分

通过提示学习进行多级蛋白质结构预训练_ci_05

PROTEIN MULTI-LEVEL STRUCTURES LEARNING

为了获取多层次的蛋白质结构信息，本文考虑了三个互补的预训练任务

Masked language modeling

此任务使用所有可用的氨基酸标记来恢复屏蔽的氨基酸标记；

NEPEXPPUHPGMX(HP)=-LOGG(GHP)A(GHP)三EXPPYHP)GY(3)

通过提示学习进行多级蛋白质结构预训练_ci_06

Alpha-Carbon Coordinate Prediction（α-碳坐标预测）

二级结构可以从蛋白质 3D 坐标推断出来，因此我们使用 α-C 坐标预测任务来学习二级和三级结构

CCAP(HN)=MISE(Z,KABSH(R(HP))).4)

通过提示学习进行多级蛋白质结构预训练_ci_07

Protein-Protein Interaction prediction（蛋白质相互作用预测）

预测第 m 个和第 n 个蛋白质是否可以在批量数据中相互作用

CE(GMN,P(UMN)HRM),MEAN(ATTNMNHN)),HEW(HEW)TAN(ATTN.NHPLNCPPI(HP-SIGMOIDATTNM.NM.NEN5)MEMEAN工D

通过提示学习进行多级蛋白质结构预训练_二级_08

KABSHROTATION工GROUND-TRUTHSTRUCTUREOOOOCPREDICTEDSTRUCTUREPAIRATTENTIONREPRESENTATIONLIPPI]PROTEINSPROJECTION[CRDRF5PROTEINPAIR-AWARELINEARO

通过提示学习进行多级蛋白质结构预训练_多任务_09

PROMPT-GUIDED MULTI-TASK PRE-TRAINING AND FINE-TUNING

对应三个预训练任务，提示可以实例化为三个token之一：MLM,CRD,PPIPEPE

通过提示学习进行多级蛋白质结构预训练_多任务_10

提示引导的多任务预训练的目标函数可以表示为：

C=A1CMMHMM十C3CPPR(HIPPRL).十A2CCRDH[CRD6)

通过提示学习进行多级蛋白质结构预训练_ci_11

当我们预训练具有多个任务的模型（如公式 6）时，模型参数 ψ 和提示 p 都得到优化。这样，模型不一定需要学习所有任务的最优表示，而只需要学习每个任务各自的最优表示。

DATA:INPUTPROTEINR,PROMPTPOOLPEP={MLM],CRDPPI,TASKOBJECTIVESCPTETHEMODELPARAMETERS/=少->(AP.(VTLP)ACCORALGORITHML:PROMPT-GUIDEDMULTI-TASKPRE-TRAININGCOMPUTETHELOSSCN(HN)ACCORDINGTOEQUATION3,4OR5//FCONTAINLLAYERSPROMPT-AWAREATTENTIONMODULEPDATETHEPROMPTPARAMETERSPEP-APVPLPLNITIALIZETHETASK-SPECIFCINPUTPE3PRESULT:MODELPARAMETERSCOMPUTETHEFEATUREHNEFA(NWHILENOTCONVERGEDOFORPEPDOTHELEARNNGRATEC.ENDFORENDWHILE

通过提示学习进行多级蛋白质结构预训练_多任务_12

LEAMEDPROMPTPOOLP=MLMCRD,PPI,PRE-TRAINEDMODELPARAMETERS,UPDATETHEPROMPT-TUNINGMODULEPARAMETERS0=F-VELPDATA:INPUTPROTEIN,DOWNSTREAMTASKOBJECTLPALGORITHM2:PROMPT-GUIDEDFINE-TUNINGUTECOMBINEDPROMPTPETE(PARESULT:PROMPT-TUNINGMODULEPARAMETERS0.OMPUTETHEIOSSCMELP(HMCOMPUTETHEFEATUREHPEF(WPNITIALIZETHEINPUTMEWPWHIENOTCONVERGEDOTHELEARMINGRATEC.ENDWHILE

通过提示学习进行多级蛋白质结构预训练_ci_13

结果与分析

PRE-TRAINING SETUP

对于一级结构，我们使用 UniRef50，它是具有 50% 序列同一性的 UniRef90 种子序列的聚类。对于二级和三级结构信息，我们使用蛋白质数据库（PDB），其中包括通过实验方法获得的200,000个蛋白质3D结构。对于四级结构信息，我们使用包含氨基酸序列和蛋白质蛋白质相互作用对的 STRING 数据集。在 STRING 数据集中，蛋白质相互作用分为 7 类。我们从 STRING 中选择了纯物理相互作用子集，其中包含来自 14,095 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质-蛋白质相互作用对。

DOWNSTREAM TASK DATASETS

ABLE4:STATISTICSOFTHEDOWNSTREAMDATASETS.ENZYMECOMMISSIONGB1(1-VS-RESTGENEONTOLOGCLASSIFICATIONFLUORESCENCETHERMOSTABILITYCLASSIFICATIONGB12-VS-REST)AAV1-VS-RESTREGRESSIONREGRESSION53.679REGRESSION#VALIDATIONREGRESSION27.217REGRESSION21.446REGRESSION81.413#TESTREGRESSION24.81712.8395.36229.902STABILITYDATASET3.323SABDAB2.447TRAIN3.314TASK8.3061.1708.7041.7291.9194515.551273.416992948

通过提示学习进行多级蛋白质结构预训练_ci_14

Model performance on EC numbers and GO terms prediction tasks

通过提示学习进行多级蛋白质结构预训练_二级_15

How do prompts determine the processing pathways of structural information?

在图 4(a) 中，可视化了不同神经层的三个预训练提示的跳跃权重，并计算这些跳跃权重的 Pearson 相关性

(A)CONNECTIONSKIPVISUALIZATION(B)PROMPTCORRELATION[CRD]-0.4[PP-O.7[PP]-0.40.0[MLM[CRD.70.81.21.01.01.00.71.0301.03310200.90.8

通过提示学习进行多级蛋白质结构预训练_多任务_16

Can PromptProtein learn multi-level structures?

图 5(a) 说明了以 [MLM] 为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入根据其类型进行分组

图 5(b) 说明了以 [CRD] 为条件的氨基酸嵌入。我们发现氨基酸沿着蛋白质中的序列在二维空间中线性排列。为了获得表示和结构之间更准确的关系，我们比较了蛋白质接触图和嵌入的坐标。它们之间的强相关性表明 CRD 目标可以有效地了解蛋白质 3D 结构的信息。

在图 5(c) 中，我们通过传统的多任务预训练可视化氨基酸嵌入，并突出显示丝氨酸（一类氨基酸）。嵌入尝试同时合并多个结构特征，这导致模式不清晰。

RD]GUIDEDEMBEDDINGWITHOUTPROMPT-GUIDEDEMBEDDINGMLM]GUIDEDEMBEDDINGHYDROPHOBLCALPHATICCHAROEDACIDICCHARGEDACIDICALPHA-HELIXDISOBETA-SHEECHARGEDBASIC(C)DNN5皇号(BVVORDER(A)FLUNIQUE1QOYDDRPTVWWYY

通过提示学习进行多级蛋白质结构预训练_二级_17

Do downstream tasks benefit from the acquired information on-demand by prompt tuning?

为了进一步分析提示引导微调的重要性，作者对 SAbDab 数据集上的结合亲和力预测任务进行了消融研究。

BINDINGAFFINITYPREDICTIONTASK(SABDAB)PPI+CRDMLM+CRDMLM+PPIALL0.520.62.580.50NONE0.56MLMPPL0.54CRD0.60

通过提示学习进行多级蛋白质结构预训练_二级_18

这些结果证明，并非预训练中的所有结构信息都对下游任务有益，并且通过即时调整自适应地组合获取的信息可以带来更好的性能。

结论

在本文中，我们将提示的概念从 NLP 扩展到蛋白质表示。我们提出了即时引导的多任务预训练和微调框架。通过这个框架，我们提出了三种互补的预训练结构来获取多层次的结构信息，并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明，与传统的 PTPM 相比，所提出的方法可以产生令人满意的改进。

若有收获，就点个赞吧