通过提示学习进行多级蛋白质结构预训练
  24eTNZKd6a8S 2023年12月10日 16 0

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING

通过提示学习进行多级蛋白质结构预训练

期刊:ICLR2023
作者:浙江大学团队

背景

蛋白质可以关注不同的结构水平来实现其功能。 蛋白质结构有四个不同的层次,第一级是由氨基酸组成的蛋白质序列,第二级是指局部折叠结构,第三季描述自然折叠的三维结构,第四级是由多个氨基酸组成的蛋白质聚体。

大多数现有的功能预测方法都采用一级或三级结构作为输入,无意中忽略了蛋白质结构的其他级别。


相关工作

Protein Representation Models(从一级结构出发)

Asgari& Mofrad (2015); Yang et al. (2018) apply word embedding algorithms to obtain protein representations.

Dalkiran et al. (2018); Ozturk et al. (2018) use one-dimensional convolutional neural networks to predict the functions.

Alley et al. (2019); Elnaggar et al.(2021); Rives et al. (2021) explore whether the pre-training and fine-tuning paradigm, the transformer architectures, and the objective functions can effectively transfer from natural languages to proteins.

Zhang et al. (2021) align the amino acid sequence and the text sequence to obtain informative protein representation.

Protein Representation Models(从三级结构出发)

Hermosilla et al. (2020); Somnath et al.(2021); Ganea et al. (2021); Zhang et al. (2022) 构建蛋白质图并利用消息传递神经网络来生成结构感知表示。

Bepler & Berger (2021)采用接触图预测和结构相似性预测来预训练蛋白质模型。

缺陷:

少有工作使用四级结构来丰富蛋白质表征。



两个挑战:

how to design proper pre-training tasks for different protein structures?


how to efficiently integrate these tasks in the pre-training phase and transfer the implicit protein structure knowledge for function prediction in fine-tuning phase?


作者工作

提出了一种新的提示引导的多任务预训练和微调框架。

通过提示引导的多任务预训练,我们学习多个提示信号来引导模型(称为 PromptProtein)专注于不同级别的结构。

设计了一个即时微调模块,为下游任务提供利用各个级别的结构信息的按需灵活性。功能预测和蛋白质工程方面的大量实验表明

这是第一个基于提示的预训练蛋白质模型。


The architecture overview of PromptProtein

MASLSCV[MASKJDKMVVTMASLSCVSDKMVVTPROMPT-AWAREFITNESSPREDICTIONLPHA-CARBONARAMETERSTABILITYPREDICTIONPROMPT-AWARENCTIONANNOTATIORPROMPTPOOLLNTERACTIONMASKLANGUAGE[MLM][CRD]TRANSFOMERTRANSFOMERPREDICTION夏MODELINGCOMPOSEDDIVERSEPREDICTIONASLSCVMASKLDPROMPTO(.)SHARING[PPI]TASKSRP个QHP(ARFS

通过提示学习进行多级蛋白质结构预训练_二级


SHIFTEDRIGHT)PROBABILITIESADD&NORMMULTI-HEADPOSITIONALADD&NORMPOSITIONALMULTI-HEADADD&NORMMULTI-HEADOUTPUTSENCODINGMASKEDATTENTIONFORWARDEMBEDDINGOUTPUTEMBEDDINGADD&NORMLNPUTSATTENTIONENCODINGADD&NORMFONWARDOUTPUTSOFTMAXATTENTIONLINEARNXNXFEEDINPUTFEED

通过提示学习进行多级蛋白质结构预训练_多任务_02



方法

PROMPT-AWARE ATTENTION MODULE

Attention mask

SKIPCONNECTIONATTENTIONMASK0123PSOFTMAXSCALEMATMUL一MATMULLINEARLINEARLINEAR9P03012A090P88

通过提示学习进行多级蛋白质结构预训练_ci_03


EPANDEAM三1.OTHERS

通过提示学习进行多级蛋白质结构预训练_ci_04


Skip connection

)ATTN(HS),H9十(1-万(+1)(2)一9%N分

通过提示学习进行多级蛋白质结构预训练_ci_05



PROTEIN MULTI-LEVEL STRUCTURES LEARNING

为了获取多层次的蛋白质结构信息,本文考虑了三个互补的预训练任务

Masked language modeling

此任务使用所有可用的氨基酸标记来恢复屏蔽的氨基酸标记;

NEPEXPPUHPGMX(HP)=-LOGG(GHP)A(GHP)三EXPPYHP)GY(3)

通过提示学习进行多级蛋白质结构预训练_ci_06


Alpha-Carbon Coordinate Prediction(α-碳坐标预测)

二级结构可以从蛋白质 3D 坐标推断出来,因此我们使用 α-C 坐标预测任务来学习二级和三级结构

CCAP(HN)=MISE(Z,KABSH(R(HP))).4)

通过提示学习进行多级蛋白质结构预训练_ci_07


Protein-Protein Interaction prediction(蛋白质相互作用预测)

预测第 m 个和第 n 个蛋白质是否可以在批量数据中相互作用

CE(GMN,P(UMN)HRM),MEAN(ATTNMNHN)),HEW(HEW)TAN(ATTN.NHPLNCPPI(HP-SIGMOIDATTNM.NM.NEN5)MEMEAN工D

通过提示学习进行多级蛋白质结构预训练_二级_08


KABSHROTATION工GROUND-TRUTHSTRUCTUREOOOOCPREDICTEDSTRUCTUREPAIRATTENTIONREPRESENTATIONLIPPI]PROTEINSPROJECTION[CRDRF5PROTEINPAIR-AWARELINEARO

通过提示学习进行多级蛋白质结构预训练_多任务_09



PROMPT-GUIDED MULTI-TASK PRE-TRAINING AND FINE-TUNING

对应三个预训练任务,提示可以实例化为三个token之一:MLM,CRD,PPIPEPE

通过提示学习进行多级蛋白质结构预训练_多任务_10


提示引导的多任务预训练的目标函数可以表示为:

C=A1CMMHMM十C3CPPR(HIPPRL).十A2CCRDH[CRD6)

通过提示学习进行多级蛋白质结构预训练_ci_11


当我们预训练具有多个任务的模型(如公式 6)时,模型参数 ψ 和提示 p 都得到优化。这样,模型不一定需要学习所有任务的最优表示,而只需要学习每个任务各自的最优表示。


DATA:INPUTPROTEINR,PROMPTPOOLPEP={MLM],CRDPPI,TASKOBJECTIVESCPTETHEMODELPARAMETERS/=少->(AP.(VTLP)ACCORALGORITHML:PROMPT-GUIDEDMULTI-TASKPRE-TRAININGCOMPUTETHELOSSCN(HN)ACCORDINGTOEQUATION3,4OR5//FCONTAINLLAYERSPROMPT-AWAREATTENTIONMODULEPDATETHEPROMPTPARAMETERSPEP-APVPLPLNITIALIZETHETASK-SPECIFCINPUTPE3PRESULT:MODELPARAMETERSCOMPUTETHEFEATUREHNEFA(NWHILENOTCONVERGEDOFORPEPDOTHELEARNNGRATEC.ENDFORENDWHILE

通过提示学习进行多级蛋白质结构预训练_多任务_12



LEAMEDPROMPTPOOLP=MLMCRD,PPI,PRE-TRAINEDMODELPARAMETERS,UPDATETHEPROMPT-TUNINGMODULEPARAMETERS0=F-VELPDATA:INPUTPROTEIN,DOWNSTREAMTASKOBJECTLPALGORITHM2:PROMPT-GUIDEDFINE-TUNINGUTECOMBINEDPROMPTPETE(PARESULT:PROMPT-TUNINGMODULEPARAMETERS0.OMPUTETHEIOSSCMELP(HMCOMPUTETHEFEATUREHPEF(WPNITIALIZETHEINPUTMEWPWHIENOTCONVERGEDOTHELEARMINGRATEC.ENDWHILE

通过提示学习进行多级蛋白质结构预训练_ci_13


结果与分析

PRE-TRAINING SETUP

对于一级结构,我们使用 UniRef50,它是具有 50% 序列同一性的 UniRef90 种子序列的聚类。对于二级和三级结构信息,我们使用蛋白质数据库(PDB),其中包括通过实验方法获得的200,000个蛋白质3D结构。对于四级结构信息,我们使用包含氨基酸序列和蛋白质蛋白质相互作用对的 STRING 数据集。在 STRING 数据集中,蛋白质相互作用分为 7 类。我们从 STRING 中选择了纯物理相互作用子集,其中包含来自 14,095 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质-蛋白质相互作用对。


DOWNSTREAM TASK DATASETS

ABLE4:STATISTICSOFTHEDOWNSTREAMDATASETS.ENZYMECOMMISSIONGB1(1-VS-RESTGENEONTOLOGCLASSIFICATIONFLUORESCENCETHERMOSTABILITYCLASSIFICATIONGB12-VS-REST)AAV1-VS-RESTREGRESSIONREGRESSION53.679REGRESSION#VALIDATIONREGRESSION27.217REGRESSION21.446REGRESSION81.413#TESTREGRESSION24.81712.8395.36229.902STABILITYDATASET3.323SABDAB2.447TRAIN3.314TASK8.3061.1708.7041.7291.9194515.551273.416992948

通过提示学习进行多级蛋白质结构预训练_ci_14



Model performance on EC numbers and GO terms prediction tasks

通过提示学习进行多级蛋白质结构预训练_二级_15




How do prompts determine the processing pathways of structural information?

在图 4(a) 中,可视化了不同神经层的三个预训练提示的跳跃权重,并计算这些跳跃权重的 Pearson 相关性

(A)CONNECTIONSKIPVISUALIZATION(B)PROMPTCORRELATION[CRD]-0.4[PP-O.7[PP]-0.40.0[MLM[CRD.70.81.21.01.01.00.71.0301.03310200.90.8

通过提示学习进行多级蛋白质结构预训练_多任务_16


Can PromptProtein learn multi-level structures?

图 5(a) 说明了以 [MLM] 为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入根据其类型进行分组

图 5(b) 说明了以 [CRD] 为条件的氨基酸嵌入。我们发现氨基酸沿着蛋白质中的序列在二维空间中线性排列。为了获得表示和结构之间更准确的关系,我们比较了蛋白质接触图和嵌入的坐标。它们之间的强相关性表明 CRD 目标可以有效地了解蛋白质 3D 结构的信息。

在图 5(c) 中,我们通过传统的多任务预训练可视化氨基酸嵌入,并突出显示丝氨酸(一类氨基酸)。嵌入尝试同时合并多个结构特征,这导致模式不清晰。

RD]GUIDEDEMBEDDINGWITHOUTPROMPT-GUIDEDEMBEDDINGMLM]GUIDEDEMBEDDINGHYDROPHOBLCALPHATICCHAROEDACIDICCHARGEDACIDICALPHA-HELIXDISOBETA-SHEECHARGEDBASIC(C)DNN5皇号(BVVORDER(A)FLUNIQUE1QOYDDRPTVWWYY

通过提示学习进行多级蛋白质结构预训练_二级_17



Do downstream tasks benefit from the acquired information on-demand by prompt tuning?

为了进一步分析提示引导微调的重要性,作者对 SAbDab 数据集上的结合亲和力预测任务进行了消融研究。

BINDINGAFFINITYPREDICTIONTASK(SABDAB)PPI+CRDMLM+CRDMLM+PPIALL0.520.62.580.50NONE0.56MLMPPL0.54CRD0.60

通过提示学习进行多级蛋白质结构预训练_二级_18


这些结果证明,并非预训练中的所有结构信息都对下游任务有益,并且通过即时调整自适应地组合获取的信息可以带来更好的性能。



结论

在本文中,我们将提示的概念从 NLP 扩展到蛋白质表示。我们提出了即时引导的多任务预训练和微调框架。通过这个框架,我们提出了三种互补的预训练结构来获取多层次的结构信息,并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明,与传统的 PTPM 相比,所提出的方法可以产生令人满意的改进。



【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月10日 0

暂无评论

推荐阅读
24eTNZKd6a8S