论文解读:BERT2OME:基于BERT的变压器结构预测RNA序列中的2 '-O-甲基化修饰
  24eTNZKd6a8S 2023年11月02日 33 0

期刊:IEEE/ACM Transactions on Computational Biology and Bioinformatic

分区:3区

摘要

-最近在语言模型方面的工作已经在各种语言任务上取得了最先进的表现。其中,来自Transformers (BERT)的双向编码器表示专注于单词嵌入的语境化,以提取单词的语境和语义。另一方面,转录后2 '-O-甲基化(Nm) RNA修饰在各种细胞任务中具有重要意义,并与许多疾病相关。现有的高通量实验技术需要更长的时间来检测这些变化,探索这些功能过程的成本也更高。在这里,为了更快地深入了解相关的生物学过程,我们提出了一种有效的方法BERT2OME来从RNA序列中推断2 '-O-甲基化RNA修饰位点。BERT2OME将基于BERT的模型与卷积神经网络(CNN)相结合,来推断修饰位点与RNA序列含量之间的关系。与到目前为止提出的方法不同,BERT2OME将每个给定的RNA序列假定为一个文本,并通过集成经过预处理的基于深度学习的语言模型BERT,专注于提高修饰预测性能。此外,我们基于变压器的方法可以推断跨多个物种的修饰位点。根据5倍交叉验证,人和小鼠的准确率分别为99.15%和94.35%。同样,同一物种的ROC AUC评分为0.99±0.94。详细的结果表明,BERT2OME减少了生物实验中消耗的时间,并且在多个指标上优于现有的跨不同数据集和物种的方法。此外,深度学习方法,如2D中枢神经系统在学习伯特属性方面比更传统的机器学习方法更有前景。我们的代码和数据集可在以下网址找到https://github.com/seferlab/bertome.

索引术语-2 '-O-甲基化,RNA,BERT,回旋神经网络,变形金刚 ✦

1 介绍

转录后RNA修饰几乎有160种类型。一些常见的例子是2'-O- 甲基化,m1a,m6a[1].这些RNA修饰是 在不同的细胞任务中很重要,并且与许多疾病有关[1],[2],[3],[4],[5],[6].在这些转录后RNA修饰中,2 '-O-甲基化是通过2 '-O-甲基转移酶进行的,其中enyzme通过甲基取代2 '-羟基上的氢原[7].在mRNA、tRNA、miRNA等不同RNA中观察到2 '-O-甲基化(Nm)[8], [9], [10]以及跨越许多物种如智人和小家鼠[11].纳米修饰在不同的生物机制中具有重要作用[12],[13],[14]包括基因表达的调节,其效果根据RNA类型而变化[11]. 例如,在信使RNA中,核糖体中的2 '-O-甲基化对区分非自身和自身mRNA有影响[15],[16].另一方面,对于核糖体RNA,核糖体的功能和相关形状受核糖体周围Nm修饰富集程度的影响。此外,一些疾病如肺腺癌,

已发现肝细胞癌、先天性肌营养不良与2’-O-甲基化相关[17].已经开发了许多实验方法来推断额外的Nm修饰,并相关地理解进一步的生物学功能。一些众所周知的例子是基于PCR的方法、基于逆转录的方法[18], 和基于核糖核酸的方法[19].然而,花费非常长的时间是所有这些实验技术的一个共同缺点。未来,多种物种的可用RNA序列数据集的数量将会增加,因为现有测序技术将继续应用,新的测序技术将被开发。因此,关键是要想出有效和稳健的方法来推断不同物种中给定序列的2 '-O-甲基化修饰位置。 已经实现了几种计算工具来从RNA序列预测RNA 2 '-O-甲基化修饰位点,而无需进行昂贵的生物学实验。[20]利用支持向量机(SVM)利用核苷酸组成属性编码和核苷酸化学特征进行预测位点识别。他们的工作仅基于人类数据构建预测方法,并未显示剩余物种的Nm位点分类结果。[21] 已经提出了iRNA- 2OM,这是一种基于SVM的分类器,基于序列来预测只针对人类的Nm修饰位点。他们应用属性选择方法来获得最佳属性

用于分类,同时主要融合核苷酸组成和化学属性。最近,[22] 开发了NmRF来预测包括人、酵母和小鼠在内的多种物种的RNA Nm修饰位点。NmRF使用与内部特征选择集成的光梯度增强机器,然后预测Nm调制点。此外,与上述基于机器学习的分类器不同,还构建了基于深度学习的方法来预测Nm修饰位点,如iRNA-PSE knc(2-甲基)[23] 深刻而深刻[24].这两项研究也集中在预测仅针对人类的修饰位点。DeepOMe提出了一种结合双向长短期记忆(BiLSTM)和中枢神经系统(CNNs)的混合方法。最近,[25]开发了NmSEER2.0来预测各种人类基因组的修饰位点。NmSEER2.0使用随机森林(RF),同时使用混合编码方案,如K-核苷酸频率编码、位置特异性二核苷酸序列概况和一热编码。尽管NmSEER2.0的表现相当准确,但它依靠人来推断RNA的Nm修饰位置。所有这些现有方法的共同之处在于,它们没有将背景嵌入(如BERT)整合到它们的2 '-O-甲基化修饰位点预测框架中。因此,他们没有充分利用转录组中的知识进行Nm位点预测。此外,它们大多基于传统的机器学习(ML)技术,在生物信息学的许多任务中,这些技术已经被更深入的方法显著地超越[26],[27], [28], [29]. [30]最近应用了基于深度学习的技术来更好地表示m6A中的上下文化序列 修改预测。我们的工作在四个方面不同于他们的学习:1-[30] 专注于预测RNA N6-甲基腺苷酸位点,而我们专注于预测2'-O-甲基化修饰位点,2-我们已应用BERT提取用于预测的基于嵌入的上下文化特征编码,而他们利用ELMo,3-我们评估了我们的方法在平衡和更实际的不平衡数据集上的性能,而他们只专注于平衡数据集,4-他们在ELMo嵌入后的预测模型非常深入,有许多参数(CNN和BiLSTMs的组合数),考虑到它们相对较小的数据集,可能会超过它。然而,我们的预测方法是更简单的深度学习方法,从结果中可以看出,这种方法不会过度收敛。 根据最近的研究,基于深度学习的方法在多项任务中表现得相当准确,包括顺序的生物学数据,如抗药物鉴定[31],电子输运原理的推论[32], 和预测蛋白质注释[33], [34], [35].此外,我们可以将基因组序列(如RNA序列)视为文本知识,因此这些序列与人类语言有着非常相似的地方。因此,最近更深入的自然语言处理(NLP)方法在学习文本生物数据集上的实用和便捷属性时取得了良好的效果。在这种情况下,我们可以通过将嵌入方法集成到深度学习中来有效地提取和表示生物序列属性。 转换和推断语境关系是-

通过采用现在在自然语言处理任务中经常使用的单词嵌入方法,可以实现RNA和氨基酸序列之间的转换[36].作为一个例子,[37] 针对基因和蛋白质序列分别提出了GeneVec和ProtVec方法来提取和表示属性。同样,用于NLP的fastText方法已用于表示各种类型的序列,如启动子和DNA增强子[38]. 此外,[39]专注于将另一种NLP模型ELMo应用于蛋白质序列的表示。他们的结果表明了迁移学习从蛋白质序列中推断知识的重要性。在他们的研究中,蛋白质序列被表示为连续的载体,定义了一种新的序列特异性语言模型,该模型可以有效地发现非标记数据集(如UniRef50)上的蛋白质序列生物物理属性。[40]使用了CNN-BiLSTM模型,该模型结合了深度学习方法,在识别氨基酸序列上下文关系的同时,实现了比常规模型更好的功能。最后,[41]提出了基于变压器的架构,使用BERT从DNA序列中识别DNA中的增强子。 基于以上研究,深入神经网络 方法侧重于嵌入方法,在解释RNA序列知识以预测Nm修饰位点方面有巨大的潜力。此外,上述大多数研究通过忽略每个单词周围的上下文,将静态单词嵌入整合到各种生物信息任务中。在静态嵌入中,流行的方法如fastText或Word2Vec[42] 在不考虑上下文的情况下,获得识别词的相同嵌入。一旦语言模型从段落或句子语境中推断出额外的信息,习得的嵌入质量就会提高。通过使用这种非静态的上下文嵌入思想,我们提出了BERT 2方法来预测RNA序列中的Nm修饰位点,该方法基于transformer(BERT)的双向编码器表示[43]语言模型,它可以从左右两个语境中学习单词表示。一般来说,人们可以从庞大的文本语料库中转移提取的信息,在相同或不同的领域用较小的数据集执行任务。在这项工作中,我们集中于利用BERT的预处理模型的两个主要优势:1-BERT训练中使用的大量训练数据,2-从自然语言文本到核糖核酸语言的领域变化。在BERT2OME中,我们使用RNA片段作为输入语言来预处理BERT模型,其中BERT输出的数值向量嵌入捕获了与hu- man语言的意义、语法和上下文相同的所需知识。然后,我们将这个高维嵌入数据集馈入一个经过充分研究的深层神经网络,二维卷积神经网络(CNN),用于提取附加属性。据我们所知,这是第一项整合较新的深度学习模型(如BERT和CNN)来推断RNA 2 '-O-甲基化的研究。 核糖核酸序列上的修饰位点。 我们试验了从SVM到二维卷积神经网络的各种机器学习和深度学习方法,以充分利用BERT嵌入。其中,我们发现二维卷积神经网络表现最好,这就是为什么

BERT2OME在其设计中包含了二维卷积神经网络。在我们的研究中,我们使用了人、酵母和小鼠的RNA 2'-O-甲基化修饰位点数据集。此外,我们还推断了多个物种的修饰位点:通过用一个物种训练BERT2OME,并预测另一个物种的修饰位点。 根据5倍交叉验证,人、小鼠和酵母的准确率分别为99.15%、94.35%、97.37%。 同样,ROC AUC评分为0.999、0.9375和0.9783 对于同一物种。预测性能仍然 在跨物种预测时合理:当我们用人RNA数据集训练BERT2OME时,我们可以预测小鼠和酵母的修饰位点,有88.6%和 准确率分别为53.7%。另一方面,当我们 用酵母构建我们的模型,预测准确率为 Nm修饰位点较低。这种较低的性能可能是由于我们有一个更大的人类数据集,其中包含了更详细和准确的序列知识。因此,这种更大的人类数据集将更有效地预测跨物种的2 '-O-甲基化修饰位点。详细的结果表明,BERT2OME减少了生物实验中所消耗的时间,并且在多个指标上优于不同数据集和物种的现有方法。 总的来说,我们的贡献可以总结如下:1-据我们所知,这是第一项将最先进的背景下RNA序列的BERT嵌入整合到Nm修饰位点预测中的研究,2-我们提出的方法BERT2OME优于现有的方法,3-我们表明Nm修饰位点可以通过对一个物种进行训练和对另一个物种进行预测来预测,4-详细的实验表明,与其他更传统的机器学习方法相比,基于深度学习的方法在利用BERT属性方面具有更好的潜力。

2 材料与方法

2.1 数据集集合

我们从RMBase数据库中获得了核苷酸序列和相应的2 '-O-甲基化修饰位点[1] 以及早期的论文[20], [21]. 尽管我们的主要重点是预测人的Nm修饰位点,但在我们的分析中,我们通常侧重于3个物种:智人(人)、酿酒酵母(酵母)、小家鼠(小鼠)。作为数据准备工作的一部分,我们首先从相应的数据源下载了所有物种的RNA序列,包括2 '-O-甲基化修饰位点。在RMBase数据库中,序列位于其DNA结构中,因此我们通过将T转换为u将它们转换为RNA序列。 我们检查了所有数据集的序列相似性,以便将模型过拟合的风险降至最低, 我们发现它们相当合理,大约32%。在这种情况下,最相似序列的相似度约为41%。为了去除数据集中的冗余,我们去除了相似度超过30%的序列。由于这种去除,样品的数量已经 对于第一和第二人类数据集分别从590和770减少到538。如重新 结果部分,通过相似性减少样本数量阈值没有显著改变我们的结果。这种去除后的性能稳定性主要是由于深度学习模型的复杂性以及仍然保持大部分样本。 所有序列都有41个核苷酸长。总之,第一个智人数据集包含215个阳性实例,215个阴性实例用于训练部分,46个阳性实例,114个阴性实例用于测试部分。我们还利用了来自RMBase数据库的另一个智人数据集[1].我们在实验中只使用了第二个智人数据集的一部分。我们使用了499个阳性实例。其余阴性样本(329个样本)取自第一个智人数据集。 此外,为了得到更加平衡的人类数据集,我们使用了SMOTE[44].SMOTE是最常用的过采样方法之一,用于通过线性插值创建合成记录来增加少数民族的数量。这些虚拟记录是通过为少数类中的每个样本选择k个最近的邻居而随机生成的,而不仅仅是为了增加而创建少数样本的副本 他们的号码。将SMOTE应用于第一个人类数据集(Human1)的结果是,我们得到329个阳性和329个阴性 样本总数为阴性。另一方面,499个阳性和499个阴性标记了41个核苷酸长的RNA序列 为第二个人类数据集(Human2)生成。南 酿酒酵母数据集包含89个阳性样本,189个阴性样本,肌动蛋白数据集包含10个阳性样本,总共35个阴性样本。此外,酿酒酵母和肌动杆菌数据集的样本数量不足以有效训练BERT2OME,且这些数据集不平衡。因此,我们使用SMOTE来进一步扩展数据集。我们的数据集中正实例和负实例的数量汇总在表中1. 这里,我们将41个核苷酸的RNA序列视为单个输入。我们已经尝试了自然语言 通过将每个单个核苷酸视为对应于单个图形模型的单个单词来处理模型。因此,接下来,我们在核苷酸对之间插入了空格,以建立一组连续的碱基,其中每个碱基代表人类语言中的一个单词。作为伯特模型训练的一部分,在句子的开头和结尾添加了特殊的标记,即CLS和SEP。

论文解读:BERT2OME:基于BERT的变压器结构预测RNA序列中的2

2.2 附加化学性质

我们还将RNA序列核苷酸的化学性质整合到我们的预测方法BERT2OME中,这在预测RNA修饰位点时非常常见[45]. 基本上,核糖核酸序列是由 4种碱基:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(U)。这4个核苷酸中的每一个都表现出独特的 化学结构,并有自己的内部结合特性。由于这种独特的结构和结合特性,所有这四种碱基都具有不同的化学特征。RNA修饰序列属性性别- 通过3种不同化学结构质量普遍表达核苷酸序列。这3种化学结构特征是环结构、氢键和官能团。在这种情况下,4种核苷酸类型被分成3组:1-

种类 2 '-O-甲基化数据集 积极的 否定的;消极的;负面的;负的 智人1(人类1) [21] 261 329 智人2(人类2) [1] 499 329 酿酒酵母 [20] 89 189 家鼠 [20] 10 35 表1:分析物种和数据集的数据汇总。

就环结构而言,C和U的结构中有一个单环,而A和G的结构中有一个双环。2-就氢键而言,作为杂交的一部分, a和U可以形成2个键,而G和C可以形成3个键。3-就化学官能团而言,G和U代表酮基,A和C代表氨基 团体。 让、易和子分别代表RNA序列的核苷酸i (si)的环结构、氢键和化学官能团。我们通过整合这些核苷酸的化学特性来进一步表征RNA序列。核苷酸化学性质计算公式如下。根据这些化学性质方程,碱A表示为(1,1,1)。剩余的碱基C、G和U表示为(0,1,0)、(1,0,0) 和(0,0,1)。结果,我们得到123 1 载体在应用这种核苷酸化学性质后 编码。

更好更有效地处理RNA序列中的潜在知识。 经过预处理的BERT模型在各种自然语言处理任务中表现最好,而没有对特定任务的显著改变,例如从文本中推断语言,自动生成问题的答案等。在我们的病例中,我们已经用我们的2'-O-甲基化修饰位点预测问题中的BERT来解释 和分析核糖核酸序列信息。BERT主要由2个步骤组成:1-预处理步骤:BERT模型在未标记的数据集上被训练用于2个任务,即预测下一个句子和掩蔽语言模型- ing(MLM);2-微调步骤:然后使用预调整的参数初始化模型,并针对所考虑的特定任务对这些参数进行微调。 在我们的预测问题中,我们通过MLM用(MASK)令牌替换所有令牌的15%来执行第一个BERT步骤。因为(MASK)令牌不包含在 作为BERT的微调部分,我们加入了后续规则,以避免在预处理和微调之间出现不匹配:1-80%的令牌被(MASK)替换 在这些场景中,2-在10%的场景中,令牌被随机替换,3-令牌被保留为它出现在10%的场景中。 有许多可用的预训练BERT-mod 埃尔斯。例如,BERT大型套管和非套管模型需要大约340,000,000个参数,包括 16个头,24层,1024个隐藏单元。同样,作为培训的一部分,基于BERT的套管和未套管模型需要大约110,000,000个参数,

论文解读:BERT2OME:基于BERT的变压器结构预测RNA序列中的2

2.3 变换器的双向编码器表示(BERT)

可以通过单词嵌入技术来分析指定窗口内单词和上下文之间的关联程度。许多传统的嵌入方法仍然被广泛使用,如手套[46],具有连续词袋结构的神经网络(Word2vec)[42]或滑雪坡道。除了上面讨论的更传统的单词嵌入方法,更新的方法如BERT和XLNet[47] 已经尝试解决现有单词表示模型的单向训练问题。这种单一方向性假设已经限制了作为预处理一部分的可能架构。[43] 提出BERT,通过在所有层中组合正向和反向上下文,以双向方式使用未标记的文本来对模型进行预处理。作为这种新颖的更好训练的结果,BERT生成动态单词嵌入,这意味着不同句子位置上的相同核苷酸或单词采用不相同的连续实值向量。由于BERT的一些优势,例如能够生成语境嵌入,BERT可以考虑单词的位置,并支持没有出现在词汇中的单词。我们假设BERT会

12个头,12层,768个隐藏单元。在我们的研究中,我们使用基于BERT的非盲模型进行了实验。作为训练的一部分,我们使用RNA序列的单热编码作为我们的输入,如图所示1. 训练结束后,我们将每一个RNA核苷酸转化为一个 情境化768维单词嵌入向量。因此,我们将每一个41个核苷酸长度的RNA序列翻译成一个载体,该载体由n = 41个768维的载体连续组成。我们的BERT模型有12层,每层都经过预处理 模型是一个编码器,其中一个编码器的输入是前一个编码器的输出。通过尝试合并来自整个编码器组的知识,我们将所有这12层的属性向量相加(每层都有 维数n = 41 768),并使用所得向量作为二维卷积神经网络的输入 网络将在下面讨论。

2.4 BERT2OME: BERT + 2D CNN

用于2 '-O-甲基化修饰位点预测 BERT2OME整合了2D CNN模型,以从BERT嵌入中学习,即把RNA序列分为有或没有2 '-O-甲基化修饰的序列。美国有线电视新闻网已经

主要用于许多计算机视觉应用,如图像分割、目标检测、图像分类。等等。CNN还应用于许多生物信息学问题,包括在二核苷酸一热编码器中提取知识[48],拓扑结构等。因此,当CNN从BERT的上下文词嵌入向量中提取属性时,BERT2OME的性能将得到提高。 首先,我们使用BERT从输入的核糖核酸序列中创建载体嵌入。对于每个给定的RNA序列,我们添加了每个41个核苷酸长的核苷酸序列 CLS(添加在RNA序列的开头)和 SEP(添加在RNA序列的末端)标记,使其长达43个核苷酸。我们在创建RNA序列的载体嵌入时使用了“伯特-基-未封闭”模型,该模型具有12层768个隐藏单元的神经网络结构。第一层包括 输入嵌入和剩余的层表示 模型的输出。使用BERT得到载体嵌入后,每个核苷酸用一个 33024 = (43 768)长矢量。此外,通过使用化学性质策略,还生成了123 =(41 ^ 3)个数值,并附加了此附加值 将向量转换为BERT的向量。通过这样的附加,我们在不改变模型整体结构的情况下,将化学性质向量添加到嵌入向量中。在设计BERT2OME的CNN部分时,我们在2D CNN模型的特征提取阶段使用了两个隐藏层。因为BERT模型的输出是二维的 尺寸为43 768的司矩阵,通过2D CNN在这个矩阵上学习和获取这样的属性看起来很合理。 一般来说,有线电视新闻网是由一个以上的层,其中每一层,其特殊的功能,是有用的 将其输入数据转换为更好的表示形式。有线电视新闻网采用4层类型,如最大后池、卷积层、ReLU层和全连接层。在我们的 在这种情况下,BERT2OME专注于通过卷积运算学习空间知识,然后将其用于有效预测RNA序列上的修饰位点。最大池化过程应用于每个隐藏层。此外,在每个隐藏层上应用脱落来防止过拟合并改善泛化误差。我们使用了整流线性激活函数(ReLU)作为激活函数。特征提取阶段得到的嵌入信息经过展平后被赋予全连通层,之后使用softmax激活函数。我们使用分类交叉熵作为损失函数,因为它是一种众所周知的用于多类分类任务的损失函数。Adam优化器用于优化过程。我们还设计了1D有线电视新闻网模型,该模型在层数、激活函数、损耗函数方面与2D模型在架构上相同,以便对这两个维度不同的有线电视新闻网模型进行公平比较。与1D CNN模型不同,2D CNN采用2D矩阵作为输入。美国有线电视新闻网的一名记者 维度代表每个核苷酸及其起始和结束标记([CLS]标记、41个核苷酸长的RNA序列和[SEP]标记),而另一个维度是 嵌入从BERT模型生成的向量值。代替仅使用从神经网络结构中的最后一层生成的向量值,该神经网络结构从

伯特模型,我们已经意识到,当我们取最后4层的平均值时,我们的预测值受到了积极的影响[41], 因此,我们相应地设计了BERT2OME。数字1 总结了BERT2OME架构。

3 实验装置

3.1 基线机器学习方法

为了训练基线机器学习方法,我们使用一热编码方法将每个核苷酸转换为数值。在给定的RNA序列中,A、G、C、U被映射到[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1] re- 引人注目的是。最后,我们获得了长度为164的载体,每个载体包含41个核苷酸长的RNA序列。同样,我们的修改输出标签被转换成1和0。具有2 '-O-甲基化修饰的序列是 用1s表示,非2’-O-甲基化修饰用0s表示。 我们已经试验了4台著名的机器 作为基线的学习(ML)分类器:支持向量机(SVM)、决策树(DT)、随机森林(RF)、经验梯度增强(XGBoost)。在这些基线中,SVM是一个经过充分研究的适用于各种生物信息学问题的ML算法[49].在确定给定RNA系列中是否存在Nm修饰时, 我们选择评估作为文本的RNA序列,并在我们的基本SVM模型中使用sklearn库中带有正则化参数1的线性核函数。这种线性核是 高度优先于文本分类问题。 我们的基线决策树方法也被称为CART算法[50]代表分类和回归树。在我们的案例中,决策树用于解决给定RNA序列的分类问题(Nm修饰预测)。在比较结果后,我们选择了基尼系数,并根据最佳分割进行分割运算。其余参数在sklearn库中被用作默认值。随机森林的另一种方法[51] 是一种集成技术,其中我们执行超参数调整以获得最佳模型参数,而不是使用默认参数。最后,我们还使用了XGBoost[52]类似地通过应用超参数调谐来获得最佳模型参数。

3.2 超参数整定与优化

深度学习和机器学习方法需要超参数优化步骤来获得最佳性能结果。在我们的案例中,我们集中于为伯特和2D CNN独立调整超参数 零件。我们采用了5倍交叉验证来优化超参数。最初,BERT部分(嵌入部分) 诸如学习率、训练步骤计数、最大序列长度、批量训练大小的超参数被调整。考虑几个超参数组合以获得最佳组合。其次,对2D CNN部分的超参数进行了优化。例如,纪元数、神经元数和批量计数分别在25至100个纪元、50至200个神经元和10至30个批量之间。我们还使用了辍学率参数来防止过度拟合。我们使用Keras Tuner库调谐CNN超参数。

图1:基本方法的完整表示(图的左边部分)和新颖部分(图的右边部分)。拟议方法的工作流程。使用了3个不同物种的4个不同数据集。使用BERT模型创建载体嵌入,然后使用分类方法2D CNN识别给定RNA序列中的2 '-O-甲基化位点。

3.3 评估绩效

我们通过使用Keras深度学习库(使用TensorFlow作为后端)在Python中实现了BERT2OME。我们已经在Python中实现了其余的机器学习模型。最后,我们获得了对现有方法iRNA-2OM的预测[21],NmSEER2.0[25]从他们的网络服务器上。我们无法获得DeepOMe的结果[24]因为它们需要120个核苷酸长度的输入。因此,当需要进行比较时,我们使用他们论文中报告的结果。我们在一台配备英特尔酷睿2.80 GHz CPU和8 Gb内存的个人笔记本电脑上运行实验。大致上,BERT2OME需要一分钟时间来训练人类数据集,并预测是否存在2 '-O-甲基化修饰 不到一秒钟。在绩效评估方面,我们采用了五重交叉验证法。常用的交叉验证方法对 分类模型的性能。这种交叉验证防止了预测模型的实际性能被高估或低估。此外,我们对最佳模型进行了独立测试,以在通过交叉验证进行的超参数调整结束后,计算对未见过数据的预测结果。 我们通过各种指标评估了变更点预测的性能,如准确度、精密度、召回率(灵敏度)、F1、受试者操作下面积特性曲线(AUC)和精密度-召回率曲线(PR)。让TP、TN、FP、FN分别代表真阳性、真阴性、假阳性和假阴性。然后,评估指标定义如下: 准确度= TP + TN TP + TN + FP + FN 精度= TP TP TP+FP 召回= TP TP TP+FN f1 = 2÷精度÷召回 精确度+召回率 敏感性=召回= TP TP + FN 特异性= TN FP + TN ROC AUC计算为灵敏性(TPR)-(1-特异性)(FPR)曲线下的面积。取0到1之间的值,其中随机猜测获得的ROC AUC分数为 0.5.PR曲线在y轴和召回上绘制精度值 x轴上的值。

4 结果与讨论

4.1 2D有线电视新闻网在多个类别中表现最好

在构建基于深度学习的预测模型(即BERT2OME)之前,我们已经开始对每个物种(智人、酿酒酵母和肌动杆菌)应用我们的基线模型(支持向量机(SVM)、决策树(DT)、随机森林(RF)和XGBoost),以便对给定的输入RNA序列是否包含2 '-O-甲基化修饰进行分类。

论文解读:BERT2OME:基于BERT的变压器结构预测RNA序列中的2

我们的基本机器学习基线模型中,每一个RNA序列都被转换成一热编码格式,随后是训练和测试部分的实现。我们还开发了新的增强型 将性能最佳的2种基线方法(如Random Forest和XGBoost)与BERT相结合的基线模型 嵌入:BERT +随机森林,BERT+xboost。在这种情况下,我们试图通过使用基于变压器的BERT将这41个核苷酸长的RNA序列转换成768个长的嵌入载体格式,从而提高预测性能,而不是将RNA序列作为一种热编码格式提供给这些分类模型。然后,为了测试具有更简单的卷积神经网络结构的深度学习模型的影响,我们设计了另一个基线BERT + 1D CNN。这是BERT

  • 1D CNN的方法会让我们了解当我们在架构中分别设置特定的节点数、层数、批量或纪元数时,CNN模型是如何运行的。此外,在某些层中使用脱落,以防止过度拟合。最后,将BERT2OME结果添加到最后一行,该行在所有测试物种中表现最好。表中的最后一行显示了BERT2OME的性能,它通过2D有线电视新闻网了解了BERT嵌入与化学性质的结合。已经在智人、酿酒酵母和肌霉上实施了所提出的BERT2OME方法 物种,我们通常通过使用5倍交叉验证和独立测试在所有这些物种中取得了非常好的结果。 根据表格2和3对于人类数据集,与SVM和决策树模型相比,ran- dom森林和XGBoost算法产生了更好的结果。这些 Human1和Human2的结果是一致的 数据集。一旦进行了超参数优化,BERT2OME在Human1数据集上获得了0.99%的ROC AUC和99%的准确度分数,在Human2数据集上获得了99%的准确度和大约0.99%的ROC AUC分数。这样的结果是在综合化学性质后得到的 接近我们的模型(我们增加了三个特征:环结构、氢键和核苷酸频率,同时设计了BERT2OME模型)。在这两个数据集上,将深度卷积2D CNN与BERT em- beddings相结合并应用化学性质方法明显优于所有增强的基线。相对于基线的相应ROC AUC曲线 人类1的模型和我们提出的方法 和Human2数据集如图所示2a 图和2b 分别是。此外,我们的PR AUC曲线如图所示3a 图和3b 对于Human1和Human2数据集。BERT2OME对Human1数据集的PR AUC评分为0.983。随后,应用化学性质方法将该评分提高至0.998。对于Human2数据集,采用化学性质方法后,BERT2OME的PR AUC评分为0.976,达到0.999。这些结果表明了BERT2OME的质量和意义 检测2 '-O-甲基化修饰位点的结果。 当遵循适当的深度学习模型(如2D CNN)时,BERT嵌入提高了2 '-O-甲基化修饰位点预测的质量。 我们还评估了BERT2OME的性能 另外两个物种:酿酒酵母和肌动杆菌。表示“往”

论文解读:BERT2OME:基于BERT的变压器结构预测RNA序列中的2

论文解读:BERT2OME:基于BERT的变压器结构预测RNA序列中的2

(a) 人类1 人类2 图2:就ROC AUC曲线而言,在RNA Human1和human 2 2 '-O-甲基化修饰数据集上,相对于基线模型,BERT2OME的性能评估。2D CNN获得了比其余分类器更好的结果,而BERT2OME(将2D CNN与BERT和可能的化学特征嵌入相结合)获得了最好的性能。ROC AUC评分也在模型名称旁边报告

人类1 人类2 图3:就PR AUC曲线而言,在RNA Human1和Human2 2'-O-甲基化修饰数据集上,相对于基线模型,BERT2OME的性能评估。2D CNN获得了比其余分类器更好的结果,而BERT2OME(将2D CNN与BERT和可能的化学特征嵌入相结合)获得了最好的性能。PR AUC分数也在型号名称旁边报告

根据表格4, 根据所有考虑的指标,我们仍然获得了比基线方法明显更好的结果。例如,我们获得了更高的 酿酒酵母准确度和ROC AUC评分为97% 和0.98,对于肌动杆菌为94%和 分别为0.94。尽管与人类相比,这些物种的数据集相对较小,但这些物种 性能仍然相当准确。 除了表格2-3,我们删除了Human1和Human2数据集具有超过30%相似性的序列,以降低输入序列的相似性。 如表所示5,我们的ROC AUC评分与

并且不移除Human1和Human2数据集的类似序列。此外,如表所示,我们的人类数据集的PR AUC得分分别为0.995和0.9996. 总的来说,即使删除了相似的序列,结果也没有变化。结果表明,在不同相似度的多个数据集上,BERT2OME的稳健性是不同的。

4.2 与最先进方法的比较

现有的提取2’-O-甲基化修饰位点的方法大多利用机器学习算法,方法 准确(性) 精确 回忆 子一代 SVM 0.81 0.71 0.81 0.76 决策图表 0.80 0.75 0.75 0.75 随机森林 0.86 0.75 0.9 0.82 XGBoost 0.83 0.71 0.85 0.77 伯特+随机森林 0.86 0.67 1.0 0.80 BERT + XGBoost 0.88 0.71 1.0 0.83 伯特+ 1D有线电视新闻网 0.81 0.81 0.81 0.81 BERT2OME与Ch。道具。 0.99 0.98 1.0 0.99 表2:相对于机器学习和增强的基线模型,BERT2OME的性能评估 数据集内RNA human 1 2 '-O-甲基化修饰 各种指标的术语:准确度、精密度、召回率和F1。BERT2OME(将2D有线电视新闻网与伯特和化学特征嵌入相结合)实现了最佳性能。

方法 准确(性) 精确 回忆 子一代 SVM 0.88 0.83 0.88 0.85 决策图表 0.90 0.88 0.88 0.88 随机森林 0.92 0.86 0.95 0.90 XGBoost 0.90 0.86 0.90 0.88 伯特+随机森林 0.92 0.88 0.92 0.90 BERT + XGBoost 0.92 0.88 0.93 0.90 伯特+ 1D有线电视新闻网 0.92 0.93 0.89 0.91 BERT2OME与Ch。道具。 0.99 1.0 0.98 0.99 表3:相对于机器学习和增强的基线模型,BERT2OME的性能评估 数据集内RNA human 2 2 '-O-甲基化修饰 各种指标的术语:准确度、精密度、召回率和F1。BERT2OME(将2D有线电视新闻网与伯特和化学特征嵌入相结合)实现了最佳性能。

他们还专注于只在胡曼数据集上进行预测。在与当前最先进的方法进行比较的同时,我们运行了这些现有的方法(Nm- SEER2.0[25], iRNA-2OM[21]) 要获得多个的结果 人工修改站点数据集:Human1和Human2。 另一方面,我们无法获得DeepOMe[24]因为它们总是需要120个核苷酸长度的输入。当需要与我们的方法进行比较时,我们使用他们论文中报告的结果。 桌子7 比较了BERT2OME与最先进的Human1数据集方法的性能。相应的 就此表而言,BERT2OME优于所有比较方法。具有化学性质的BERT2OME(从BERT模型中获得向量嵌入,与化学结合 属性向量,然后应用2D CNN)与5倍交叉验证已经给了我们最好的预测结果,0.999 ROC AUC。在其余方法中,NmSEER2.0紧随其后,ROC AUC评分约为0.578,然后是iRNA-2OM,ROC AUC评分约为0.568。如上所述,我们无法在表中报告human1数据集的DeepOMe结果7 因为DeepOMe总是要求 120个核苷酸长度输入,而对于human1数据集,我们的输入核苷酸长度是41。我们也证实了 独立测试的模型性能,当我们应用独立测试而不是5倍交叉验证时,结果是相似的。我们提出的主要原因 与所有比较的方法相比,BERT2OME方法获得了明显更好的预测性能,这是因为我们更喜欢使用BERT模型来生成

给定的RNA序列,而不是遵循一热编码策略。这个想法帮助我们用更多的数值(每个核苷酸768个数值)来表示RNA序列,而不是每个核苷酸4个数值。除了这一策略之外,与其他研究不同的是,我们不仅仅关注更传统的机器学习模型来训练模型,而是使用了不同维度的2D CNN。 除了Human1数据集,我们还测试了 在不同RNA 2 '-O-甲基化修饰位点数据集上的BERT2OME数超过人的Human2数据集。到 为了研究将化学性质向量附加到BERT嵌入向量的影响,我们还报告了BERT2OME结果,包括和不包括化学性质向量 调用Human2数据集属性向量。通过附加 从化学性质向量到BERT2OME向量,我们获得了更长的向量嵌入,这有助于BERT2OME做出比基线机器学习方法更准确的预测。2D有线电视新闻网 是我们的BERT2OME模型的一部分,在不同的分类器集合中表现最好。类似于人类1 数据集结果上面,我们将我们的预测性能与其他最先进的方法进行了比较 表中所示的Human2数据集7还有。我们有 再次获得了比NmSeer2.0和iRNA-2OM更好的结果。尽管在没有化学性质方法的情况下,DeepOMe的表现似乎比Berti ome稍好,但在化学性质方法方面,它仍然优于Berti ome。此外,我们使用他们论文中报告的分数,因为我们无法获得预测 从他们的网络服务器。最后,我们只对Human2数据集的10%进行了训练,得到了我们的结果。

4.3 BERT2OME跨多个物种的性能

为了进一步详细分析BERT2OME的性能,我们在一个物种上对其进行了训练,并在另一个物种上进行了测试,以提取2 '-O-甲基化位点。我们在3个不同物种的4个不同数据集之间实施了跨物种预测,以了解物种之间的2 '-O-甲基化位点关系。我们提取了每种物种的RNA序列,根据所选物种对BERT2OME进行了训练,并通过独立检验对其他物种的表现进行了评估。跨物种预测后的ROC AUC、准确度和PR AUC结果均为 表中给出8分别是。这4个结果矩阵 可以解释如下:使用Human1数据集对BERT2OME进行训练后,如果我们测试对肌动杆菌的预测性能,则获得0.96 ROC AUC评分和89%的准确度值。表中的结果为我们提供了 关于跨物种可预测性的知识。一般而言,使用人类数据集训练BERT2OME并对剩余的小鼠和酵母物种进行预测,在ROC AUC和准确度方面均具有合理的预测性能。然而,在小鼠或酵母上的训练和在人体数据集上的测试的性能相对较低。这种非理想的非对称预测性能主要可以通过小鼠和酵母数据集明显小于人数据集来解释,这降低了BERT2OME的训练质量。这种较小的数据集可能包含明显较低的序列知识。此外,

南酿酒酵母 方法 准确(性) 精确 回忆 子一代 ROC AUC 准确(性) 精确 回忆 子一代 ROC AUC SVM 0.93 0.91 0.96 0.94 0.94 0.90 0.83 1.0 0.91 0.92 决策图表 0.84 0.79 0.92 0.85 0.85 0.79 0.75 0.86 0.80 0.80 随机森林 0.86 0.77 0.97 0.86 0.87 0.86 0.75 1.0 0.86 0.88 XGBoost 0.88 0.81 0.97 0.89 0.89 0.86 0.75 1.0 0.86 0.88 伯特+随机森林 0.95 0.96 0.96 0.96 0.94 0.93 0.88 1.0 0.93 0.94 BERT + XGBoost 0.97 0.96 1.0 0.88 0.98 0.93 1.0 0.89 0.94 0.92 伯特+1D-美国有线电视新闻网 0.95 0.95 0.95 0.95 0.97 0.93 0.93 0.93 0.93 0.94 BERT2OME 0.97 0.97 0.95 0.96 0.98 0.94 0.94 0.9 0.93 0.94 表4:关于机器学习和相对于RNA的增强基线模型的BERT2OME的性能评估 南在各种指标方面的酿酒酵母和肌霉2 '-O-甲基化修饰数据集:准确度、精密度、召回率、F1和ROC AUC。BERT2OME(将2D有线电视新闻网与伯特和化学特征嵌入相结合)实现了最佳性能。

人1人2 方法 w/o移除 随着移除 w/o移除 随着移除 决策图表 0.833 0.817 0.897 0.836 随机森林 0.924 0.910 0.962 0.976 XGBoost 0.906 0.889 0.959 0.983 伯特+随机森林 0.889 0.947 0.961 0.965 BERT + XGBoost 0.914 0.957 0.970 0.966 伯特+1D-美国有线电视新闻网 0.899 0.905 0.945 0.934 BERT2OME 0.976 0.989 0.962 0.999 具有化学性质的BERT2OME 0.999 0.996 0.999 0.999 表5:在去除相似性超过30%的序列后,相对于RNA Human1和human 2 2 '-O-甲基化修饰数据集,BERT2OME在机器学习和增强基线模型方面的ROC AUC评分。

人1人2 方法 w/o移除 随着移除 w/o移除 随着移除 决策图表 0.874 0.909 0.906 0.882 随机森林 0.945 0.957 0.963 0.981 XGBoost 0.938 0.951 0.956 0.989 伯特+随机森林 0.890 0.953 0.963 0.978 BERT + XGBoost 0.916 0.958 0.966 0.977 伯特+1D-美国有线电视新闻网 0.896 0.910 0.951 0.963 BERT2OME 0.983 0.989 0.976 0.999 具有化学性质的BERT2OME 0.998 0.995 0.999 0.999 表6:在去除相似性超过30%的序列后,相对于RNA Human1和human 2 2 '-O-甲基化修饰数据集,BERT2OME在机器学习和增强基线模型方面的PR AUC评分。

人1人2 方法 分类者 ROC AUC PR AUC ROC AUC PR AUC BERT2OME 2D-美国有线电视新闻网 0.976 0.983 0.962 0.976 BERT2OME,带化学道具。 2D-美国有线电视新闻网 0.999 0.998 0.999 0.999 DeepOMe CNN-BiLSTM 不适用的 不适用的 0.993 0.843 NmSEER V2.0 无线电频率(radio frequency) 0.578 0.254 0.597 0.001 iRNA-2OM SVM 0.568 不适用的 0.607 0.065

表7:就RNA Human1和human 2 2 '-O-甲基化修饰的ROC AUC和PR AUC评分而言,BERT2OME相对于现有方法的性能评估:NmSEER2.0、iRNA-2OM和DeepOMe 数据集。

人与小鼠之间的跨物种预测结果明显优于人与酵母之间的结果。这种结果差异可能是由于人和小鼠之间相对于酵母的进化相似性。物种相似性通常也会导致RNA甲基化序列与相应的2 '-O-甲基化位点之间的相似性。根据上述跨物种分析,基准数据集对于BERT2OME构建的重要性变得更加明显。此外,这些结果表明,通过BERT2OME预测2 '-O-甲基化位点是稳健和稳定的。

4.4 RNA序列分析及结果解读

跨物种的共有基序对于理解RNA序列为何具有2 '-O-甲基化修饰非常重要。它们对于获得生物学知识和对这些改变的见解也很重要。在这种情况下,我们使用最先进的方法STREME[53]发现与2 '-O-甲基化修饰相关的共有序列基序。STREME识别在所比较的输入序列中相对富集的连续基序 到控制序列。桌子9显示了最上面的5个

试验物种训练物种人类1酿酒酵母人类2肌 人类1 0.999 0.630 0.955 0.982 酿酒酵母的ROC AUC 0.597 0.978 0.433 0.632 米(meter的缩写))肌 0.625 0.470 0.938 0.478 Human2 0.917 0.529 0.809 0.999 人类1 0.992 0.537 0.886 0.941 酿酒酵母的准确度 0.566 0.974 0.543 0.602 米(meter的缩写))肌 0.607 0.491 0.946 0.480 Human2 0.856 0.512 0.829 0.988 人类1 0.998 0.658 0.963 0.986 酿酒酵母PR AUC 0.534 0.976 0.419 0.617 米(meter的缩写))肌 0.575 0.570 0.926 0.468 Human2 0.926 0.548 0.879 0.999 表8:就ROC AUC、准确度和PR AUC评分而言,4个数据集对3个物种的跨物种预测性能以矩阵形式显示。x轴定义了测试BERT2OME的物种,y轴定义了训练物种。

所有数据集的长度为3的丰富的具有统计学意义的共有基序。总的来说,我们发现 不同的数据集和物种。根据结果,所有4个数据集都偏向于具有丰富G的共有基序,表明2 '-O-甲基化修饰位点在单核苷酸和片段水平上具有较大程度的保守性。 我们确定所有物种中都存在模体UGA,这表明它在观察给定RNA序列中2 '-O-甲基化修饰方面的重要性。同样,模体UGG在其中4个数据集的3个数据集内富集。因此,我们观察到一些跨物种的共识模式,这对跨物种预测很重要。然而,物种之间仍存在一些基序差异,表明现有的基于浅层序列的方法可能不足以获得最佳预测性能,而深层模型通过更有效地提取一致性模式,有可能提高预测性能。 此外,提取的共有基序可能表明不同类型的序列修饰之间的许多潜在关系。例如,GAA和AGA基序与报告的序列基序相似 m1A RNA修饰,如中所述[54]. 被识别的 GGACU/GAACU共有基序是m6A最有力的序列基序。这些观察结果可能支持 为2'-O-甲基化和m1A以及m6A之间的潜在相互作用提供一些证据,这两者是相容的 结果显示[27].当从序列的角度进行语境分析时,各种RNA修饰类型之间存在显著的相关性。

数据集前1名、前2名、前3名、前4名、前5名UGA·CUG·UGG UUG·哈门2、AGA GGA UGA·GCA GAA 南酿酒酵母AAG UGG GUA UGA GGA 小肌AUG UGA CCC UCC UGG 表9:每个数据集长度为3的前5个共识基序。

5结论和未来工作

在这项研究中,我们提出了一种新的方法BERT2OME来从RNA序列中提取跨多个物种的RNA 2 '-O-甲基化修饰位点。

BERT2OME是基于用BERT模型分析RNA序列中的潜在知识。我们假设每一个RNA序列都是文本,并实现了BERT来将RNA序列转换成载体嵌入。通过使用BERT预处理模型,BERT2OME可以将大量人类语言语料库中的句法和语义信息转换成RNA数据集。除了对RNA序列进行BERT嵌入,我们还对核苷酸的化学属性进行编码,以获得更好的性能。在我们的实验中,我们通过与现有的技术以及常用的机器学习方法相比较,验证了BERT2OME的性能。我们已经发现,在学习BERT特征时,2D有线电视新闻网等深度神经网络技术在准确性方面优于较浅的神经网络和更传统的机器学习算法。因此,与通过转移RNA语言的现有方法相比,BERT2OME通过结合基于BERT的非封闭模型和2D CNN,提高了RNA 2 '-O-甲基化修饰位点预测性能。根据各种详细的实验,我们还发现BERT2OME是稳健的。此外,BERT2OME甚至不需要进行生物实验,就有可能检测出新的修饰位点。 本研究的局限性可总结如下 low:1-尽管我们已经取得了显著的更好的性能,增加了生物学的见解和生物学的推论,但是我们的深度学习方法仍然不像所有现有的基于深度学习的方法那样完全可解释,2-我们关注的是具有相对较小的序列片段长度的数据集,因此一旦我们调整我们的方法以适应更长的序列,我们的运行时间可能会增加。作为未来的工作,人们可以使用BERT2OME的跨物种训练能力来预测跨物种的修饰位点,而无需任何实验性RNA 2 '-O-甲基化数据集。这种跨物种训练对于扩展多个物种的RNA 2 '-O-甲基化数据集非常重要。BERT2OME可以应用于其他RNA修饰的预测问题。最后,可以将图神经网络集成到特征编码中,以提高模型的性能。


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
24eTNZKd6a8S