论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》
  24eTNZKd6a8S 2023年11月02日 44 0

Title:iRhm5BiRNN: Identification of RNA 5-Hydroxymethylcytosine Modifications Using Bidirectional-Recurrent Neural Network

DOI:10.1109/access.2021.3049146

期刊:IEEE Access

中科院分区:3区

影响因子:3.9↑ 0.424

作者:Syed Danish Ali; Jee Hong Kim; Hilal Tayara; Kil to Chong

出版日期: 2021-01-06

网址: http://xplorestaging.ieee.org/ielx7/6287639/9312710/09314001.pdf?arnumber=9314001

1 巴基斯坦伊斯兰堡MY 大学计算机科学系

2 巴基斯坦米安瓦利大学计算机科学系

摘要

RNA 表观遗传学研究的重要领域之一是 RNA 5 -羟甲基胞嘧啶( 5hm C)的作用,它与许多生物 过程有关。5hm C  的鉴定可以通过多种基于测序的技术来实现;然而,现有的这些方法耗时、 昂贵且劳动密集型。因此, 迫切需要开发更可靠、高效和可行的计算方法来取代或在理想情 况下补充高通量技术。尽管开发了不同的深度学习和机器学习模型, 但它们的性能目前仍然 不足和有限。在这项研究中, 我们提出了一种新的深度学习识别方案, 特别是双向递归神经 网络( BiRNN),称为 iRhm 5BiRNN ,它克服了仅使用输入信息进行训练的限制。BiRNN 同时 进行正向和反向训练, 使其能够高效可靠地准确识别全基因组 DNA 序列中的 RNA 5hm C 位 点。我们的方法利用双向循环神经网络( BiRNN) 从不断变化的 RNA 序列中获得最可靠的特征。使用我们提出的架构, 我们在基准数据集上实现了 85. 51%的准确率,在所有评估指标上都超 过了现有方法的性能。这些发现证明了我们的方法的优越性及其在推进 RNA 表观遗传学领 域的潜力。

 关键词:深度学习,RNA 5-羟甲基胞嘧啶,双向递归神经网络,单热编码

1.介绍

在过去的几年中, RNA 的鉴定提出了许多复杂的挑战。在这些挑战中, RNA 修饰是最重要和最艰巨的科学努力之一[1] 。化学修饰的核苷和假尿苷的发现可以追溯到 1950 年[ 2]。此后,在 各种 RNA 类型中发现了 160 多种不同的 RNA 修饰,包括 m RNA、tRNA、r RNA 和 s nRNA[ 3]。这些修饰也影响关键的 RNA 过程,如前 RNA 剪接、RNA 输出和微 RNA 翻译。此外, RNA 改变与各种人类疾病有关,包括心血管疾病、癌症、肥胖和糖尿病[4] 。表征 RNA 修饰在转录 组中的分布对于理解其生物学特性至关重要。例如,羟甲基胞嘧啶(hMe C)修饰可能被 Tet 家族 酶氧化,这表明 5hm C 主要存在于编码区的外显子和内含子中[5- 7]。有研究报道,果蝇大脑中 存在高浓度的 5hm C 改变, 脑干、小脑和海马中存在显著水平的 5hm C 修饰,有证据表明, 5hm C 的识别和修饰降低了 m ptp 诱导的小鼠帕金森病模型[8]。这些发现表明, RNA 5hm C 修 饰影响脑组织中微 RNA 的表达和蛋白质。此外, 5hm C 通过改变 RNA 与蛋白质之间的相互作用参与基因表达的表观遗传调控[9]。为了进一步了解 5hm C 在不同生物中的作用,有必要研究 它在其他物种转录组中的存在。已有研究采用 hMe RIP-se q 方法研究果蝇 5hm C 的转录组[ 10]。然而,使用 hMe RI P-se q 和湿实验室调查来检测整个基因组中的 5hm C 位点存在缺陷。这些缺 点包括实验试剂的高成本以及程序的时间和劳动密集型。为了解决这些限制,开发计算模型变  得至关重要,因为与传统方法相比,它可以更准确、更高效、更经济地识别 5hm C 修饰位点。 考虑到需要分析的基因组样本数量越来越多,这一点尤其重要。该研究表明,果蝇大脑中普遍  存在 5hm C 缺陷。同样,先前的研究表明, 5hm C 修饰在小鼠脑干、海马和小脑中显著富集。这些发现表明, 5hm C 修饰可能对脑组织发育至关重要[ 11]。了解不同物种转录组中 5hm C 的 生物学功能至关重要;然而,5hm C 分布在大多数动物物种仍然需要更充分的研究。目前正在开发的 iRNA5hm C  模型是第一个仅基于 RNA  序列信息预测 RNA5hm C  修饰的机器学习模型[ 12]。该模型利用 k- me r  谱和位置核苷酸二元载体作为特征表示, 为标准方法提供了稳健的替代方案。虽然 iRNA5hm C 的性能值得称道, 但仍有进一步改进的空间。最近使用了另一种称为 iRhm5CNN  的计算模型,该模型采用 CNN架构提取初级 RNA  序列表示的重要方面,以准确识别 RNA[ 13] 。虽然这些现有方法在预测 RNA  5hm C  方面取得了重大进展, 但其准确性仍有待提高[ 12] 。在这项研究中,我们提出了一种简单而有效的基于双向循环神经网络( bir nn) 的结构,用于仅根据 RNA  序列识别 RNA 5hm C 位点。我们的目标是开发一个复杂的系统来准确地识别 RNA  5hm C 位点, 而不依赖于预选的特征或分类。该方法基于初级 RNA 序列预测 RNA  5m C 位点具有速度快、准确度高的优点。基于深度学习的计算模型在测序、情感分析和自然语言处理等各种应用中被证明是高效和有效的[14- 16] 。RNA  序列是用单热编码表示的, 我们提供了核苷酸的化学成分的概述,包括官能团, 氢键,环构型和功能。通过从初级 RNA  序列表示中提取关键特征, BiRNN  架构可靠地识别 5hm C  RNA 序列。为了评估我们方法的有效性,我们进行了分采样, 并进行了五折交叉验证。实验结果表明,iRhm 5BiRNN  模型在很大程度上优于当前最先进的技术, 如 iRNA5hm C[ 12]和 iRhm 5CNN[ 13] 。iRhm 5BiRNN 在准确率、AU  ROC、AU  P R、敏感性、特异性和 MCC  方面表现优异,分 别达到 85. 51% 、 93. 22% 、 93.58% 、 82. 38% 、 88.63% 和 71.16%。这些发现大大超过了以往研究的结果。考虑到这些因素, 我们的方法有可能成为一种准确有效的检测 5hm C 的工具。

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_深度学习

图 1 所示。提出的模型框架。

2.方法和数据集

我们给出了用于预测 RNA5hm C 位点的深度学习技术的基准数据集,并在本节中讨论了性能评估。

2.1. 数据集

开发高质量生物信息学工具的一个关键方面是为预测模型[17] 精心选择一个可靠的训练数据集。在这方面, Liu 等[12]设计并实现了一个包含阳性和阴性样本的数据集。平衡数据集由 1324 个 样本组成, 正样本和负样本的平均分布分别为 662 个和 662 个。阳性样品来自 Delatte 等人[10],中心用 5hm C 进行表征。这些阳性样本是根据少于 80%的序列相似性标准选择的。为了获得阴 性样本(即非 5hm C 序列), 将剩余的不能通过 hMe RI P-seq 鉴定为 5hm C 的中间胞嘧啶纳入其中。将数据集中每个样本的长度设置为 41 个核苷酸( nt)。这个全面的数据集构成了训练预测模型的 基础,并能够准确识别 5hm C 位点。

2.2. 假设独立输出的预测卷积神经网络

卷积神经网络( CNN)是一种被广泛认可的判别深度学习模型,它通过直接从输入数据中学习,消除了手动提取特征的需要[ 14]。图 2  展示了一个由多个卷积层和池化层组成的 CNN  架构。 cnn  的设计为正则化 MLP  网络等传统人工神经网络带来了优势。CNN  的每一层都考虑最优参数来产生有用的输出, 同时降低模型的复杂性。此外,c nn  采用了一种称为 dr opout  的技术来缓解传统网络中的过拟合问题。由于能够处理各种 2D  形状,c nn  在视觉识别、图像分析、图像分割和自然语言处理等各个领域都有应用[ 15]。在没有人为干预的情况下自动检测关键属性使 cnn  比 常 规 网 络 更 强 大 。 c nn  在 这 个 领 域 有 很 多 变 体 , 包 括  Vis ual  Ge ometr y  Gr oup (VGG) [17,18]、Xception[19] 、Inception[20]、ResNet[21] 等等。

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_递归_02

图 2 卷积神经网络的基本结构

2.2.2.递归神经网络

RNN 模型已经获得了显著的普及,特别是在处理序列数据方面。图 3 描述了 RNN  的展开结构 [22]。该体系结构利用了一个反馈回路,其中每个节点通过在每个时间步骤接收来自上一个节点的输入来保持活动。在每个节点,将输入和前一个隐藏状态结合起来, 生成当前的隐藏状态和输出。下图提供了一个简单的递归神经网络的可视化表示。


论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_递归_03

图 3:一个展开的循环神经网络

2.3 提出的预测模型

该模型采用双向递归神经网络( BiRNN),该网络被广泛认为是分析序列数据最有效的技术之一。与以前的计算模型相比, 该技术证明了对 RNA 5hm C 位点的高度准确预测。BiRNN 深度学习算法由于其优异的性能和通用性,近年来获得了广泛的认可。它能有效地捕获 RNA 序列的关 键特征不需要手动设计的特征的表示。下一节将对提议的架构进行详细讨论。

2.3.1. 建议的BiRNN架构

在本节中,我们展示并描述了所建议的 BiRNN 模型的体系结构,如图 1 所示。该模型建立在 RNN 的基础上,通过将更多的细胞单元纳入其隐藏状态,范围从 t hn 到 h。采用双向训练方法来提高模型的性能。该体系结构由四层组成,每一层将在下面的小节中进行讨论。

第 1 层(RNA 核苷酸):RNA 序列被输入编码方案,经过选择和预处理后给出 RNN 模型。

第 2 层(单热编码):

初级 RNA 序列采用广泛采用的单热编码方法进行编码。One-hot 编码被认为是将分类数据(如 DNA 和 RNA 序列)转换为数字形式的最重要、最有效和最常用的方法。在这种编码方案中,每个核苷酸都由一个二元向量表示。具体来说, Adenine ( A) 表示为(1,0,0, 0) , Uracil ( U) 表示为 (0,0,0, 1), Cytosine ( C)表示为( 0,1, 0), Guanine ( G)表示为( 0,0, 1,0)。因此,长度为 n 的 RNA 序列可以用维数为 4 × n 的矩阵表示,其中每列对应于一个核苷酸的单热编码表示。这种编码方法能够有效地对 RNA 序列进行数值表示,便于后续的分析和建模。

第三层(双向 RNN):本节介绍了所提出模型的隐藏块, 即 BiRNN。这些块由一个从左到右处理数据部分的正向轨迹和一个从右到左分析输入的反向轨迹组成。以下公式可以表示正向递归序列和反向递归序列:

The formulas  for the forward  and backward  recurrent  sequences  are defined  as follows :

For the forward sequence: ht = f (Wp,q * xt + br )             (5)

For the backward sequence: ht = f (Wp,q * xt + br ) (6)

In these for m ulas, x re presents the input feature vector, h denotes the activation vector on the for war d (or backward) hidden layer. W p, q denotes the weight matrix, br represents the bias term, f represents the activation function a pplied to each node in thehidde n layers, and y represents the posterior probability vector for the output label.

Layer 4 (Output layer): The predicted probability of

characters for each step of t in the alphabet is calculated using a nor mal sigmoid function applied to the output layer. This performance can be shown in the following equation:

2.4 Performance  Evaluation

yt = sigmoid (Wby )    (7)

The proposed deep learning method named iRhm 5 -BiR NN was evaluated using several

classif ication measures to predict RNA5hm C sites, including accuracy, sensitivity, specificity,

MCC, and F1-score. These metrics are calculated below, and a corresponding confusion matrix was generated [13, 23-32]. Our proposed framework demonstrates comparable perform ance across five key metrics: accuracy, sensitivity, specificity, F1-score, and Matthew's correlation coefficient(MCC ). These metrics are defined as follow s:

3.结果和讨论

3.1.使用不同深度学习分类器的性能比较

使用不同深度学习分类器的性能比较在这个实验中,我们比较了三种不同的内部结构:CNN、RNN和双向RNN,以确定具有更高指标的最佳性能模型。在评估了每个模型的性能并添加了一个漏失层之后,选择了最终的架构。我们利用基准数据集来评估CNN、RNN和双向RNN的优越性。表1显示了每种架构实现的预测精度。CNN、RNN和BiRNN的准确率分别为84.94%、82.67%和85.51%。如表1所示,BiRNN实现了85.51%的最高准确度。此外,当考虑其他五个评估指标时,BiRNN表现出卓越的性能。BiRNN被认为比其他两种架构更复杂和更快,使它能够捕捉更多的特性。图6和表1表明,CNN和RNN的精度明显低于BiRNN。因此,基于我们的基准数据集,显而易见,BiRNN在有效性上优于其他分类器。图6提供了预测RNA 5hmC位点的各种方法的图示,表1总结了使用不同模型的RNA序列的发现。为了对序列进行编码,我们提出了一种基于特征的技术。结果显示准确性为85.51%,敏感性为82.38%,特异性为88.63%,MCC为0.71,f1评分为85.04%。

3.2.核苷酸的化学性质编码

RNA的序列由四种核酸组成:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U),每一种都有其独特的化学性质[35,36]。核苷酸的这些化学特征可以分为三类:氢键强度、碱基类型和官能团(酮基或氨基)[37]。RNA核苷酸的基本结构如图5所示。

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_深度学习_04

图5:显示了RNA核苷酸结构

RNA核苷酸由两个嘌呤组成,A和G,每个嘌呤包含两个环和C和U,它们具有单环结构[37]。A和U之间存在弱关联,而C和G之间存在强关联。a和C属于氨基,而G和U属于酮基。这三个化学条件允许将RNA核苷酸映射到三维笛卡尔坐标。每个坐标被赋予二进制值0或1。值1表示嘌呤或嘧啶,而所有其他值由0或1表示。弱氢键用值1表示,强氢键用0表示。氨基用1表示,而酮基用0表示。因此,A和G表示为1,C表示为0,U表示为1,G表示为1。

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_数据集_05

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_数据集_06

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_数据集_07

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_深度学习_08

论文解读:《iRhm5BiRNN:使用双向递归神经网络识别 RNA 5mc修饰》_递归_09

3.3.提出的模型与现有方法的性能比较

在这一部分,我们将提出的模型的结果与现有的深度学习和基于机器学习的计算模型的结果进行了比较。我们使用5重交叉验证进行了对比分析,以评估同一数据集上两个模型的性能:iRNA5hmC [12]和iRhmCNN [13]。每个模型都经过单独微调以实现最佳性能,结果如表2所示。iRhm5BiRNN模型在这一部分,我们将提出的模型的结果与现有的深度学习和基于机器学习的计算模型的结果进行了比较。我们使用5重交叉验证进行了对比分析,以评估同一数据集上两个模型的性能:iRNA5hmC [12]和iRhmCNN [13]。每个模型都经过单独微调以实现最佳性能,结果如表2所示。iRhm5BiRNN模型。

4.结论

RNA 5hmC位点的鉴定在各种研究中非常重要。在这项研究中,我们提出了一种计算预测器iRhm5BiRNN,它利用深度学习技术来识别RNA 5hmC位点。基于双向递归神经网络(BRNN),我们的方法不依赖于先验知识或实验信息。准确识别RNA 5hmC位点对于探索其多样且未知的生物学功能至关重要。我们提出的模型iRhm5BiRNN利用一个简单的BiRNN架构来提取相关特征,以区分RNA 5hmC和非5hmC位点。我们还进行了一项研究,以确定BiRNN模型的最佳超参数,包括优化器的选择。研究结果表明,选择最佳超参数会产生更好的结果。与以前的模型相比,我们提出的模型达到了85.56%的分类准确率。在所有评估指标中,iRhm5-BiRNN模型都优于其他最先进的技术。因此,我们提出的iRhm5BiRNN模型显示了对RNA 5hmC位点更强的预测能力,使其成为更准确临床决策的有价值的工具。在未来,我们的目标是评估我们的方法在识别其他RNA修饰位点的有效性。这项正在进行的研究将有助于RNA修饰检测的进一步发展。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
24eTNZKd6a8S