DOI:10.3389/fgene.2023.1121694
期刊: Frontiers in Genetics
中科院分区:3区
影响因子:3.7↓ 1.072
作者: Xinru Zhang; Shutao Wang; Liji Xie; Yuhui Zhu
出版日期: 2023-01-19
网址: https://doi.org/10.3389/fgene.2023.1121694
摘要
背景:假尿嘧啶(Ψ)是在各种 RNA 类型中发现的最丰富的 RNA 修饰之一,在许多生物过程中起着重要作用。研究 Ψ 的各种生化功能和机制的关键在于识别 Ψ 位点。然而,用实验的方法识别 Ψ 网站,耗时耗力,费用昂贵。因此,有必要开发基于 RNA 序列信息准确预测 Ψ 位点的计算方法。方法:在本研究中,我们提出了一个名为 pseudo - st 的新模型来识别智人(H. sapiens)、酿酒酵母(S. cerevisiae)和小家鼠(M. musculus) 的 位点。在对 iLearnPlus 软件包中几乎所有可用的 RNA 序列编码方案进行综合测试的基础上,我们选择了最佳的 6 种编码方案和 4 种机器学习算法,并使用卡方和增量特征选择算法为每种编码方案选择了最优特征。然后,我们通过广泛的性能比较,为每个物种选择最优的特征组合和最优的基分类器组合,并采用堆叠策略构建预测模型。
结果:与其他现有模型相比,pseudo - st 具有更好的预测性能。该方法在 H_990 、 S_628 和 M _944 上的 pseudo - st 准确率分别为 93.64%、87.74%和 89.64%,分别提高了 13.94%、6.05% 和 0.26%,比现有的最佳方法在相同的基准训练数据集上的准确率高。
结论:pseudo - st 是一种极具竞争力的预测模型,可用于智人、肌肉鼠和酿酒链球菌的 RNA Ψ 位点鉴定。此外, 我们发现基于单链的位置特异性三核苷酸倾向 (PSTNPss)和基于三核苷酸的位置特异性(PS3)特征在 Ψ 位点识别中起重要作用。 pseudo - st 的 源 代 码 和 数 据 可 以 在 我 们 的 GitHub 存 储 库 (https://github.com/jluzhangxinrubio/PseU-ST)中获得。
关键字RNA 伪尿嘧啶位点鉴定, 序列分析, 计算方法, 机器学习,堆叠集成学习
1 介绍
伪尿嘧啶(Ψ) 是许多 R NA 中最丰 富的 R NA 修饰之 一, 如 rR NA 、m R NA 、t R NA 和 s nR NA 等(C h arett e an d Gray ,2 0 0 0) 。自 19 5 7 年发现Ψ 以来,关于它的研究一直在发展。许多研究表明 Ψ在几个生物过程中起着关键作用,包括维持R NA 构建稳定性(B o oand Ki m , 2 0 20 ),R N A 代谢(C arlil e et al . , 2 0 14 ;S ch wart z et al ., 20 1 4) , 以 及 rn a - 蛋白或 R NA -R NA 相互作用(B as ak and Qu ery ,20 1 4 )。之前的研究还发现 Ψ 突变与许多癌症有关,如美国肺癌和胃癌(It o h et al ., 1 9 89 ;P en zo et al ., 2 01 7; C ao et al ., 2 0 21 )。研究 Ψ 的各种生化功能和机制的关键在于识别 Ψ 位点。然而,使用实验方法识别 Ψ 网站费时且昂贵(Ad ach iet al., 20 1 9 )。因此,有必要开发基于 R NA 序列信息准确预测 Ψ 位点的计算方法。
近年来, 许多 Ψ 站点的计算预测器被开发出来, 以补充实验研究。Li 等人(2 0 1 5 )利用支持向量机(S VM )算法建立了首个预测酿酒链球菌和智人 Ψ 位点的计算模型 P P US 。同样, C h en et al.(2 01 6 )结合伪核苷酸组成和核苷酸化学性质(NC P )编码方案, 建立了 i R NA -Ps eU S VM 模型,预测 2 0 16 年Ψ 位点。随后, He 等人(2 0 1 8)开发了另一种称为 P s eUI 的 S VM 分类器, 该分类器使用五种不同的编码方案提取 R NA 序列特征。 T ah i r 等人。
接下来, 我们采用堆叠策略来建立预测模型。结果表明,与其他现有模型相比, p s eu do - st 具有更好的预测性能。因此, P s eU - ST 是一种极具竞争力的预测模型, 可用于识别智人、猪链球菌和肌肉鼠的 RNA Ψ 位点。
2 材料和方法
2.1 pseudo-st 的框架
ps eu d o - st 总体框架设计如图 1 所示。p s eu d o - st 的框架有五个主要步骤。第一步, 我们从在线数据库中保存训练数据集和独立测试数据集(C h en 等, 2016)。第二步, 我们用 7 种最流行的机器学习算法对 i L earn Pl u s 软件包中几乎所有可用的 R NA 序列编码方案进行了全面测试,并选择了最好的 6 种编码方案和 4 种算法。第三步, 我们使用卡方分别对六种编码方案的特征重要性进行排序,并使用 IFS 算法为每种编码方案选择最优特征。然后, 我们使用不同的最优特征组合建立模型, 并为每个物种选择最优特征组合。步骤 4 ,分别构建 RF 、S VM 、高斯朴素贝叶斯(Ga NB )和逻辑回归(L R ) 模型, 将前一步选择的最优特征组合作为初步基分类(2019)建立了一个卷积神经网络(CNN)模型,命名为 iPseU-CNN, 器; 采用 LR 作为元分类器, 采用不同的碱基分类器组合构建了一
该模型采用二进制编码方案。2020 年,Liu 等人(2020)提出了使用极端梯度增强(eXtreme Gradient Boosting, XGBoost)算法来预测 Ψ 站点的 XG-PseU。同年,Bi 等人(2020)创建了一个名为 EnsemPseU 的集成模型,该模型集成了随机森林(RF)、SVM 、 Naïve 贝叶斯(NB)、XGBoost 和 k-近邻(KNN)。Lv et al.;(2 02 0 )开发了一种基于 rf 的方法, 称为 RF-P s eU ,该方法应用光梯度增强机(li g ht GB M )算法来识别 Ψ 站点。Mu 等人(20 20 )提出了一种称为 i Ps eU -L ay er 的分层集成模型,该 模型应用经典 RF 预测 Ψ 站点。然后, Li 等人(2 02 1b )提出了一种称为 Po rpoi s e 的计算模型,该模型选择四种最优特征类型并将其输入堆叠模型以预测 Ψ 站点。Z h u ang等人(20 21 )提出了深度学习框架 p s eu do d eep, Wan g 等人(2 02 1 )在同年提出了一种名为 P so E L -Ps eU 的特征融合预测器; 然而, 他们的表现并不令人满意。上述现有方法在智人、酿酒链球菌和肌肉鼠中的最佳准确率分别为 79 .7 0 % 、8 1.6 9 % 和 8 9 .3 4 % ,仍有很大的改进空间。
在这项研究中,我们提出了一个名为 p s eud o - st 的新模型来识别智人、酿酒链球菌和肌肉链球菌的 Ψ 位点。首先,我们用七种最流行的机器学习算法彻底测试了 i L earnPl us 软件包中几乎所有可用的 R NA 序列编码方案,并选择了最好的六种编码方案和四种机器学习算法(C u i et al ., 2 02 2 )。然后,我们使用卡方分别对六种编码方案的特征重要性进行排序,并使用增量特征选择(IF S )算法为每种编码方案选择最优特征。我们使用交叉验证测试来评估和选择每个物种的最优特征和基分类器 组合。
系列的堆叠模型, 并为每个物种选择了最佳的碱基分类器组合。步骤 5 , 我们比较了优化后的堆叠模型在 5 折交叉验证和独立测试中的预测性能与其他现有模型的预测性能。
2.2 数据集收集
Ch en 等人(C h en 等人, 2016)从 R M B as e (S u n 等人, 2016)中收集数据集, 通过机器学习方法识别 Ψ 站点。首先, 通过沿 R NA 序列滑动(2 ξ + 1 )-元核苷酸窗口收集中心有尿苷(U)的 R NA 片段; 当实验证实 R N A 样品的中心为 Ψ 位点时,视为阳性, 否则为阴性。然后, 利用 CD-HIT 软件将配对序列同质性≥60% 的样本与同类别的任何其他样本筛选出来, 并使用随机选择程序使负子集和正子集具有相同的大小。训练数据集包含 3 个数据集, 分别是 H_ 9 9 0 (H. s ap i en s )、M _ 9 4 4 (M . m us cul u s ) 和 S _ 6 28 (S . cerevi si ae) ,而独立测试数据集中只有 H_ 2 0 0 (H. s api ens ) 和 S 2 0 0 (S. cerevis i ae) 两个物种。训练数据集和独立测试数据集都有一半阳性样本和一半阴性样本。 此外, C h en 等人对预测器识别不同 ξ 值Ψ 位点的性能进行了评 估,发现当 ξ = 1 0 时,智人或 m .s musculus 的准确率达到峰值, 而酿酒链球菌的准确率在 ξ = 1 5 时达到峰值。因此, H 9 9 0 和 M _ 9 4 4 的 R NA 序列长度均为 2 1 n t , S _ 62 8 的 R NA 序列长度均为 31nt , h _ 2 0 0 和 S _ 20 0 的 R NA 序列长度分别为 2 1 n t 和 3 1 nt 。近年来,介绍中提到的模型都采用了相同的方法
表 1 训练和独立数据集信息。
物种 |
数据集 |
长度(bp) |
积极的样品 |
负样本 |
智人 |
H_990(培训) |
21 |
495 |
495 |
H_200(测试) |
21 |
Onehundred. |
Onehundred. |
|
酿酒酵母 |
S_628(培训) |
31 |
314 |
314 |
S_200(测试) |
31 |
Onehundred. |
Onehundred. |
|
m .骶 |
M_44(培训) |
21 |
472 |
472 |
数据集。在我们的研究中,我们使用相同的数据集建立了伪 st模型。这些数据集的详细信息如表 1 所示。基准数据集从 http://lin- group.cn/server/iRNAPseu/data 下载。
2.3 特征提取
在计算模型构建中,特征提取是关键的一步。 在我们的研究中, 我们彻底测试了 i L earn P lu s 软件包中几乎所有可用的 R N A 序列编码方案(C h en 等人, 2021)。然后, 根据其预测性能, 选择最佳的 6 种 编码 方 案来 确 定最 佳 特征 组合 , 包括 增 强核 酸 组成 (E NAC )、二进制特征、NCP、基于单链的位置特异性三核苷酸倾向(P ST NPs s )、两个核苷酸的位置特异性(PS 2 )和三个核苷酸的位置特异性(PS 3 ) (Chen 等, 2 01 7 )。
2.3.1 增强的核酸组成
ENAC 基于序列的定长窗口(默认值为 5)计算核酸组成, 窗口从 R NA 序列的 5 ′端连续滑动到 3 ′ 端,并将 R N A 序列编码为等长特征向量。
2.3.2 二进制特性(也称为 one-hot)
在二进制 编码 中 , 四维二进制向量用 来表 示核 苷 酸, 例如RNA 中的 A 、C 、G 和 U
表 2 各 核苷酸的化学结构(Chen et al., 2015)。
化学性质 |
类 |
核苷酸 |
环形结构 |
嘌呤 |
一个 G |
嘧啶 |
C U |
|
官能团 |
氨基 |
A、 C |
酮 |
克,你 |
|
氢键 |
强大的 |
C、 G |
弱 |
一个,你 |
分别编码为(1 0 0 0)、(0 1 0 0)、(0 0 1 0)、(0 0 0 1)和(0 0 0 1)。
2.3.3 核苷酸的化学性质
根据化学键和化学结构的差异,将 R NA 序列(AC GU) 的四个核苷酸分为三种不同的类别,如表 2 所示。
根据它们不同的化学性质,我们可以用三维坐标对 A 、C 、G 和 U 进行编码, 它们分 别编码 为 (1 ,1 ,1 ) 、(0 ,0,1 ) 、(0 ,1 ,0 ) 、(1,0 ,0 ) 和 (1,0,0)。
2.3.4 基于单链的位置特异性三核苷酸倾向
PSTNPss 使用统计规则编码 DNA 或 R NA 序列。一般来说,有43 个(即。64 个)三核苷酸,如 AAA 、AAC 、A AG 、U UU (TTT)。
因此,对于给定的 R NA 序列L-bp 长度,三核苷酸的位置特异性定义为 64× (L-2)矩阵:
2.5 堆叠集成学习模型
Z2, u , 当 N u N Nu + 1 ?u + 2
AAG∅ u ? ……堆叠策略可以结合来自多个分类 器的信息,生成更稳定的堆叠模型。这是一种非常有用的集成学习方法, 已成功应用于生物信因此,在我们的研究中, H_ 99 0 和 M_ 94 4 中的样本用 21 -2 = 1 9 个 PST NPss 特征来表示,S_ 62 8 中的样本用 31 -2 = 29 个 PS T NPs s 特征来编码。
2.3.5 两个核苷酸特异性位点( PS2) 和三个核苷酸特异性位点(PS3)
有 16 对(即 4 × 4 )对相邻的成对核苷酸,如 AA/ AT/AG…;因此,表示这样一对核苷酸的单个变量可以被编码为 16 个二进制变量,变成二进制 。 例 如 , AA 表 示 为 (100 00000 0000 0000) , AC 表 示 为(0100 00000 0000 000 )…, AAC 为(1000 0000 00000 0000 10000 0000 00000 0) 。PS3 由三个相邻的核苷酸(4 × 4 × 4 = 64)以类似的方式编码。
2.4 特征选择
在计算建模中去除冗余和避免过拟合的一种有用方法是特征选择, 因为它在提高模型性能方面起着至关重要的作用息学(M i s h ra et al ., 2 0 1 9; L i 等人,2 0 2 1 a)。p y th o n 中的“ m l x t end ”包(R as ch k a,2 01 8 )提供了一个 st ack in g 交叉验证算法, 通过扩展标准的 st ack in g 交叉验证算法为元级分类器准备输入数据。此外。利用该算法可以实现堆叠策略。堆叠策略可以最小化几个预测模 型的泛化错误率(S u et al ., 2 0 2 0),并有效避免过拟合(S h erwan i etal .,2021)。在本研究中, 我们采用堆叠 策略为 RNA Ψ 网站建立预测模型。堆叠学习策略有两个主要步骤。第一步,我们构建了一系列分类器, 称为基分类器。第二步,我们 用基分类器上一步得到的输出作为输入来训练另一个分类器, 称为元 分类器。
在我们的研 究中, 我 们评估了七种最 流行的算 法 :RF 、LR 、 SVM 、 GaNB 、自适应 B o ost in g (Ad aB oo st ) 、 XGB oo st 和梯度 Bo os tin g 决策树(GB DT ) 。RF 算法是一种基于决策树的综合学习算法。它可以通过构建多个决策树并合并它们来获得准确和稳定的预测。RF 是生物信息学中常用的算法之一(L v et al ., 2 0 20 ; El All ali 等人, 2 0 21 ; Yi n et al ., 2 0 21 )。LR 是一种广义线性分类 算法, 它利用sig m od 函数对所有数据进行非线性映射,将预测值限制在[0 ,1 ]以内,缩小预测范围,对样本进行分类。LR 是一种常见的机器学习方法(Joneset al., 2021;Suresh et al., 2022)。为了有效地表示序列, (Wei et al ., 2 02 0; L i 和 Wan g , 20 2 1; 朱等人, 2021)。S VM 是另一种在本研究中,我们首先使用卡方检验对六种编码方案的特征重要性分别进行排序,并使用 IFS 算法为每个方案选择最优特征集(Lv et al., 2020;Zhang et al., 2021)。随后,我们确定了最优特征组合。我们使用堆叠集成学习模型部分中选择的最好的四种算法来训练六种编码方案的最优特征,并根据精度(ACC)对它们进行排序。然后,我们使用排名第一的特征来构建 pseudo -st 模型,添加第二个特征来构建新模型,然后添加第三个特征,直到添加了所有获得的特征。最后,我们为每个物种选择了最优的特征组合。
线性分类算法, 是计算生物学中最流行的算法之一 (C h en et al. ,20 1 6; He et al ., 20 1 8)。S VM 的决策边界是寻找一个最优的分离超 平面来分割样本。Ga NB 基于贝叶斯定理, 假设特征条件相互独立,使用概率和统计方法对样本数据进行分类。Ga NB 也是一种常用的 算法(Yan et al ., 2 02 0; Sh ah et al ., 20 2 2 )。Ad aB o ost 、X GB o o st 和 GB DT 都是 b oo st 模型。它们使用不同的方法进行学习 ,形成一个 强大的分类器。它们被广泛应用于生物信息学中
受试者操作曲线(AUC ) (Mu et al., 2020;Li 等人, 20 21 a; 庄等,
2021)。Sn 、Sp 、ACC 、M C C 定义如下:
2022)。
对于每个算法, 我们选择了默认参数进行训练。 例如, 对于 RF ,我们将树编号设置为 100 ,树范围设置为 1 0 0 :1 0 00 :1 0 0 。对于 SVM ,核函数选择 rb f ,惩罚参数选择 1 .0 , 惩罚范围和伽马范围分别为
1 .0: 1 5 .0 :1 .0 和− 1 0 .0: 5.0: 1 .0 。对于 XGB o o st ,升压参数选择 g bt ree,最大深度设置为 3 ,惩罚范围为 3 :1 0: 1 。基于这些参数,我们通过 广泛的性能比较,选择了最好的四种算法来训练堆叠模型。随后, 我们用最好的四种算法训练了之前确定的三个物种的最优特征组合,作为候选基分类器。我们使用 LR 作为元分类器对堆叠模型进行训 练, 并对不同的基分 类器组合进行评估, 以选择最佳的基分类器组 合作为最终模型。
2.6 评价指标
我们使用几个广泛使用的性能指标来评估和比较 p s eu d o - st和其他现有方法的功能。指标包括敏感性(Sn )、特异性(Sp)、准确性(AC C)、马修相关系数(MCC) 和下面积
其中 TP 、TN 、FP 和 FN 分别表示真阳性、真阴性、假阳性和假阴性。我们绘制以 1 -Sp 为横坐标、Sn 为纵坐标的受试者工作特征 (recei v er operati ng charact eristi c, ROC)曲线并计算 AU C 值。
3 结果与讨论
3.1 确定最优特征组合
首 先 , 我 们 用 七种 广 泛 使 用 的 机 器 学 习 算 法 彻 底 测 试 了 iL earnP lu s 软件包中几乎所有可用的 R NA 序列编码方案, 并用默认参数为每种算法建立模型。 然后,选取最佳的 6 种编码方案和 4 种机器学习算法构建堆叠模型。最佳的 6 种编码方案分别是 E NAC 、 bi n ary feat ure、NC P 、P S T NP ss 、PS2 和 PS3 ,最佳的 4 种算法分别是 LR 、RF 、S VM 和 GaNB 。对于每个算法,我们训练了六个独立的分类器特征, 并根据 AC C 对它们进行排名。每个模型的 AC C 如图 2 所示。
如图 2 所示, RF 对 H_ 9 90 和 M _ 94 4 的 ACC 最高,而 LR 对 S_ 628 的 ACC 最高。P S T NPss 和 PS3 特性比其他特性对模型的贡献更大。对于 H_ 9 90 和 M _9 4 4 ,使用 P S T NPss 特征训练的 RF 模型优于其他特征。而使用 P S3 特征训练的 LR 模型在 S _ 6 28 的表现优于其他特征。总体而言, 6 个特征对模型性能的贡献顺序为: 智人的 PST NPs s > P S3 > P S2 > 二进制> E NAC > NCP , S 的 PS 3 > PS T NP ss> PS2 >二进制> ENAC > NCP。
表 3 三个物种的基分类器组合性 能。
物种 |
基分类器组合 |
5 折交叉验证 |
独立测试 |
||||||||
ACC(%) |
MCC(%) |
Sn(%) |
Sp(%)< |
AUC(%) |
ACC(%) |
MCC(%) |
Sn(%) |
Sp(%) |
AUC(%) |
||
智人 |
Rf + lr |
93.64 |
87.28 |
94.34 |
92.93 |
98.56 |
89.00 |
79.02 |
97.00 |
81.00 |
96.51 |
Rf + lr + SVM |
93.43 |
86.88 |
94.34 |
92.53 |
98.42 |
86.50 |
73.84 |
94.00 |
79.00 |
95.47 |
|
RF + LR + SVM + GaNB |
92.93 |
85.88 |
93.94 |
91.92 |
98.41 |
86.00 |
74.17 |
97.00 |
74.00 |
95.56 |
|
酿酒酵母 |
Rf + lr |
87.74 |
75.49 |
86.94 |
88.54 |
95.95 |
83.50 |
67.00 |
83.00 |
84.00 |
89.00 |
Rf + lr + SVM |
87.74 |
75.49 |
86.94 |
88.54 |
95.25 |
82.50 |
65.00 |
82.00 |
83.00 |
87.64 |
|
RF + LR + SVM + GaNB |
88.06 |
76.13 |
86.94 |
89.17 |
95.17 |
81.50 |
63.00 |
81.00 |
82.00 |
86.48 |
|
m .骶 |
Rf + lr |
89.60 |
79.21 |
90.66 |
88.54 |
96.20 |
|||||
Rf + lr + SVM |
87.47 |
74.96 |
88.32 |
86.62 |
95.29 |
||||||
RF + LR + SVM + GaNB |
87.37 |
74.74 |
88.11 |
86.62 |
95.28 |
cerevi si ae 和 P S T NP ss > PS 3 > E NAC > PS 2 > bi n ary > NC P fo r M .m us cl e us 。然而, 没有一种类型的特征在任何物种上的表现始终优于其他特征, 也没有一种算法在任何 物种上的表现始终优于其他算法。我们可以看到, 使用单一特征的单一模型并不令人满意;因此,我们可能需要整合学习策略来提高模型性能。
在实验中, 我们发现 PS3 特征对模型性能有相当大的贡献, PS 3 的特征向量维数特别高, 可达 1000 多个维数。从理论上讲,特征越多, 越有可能在有限的训练样本中提供具有较强区分能力 的 特 征 。 然 而 , 过 多 的 特 征 可 能 会 造 成 冗 余 和 “ 维数灾 难”(S u res h 等, 2022) ,从而导致模型的训练时间过长,存在过拟合的风险, 降低模型的泛化能力。特征选择可以去除一些冗余 特征,减少训练时间,选择真正相关的特征,增强模型的预测性能(Jo n es et al., 2 02 1;Z hang
等人,2021;Suresh 等人,2 022 )。
基于 LR 算法,我们采用卡方检验和 IFS 策略来确定最优特征(Dao et al ., 2 01 9;Lv 等人,20 20; Z hang et al ., 20 21 )。我们首先使用卡方检验分别对六种编码方案的特征重要性进行排序,然后设置一个完整的排序特征集,命名为 F: F = {F , F , 1 …2 F , F} , n − 1 其中 n n 表示特征数。我们通过执行 5 倍交叉验证测试,使用 IFS 测试训练数据集。在每次迭代中,IFS 将 F 中的一个特征添加到初始特征子集中,以构建 n 个特征子集。当 ACC 值达到最大值时,得到最优特征子集。PS 3 编码方案下的智人、酿酒猴和肌肉猴的 ACC 曲线如图 3 所示。当特征数为前 124 、27 6 和 11 5 时,我们对智人(H.s api ens )、猪链球菌(S. cerevisi ae)和肌肉鼠(M . mus culus )中Ψ 位点的预测准确率分别为 71 .6 2 % 、8 0.57 %和 76.86%(图 3)。
表 4 pseudo - st 与 其 他现有方法在相同基准训练数据集上的性能比较。
物种 |
智人 |
葡萄球菌 |
m.骶 |
|||||||||
方法 |
ACC(%) |
MCC(%) |
Sn(%) |
Sp(%) |
ACC(%) |
MCC(%) |
Sn(%) |
Sp(%) |
ACC(%) |
MCC(%) |
Sn(%) |
Sp(%) |
PseU-ST |
93.64 |
87.28 |
94.34 |
92.93 |
87.74 |
75.49 |
86.94 |
88.54 |
89.60 |
79.21 |
90.66 |
88.54 |
PseUdeep |
66.99 |
35.00 |
74.47 |
60.71 |
72.73 |
45.00 |
61.75 |
78.13 |
72.45 |
44.00 |
66.70 |
77.36 |
PsoEL-PseU |
70.80 |
42.00 |
66.90 |
74.70 |
80.30 |
62.00 |
69.10 |
91.40 |
76.50 |
53.00 |
82.20 |
70.80 |
海豚 |
78.53 |
58.45 |
89.11 |
67.94 |
81.69 |
63.38 |
81.21 |
82.17 |
77.75 |
55.55 |
77.83 |
77.67 |
iPseU-Layer |
79.70 |
60.00 |
71.18 |
88.22 |
80.08 |
60.00 |
77.92 |
81.82 |
89.34 |
79.00 |
84.68 |
93.76 |
rf-伪(10 倍) |
64.30 |
29.00 |
66.10 |
62.60 |
74.80 |
49.00 |
77.20 |
72.40 |
74.80 |
50.00 |
73.10 |
76.50 |
RF-PseU(厕所) |
64.00 |
29.00 |
65.90 |
62.60 |
75.80 |
52.00 |
78.20 |
73.40 |
74.50 |
48.00 |
72.70 |
75.20 |
EnsemPseU |
66.28 |
33.00 |
63.46 |
69.09 |
74.16 |
49.00 |
73.88 |
74.45 |
73.85 |
48.00 |
75.43 |
72.25 |
XG-PseU |
65.44 |
31.00 |
63.64 |
67.24 |
68.15 |
37.00 |
66.84 |
69.45 |
72.03 |
45.00 |
76.48 |
67.57 |
iPseU-CNN |
66.68 |
34.00 |
65.00 |
68.78 |
68.15 |
37.00 |
66.36 |
70.45 |
71.81 |
44.00 |
74.79 |
69.11 |
PseUI |
64.24 |
28.00 |
64.85 |
63.64 |
65.13 |
30.00 |
62.74 |
67.52 |
70.44 |
41.00 |
74.58 |
66.31 |
iRNA-PseU |
60.40 |
21.00 |
61.01 |
59.80 |
64.49 |
29.00 |
64.65 |
64.33 |
69.07 |
38.00 |
73.31 |
64.83 |
注:10 折- 10 折交叉验证;LOO-leave-one-out 交叉验证。粗体值表示 pseudo - st 的性能。
表 5 pseudo - st 与 其他现有方法在相同独立测试数据集上的性能比较。
物种 |
智人 |
酿酒酵母 |
||||||
方法 |
ACC(%) |
MCC(%) |
Sn(%) |
Sp(%) |
ACC(%) |
MCC(%) |
Sn(%) |
Sp(%) |
PseU-ST |
89.00 |
79.02 |
97.00 |
81.00 |
83.50 |
67.00 |
83.00 |
84.00 |
PseUdeep |
66.18 |
33.00 |
73.53 |
58.82 |
80.88 |
62.00 |
77.45 |
84.31 |
PsoEL-PseU |
75.50 |
51.00 |
76.00 |
75.00 |
82.00 |
64.00 |
83.00 |
81.00 |
海豚 |
77.35 |
55.13 |
82.30 |
72.40 |
83.50 |
67.27 |
88.00 |
79.00 |
iPseU-Layer |
71.00 |
43.00 |
63.00 |
79.00 |
72.50 |
45.00 |
68.00 |
77.00 |
RF-PseU(10 倍) |
75.00 |
50.00 |
78.00 |
72.00 |
77.00 |
54.00 |
75.00 |
79.00 |
RF-PseU(厕所) |
74.00 |
48.00 |
74.00 |
74.00 |
74.50 |
49.00 |
70.00 |
79.00 |
EnsemPseU |
69.50 |
39.00 |
73.00 |
66.00 |
75.00 |
51.00 |
85.00 |
65.00 |
XG-PseU |
67.50 |
35.00 |
68.00 |
67.00 |
71.00 |
42.14 |
75.00 |
67.00 |
iPseU-CNN |
69.00 |
40.00 |
77.72 |
60.81 |
73.50 |
47.00 |
68.76 |
77.82 |
PseUI |
65.50 |
31.00 |
64.85 |
68.00 |
68.50 |
37.00 |
65.00 |
72.00 |
iRNA-PseU |
61.50 |
23.00 |
58.00 |
65.00 |
60.00 |
20.00 |
63.00 |
57.00 |
注:10 折- 10 折交叉验证;LOO-leave-one-out 交叉验证。加粗值表示 pseudo - st 的性能。
ENAC 、二进制、NC P 和 PS 2 编码方案的 AC C 曲线如图 S 1-4 所示。最优特征为: 猿人 E NAC 8 0 分前 46 名,二进制 84 分前 23 名,NCP 63分前 34 名,PS 2 3 20 分前 1 00 名,酿酒链球菌 E NAC 1 20 分前 21 名,二进制 1 24 分前 40 名,NCP 9 3 分前 37 名,PS2 4 80 分前 11 6 名,肌肉分枝杆菌 E NAC 8 0 分前 17 名,二进制 84 分前 49 名, NCP 6 3 分前 44名,PS2 3 20 分前 63 名。PST NPss 的特征尺寸较小; 因此,选择所有PSTNPss 特征。
接下来,我们检查了特征的最佳组合。我们使用排名第一的特征构建 ps eud o - st 模型,然后添加第二个特征构建新模型,然后添加第三个特征,直到添加所有获得的特征。智人、酿酒鼠和肌肉鼠的特征组合表现见补充表 S1 。最优特征 组合为葡萄球菌 PS3 + PS T NPss , 肌鼠 PST NPss + PS 3 ,无论在 5 倍交叉验证还是独立测试中均获得了最佳的指标(补充表 S1 )。对于 H 。
PSTNPss + PS3 在 5 倍交叉验证中表现最佳,但 PST NPss+ PS3 + PS2 的 MCC 和 Sn 在独立测试中表现较好,PST NPss + PS3 + PS2+ 二进制+ENAC 的 ACC 和 Sp 在独立测试中表现较好,但分别仅高出 0 .2 8 %、
1.00 %、0 .5 %和 7%。因此,选择 PSTNPs s + PS3 作为智人的最优特征组合。
3.2 基分类器组合的评估
我们使用 st acki ng 策略构建集成学习模型。首先,我们使用前步 选择的最优特征组合分别构建 RF 、LR 、S VM 和 GaNB 模型作为候 选基分类器, 即智人 (H. sapi ens ) 为 PS T NPss + PS 3 , 猪链球菌(S .cerevi si ae)为 P S3 + PS T NP ss ,肌肉鼠(M . m us culu s)为 P S T NPss + P S3 。我们比较了每个物种的四种模型的性能,并根据 AC C 对它们进行了 排名。图 4 展示了四个模型对每个物种的表现。四种模型对每个物 种的最佳表现依次为 RF 、LR 、S VM 和 GaNB (图 4)。RF 模型的表 现都很好, 但在智人 和猪链球菌中存在明显的过拟合, 因此我们采 用叠加策略。我们使用 LR 作为元分类器来训练堆叠模型,以确定最 优基分类器。我们评估了三种不同的碱基分类器组合,即 R F + LR , RF + LR + S VM 和 RF + L R + S VM + GaNB 。表 3 列出了每个物种的 三种组合的性能。对于智人, RF + LR 组合在交叉验证或独立测试 中均取得了所有指标的最佳性能(表 3)。对于 m .s mu s cul us ,R F + LR 组合在交叉验证中也取得了所有指标的最佳性能。对于酿酒酵母, RF + LR + S VM + GaNB 组合在交叉验证中几乎所有指标的性能都最 好,但在独立测试中, RF + LR 组合在所有指标上的性能都最好。 对比两种组合的性能发现,在交叉验证中, R F + LR + S VM + GaNB 组合的 AC C 、MC C 和 Sp 分别比 R F + LR 组合高 0 .3 2 % 、0 .6 4 % 和0.6 3 % ,但 AUC 比 RF + L R 组合低 0 .78 %,且 Sn 相等。在独立测试中, RF + LR 的各项性能指标均优于 RF + LR + S VM + GaNB ,其中 AC C 、M C C 、Sn 、Sp 和 AUC 分别高出 2 .0 0 % 、4 .00 % 、2 .00 %、2.0 0 % 和 2.5 2 % 。因此,选择 R F + LR 作为酿酒酵母的最佳碱基分类器组合。
我们进一步绘制 R OC 曲线来评估不同组合的基分类 器和堆叠模型的 性能。如图 5 所示,在交叉验证中,R F + L R 组合在智人(H. s api en s)、葡萄球菌(S. cerevis i ae)和肌肉鼠(M . m us cul us )三个物种的 AUC 均达 到了最佳性能,分别为 9 8 .56 % 、9 5 .9 5 % 和 9 6 .2 0 % 。综上所述,我们 选择 R F + LR 作为堆叠模型的最佳基分类器组合,并将该堆叠模型 命名为 pseud o - st。
3.3 与其他现有模型的比较方法
为了进一步检查 p s eu d o - st 的性能,我们将其与使用相同基准训练的其他现有方法进行了比较,如表 4 、5 所示。如表 4 所示,与使用相同训练数据集的其他现有方法相比, p s eu d o - st 在所有三个物种的三个重要度量中表现最好,即 AC C , MC C 和 Sn 。对于 H_ 9 9 0,ps eud o - st 的 AC C 和 M C C 分别比第二优方法 i Ps eU -L ay er 高 1 3 .9 4 %和 2 7 .2 8 % 。p s eu do - st 的 Sn 值比第二优的鼠海豚法高 5 .2 3 %。对于 S_ 62 8 ,ps eud o - st 的 ACC 、M C C 和 Sn 分别比次优方法鼠海豚高6.0 5 % 、1 2 .1 1 % 和 5 .73 %。对于 M _ 9 44 , p s eud o - st 方法的 AC C 、M CC 和 Sn 分别比 iP s eU -L ay er 方法高 0 .26 % 、0 .2 1 % 和 5 .9 8 %。此外,对于 H_ 9 9 0, p s eud o - st 方法的 Sp 值比第二优方法 iPs eU -L ay er方法高 4.71 % 。
为了检查 p s eu d o - st 模型是否受到过 拟合的影响,我们对独立测试数据集进行了独立测试以验证模型。p s eu d o - st 与其他现有方法的性能比较如表 5 所示。 如所示, p s eu d o - st 在 H_ 2 0 0 的所有四个测量中表现最好。p s eu d o - st 的 AC C 、M C C 和 Sn 分别比次优法鼠海豚高 1 1 .6 5 % 、2 3 .8 9 % 和 1 4 .7 0 % ,p s eu d o - st 的 Sp 比次优法 iPseU -L ay er 高 2 .0 0 %。
此外,独立验证和交叉验证的预测效果差异不大, p s eu d o - st 对H_2 0 0 的 AC C 和 M C C 分别为 8 9 .0 0 % 和 7 9 .02 % ,与 H_ 9 9 0 的 9 3 .64 %和 8 7 .2 8 % 接近。p s eu do - st 在 S_ 2 00 上的 AC C 值为 8 3 .5 %,M CC值为 6 7 .0 0 % ,与 S _ 62 8 (分别为 8 7 .7 4 % 和 7 5 .49 %)非常接近,没有过拟合。
4 结论
在我们的研究中,开发了一种新的称为PseU-ST(可在https://github.com/jluzhangxinrubio/PseU-ST获得)的堆叠集成学习方法,用于鉴定智人、酿酒酵母和小家鼠中的RNA位点,具有更稳定和准确的性能。我们彻底评估了iLearnPlus软件包中几乎所有可用的RNA序列编码方案,并测试了七种最流行的机器学习算法,以确定最佳特征和最佳基础分类器组合。最后,我们为这三个物种分别开发了一个优化模型。由于采用了堆叠策略和最优特征选择算法,PseU-ST在交叉验证和独立测试中均取得了比现有模型更好的性能。此外,我们解释了pseus-ST模型的特征重要性,其中PSTNPss特征显示出发挥了重要作用。
这项研究中使用的策略是通用的,它们可以用来预测其他DNA/RNA修饰位点,如DNA N4-甲基胞嘧啶和5-甲基胞嘧啶位点。我们相信PseU-ST将成为一个强有力的工具,促进社区范围的工作,以确定ψ位点,并为生物学验证提供高质量的确定的ψ位点