论文解读:《iRNA-PseU:鉴定RNA假尿苷位点》
  24eTNZKd6a8S 2023年11月02日 51 0

标题: iRNA-PseU: Identifying RNA pseudouridine sites.

DOI: 10.1038/mtna.2016.37

期刊: DOAJ: Directory of Open Access Journals - DOAJ

作者: Wei Chen; Hua Tang; Jing Ye; Hao Lin; Kuo-Chen Chou

出版日期: 2016-01-01

网址: https://doi.org/10.1038/mtna.2016.37

老文章了,为了看看数据集,结果没找到,随便看看就得了

摘要

作为最丰富的 RNA 修饰, 假尿嘧啶在许多生物过程中起着重要作用。这种修饰发生在尿嘧啶位点, 由假尿嘧啶合成酶催化, 几乎在 所有类型的 RNA 中都有观察到, 包括转移 RNA、信使 RNA、 小核或核核 RNA 和核糖体 RNA。 因此, 其对基础研究和药 物开发的重 要性不言而喻。尽管已经开发了一些实验技术来检测伪尿嘧啶位点, 但它们既耗时又昂贵。面对后基因组时代  RNA 序列的爆炸性增 长, 我们面临着通过计算方法解决问题的挑战 :对于一个未表征的 RNA 序列, 我们能否预测其哪些尿嘧啶位点可以被修饰为假尿嘧啶,哪些不能 ?在这里, 通过将核苷酸的化学性质及其出现频率密度分布纳入伪核苷酸组成 (PseKNC)的一般形式, 提出了一个称为 “ iRNA- PseU” 的预测器。通过严格的 jackknife 测试、独立数据集测试和实用的全基因组分析证明, 所提出的预测器显著优于其对应的预测 器。为了方便大多数实验科学家, iRNA-PseU 的网络服务器建立在 http://lin.uestc.edu.cn/server/ iRNA-PseU 上, 用户可以很容易地得 到 他们想要的结果, 而不需要通过数学细节。

介绍

假尿嘧啶(5-核糖嘧啶,缩写为希腊字母 Ψ) 是最普遍的 RNA(核糖核酸) 修饰,几乎在所有生命领域都有发现最近的研 究表明 Ψ 存在于各种类型的 RNA 中,如 tRNA(转移 RNA)、 mRNA( 信使 RNA)、snRNA( 小核 RNA)、snoRNA( 小核仁 RNA)和 rRNA(核糖体 RNA)如图 1 所示,Ψ 是尿 苷的异构体,由高度保守的伪尿苷合成酶催化,将尿苷残基的碱基与其糖 分离,然后沿着 N3-C6 轴“旋转”180°,随后碱基的 5-碳 重新附着到糖的 1 ' -碳上Ψ 修饰的分子功能,近年来才刚刚被揭示出来。例如,Ψ修饰在稳定 tRNA 结构中起着不可或缺的作用,2-4,在剪接体 RNA 中也起着重要的作用,负责基因调控。Ψ 修饰存在于与 RNA-RNA 或 rna -蛋白质相互作用有关的区域,以促进剪接体的组装和反应以产生可行的 mRNA,例如 AU/AC 内含子剪接。2,3,5 此外,研究表明,在 mRNA 中掺入 Ψ 可以提高翻译效率,减少 rna 引发的先天免疫反应尽管在揭示 Ψ 修饰的作用方面取得了很大进展,但其生物学功能和作用机制对大多数 RNA 系统来说仍然是难以捉摸的。因此,有关的信息转录组过程中的 Ψ 修饰位点对于深入揭示相关的生物学原理至关重要。通过使用高通量技术,如 Ψ-Seq,7, Ψ 修饰的分布已经在智人,m.s musus 和 S. cerevisiae 的转录组中被表征。7-10但是这些技术对于全基因组分析来说是耗时且昂贵的。面对快速增加的测序基因组数量,人们迫切希望开发出能够及时获取这类信息的计算方法。事实上,最近 Liet al.11 已经在这方面做出了努力。这些作 者提出了一种称为 PPUS 的预测器,用于识别 pu 特异性假 尿嘧啶位点。然而,PPUS 预测器 11 只能识别智人和酿酒 链球菌的 Ψ 修饰位点。此外,它的准确性肯定还需要提高,这可以通过将核苷酸化学性质纳入考虑来实现。本研究的启动是为了尝试开发一种新的、更强大的预测器,以识别成功率更高的 Ψ 修饰位点,并能够覆盖更多的物种。为了开发出逻辑清晰且具有广泛实用价值的预测器,请遵循一系列最近出版物所做的五步指导方针 12(参见文献 13- 21):(i) 如何构建或选择有效的基准数据集来训练和测试预测器;(ii)如何用有效的数学公式来表述生物序列样本

假 Ψ-site-containing RNA 样本;N− 为假 Ψ-site-containing RNA 样本的总数,而 N+ − 为错误预测为真 Ψ-site-containing RNA 样本的假 Ψ-site-containing RNA 样本的数量。根据方程 1,我们可以清楚地看到以下内容。当 N− + = 0 意味着没有一个真实的 Ψ-site-containing RNA 样本被错误地预测O 为假的,我们有敏感性 Sn = 1。当 N− + = N+ 意味着所有真实糖 的 Ψ-site-containing RNA 样本都被错误地预测为假的,我们糖 有敏感性 Sn = 0。同样,当 N+− = 0 意味着假的 Ψ-site-尿苷(U )  假尿嘧啶(Ψ)  containing RNA 样本中没有一个被错误地预测为真实的,我们有特异性 Sp = 1;而 N+− = N− 意味着所有假的 Ψ-site-

 

论文解读:《iRNA-PseU:鉴定RNA假尿苷位点》_直方图

图 1 为伪尿嘧啶(Ψ)修饰示意图。其形成是由 Ψ 合酶催化的。

能够真实反映其与待预测靶标本质相关性的表达;(iii) 如何引入或开发强大的算法(或引擎)来操作预测;(iv) 如何适当地进行交叉验证以客观地估计其预期精度;(v) 如何建立一个公众可以访问的用户友好的 web  服务器。下面,我们将逐一解决上述五个步骤。

结果  

正如引言中提到的,在开发一个有用的预测器的五个重要步骤中,其中一个是如何客观地评估其预期成功率要解决这个问题,需要考虑以下两点:一是应该采用什么指标来反映预测器的成功率;另一个是应该使用什么测试方法来推导指标率。下面,我们就来解决这两个问题。

定 量测量预测器质量的指标 以下四个指标通常用于衡量预测器的质量:(i) 总体准确性或 Acc;(ii) 马修相关系数(Mathew’s correlation coefficient) 或 MCC;(iii)灵敏度或 Sn;和(iv)特异性或 Sp.22 不幸的是,这四个指标的传统公式并不直观,大多数实验科学家感到难以理解它们,特别是对于 MCC 指标。然而,有趣的是,如果使用 Chou 的符号和推导来研究信号肽,23 上述四个度量可以表述为以下 13,24:

Sn = 1− N− + 0≤Sn≤1 N+

N+− 0≤Sp≤1 Sp = 1− N −

0≤Acc≤1

– 1≤MCC≤1 

containing RNA 样本都被错误地预测为真实的,我们的特异性 Sp = 0。当 N− + =N+− = 0 意味着阳性数据集中没有一个真实的 Ψ-site- RNA 样本被错误地预测,阴性数据集中没有一个虚假的 Ψ-site-containing RNA 样本被错误地预测时,我们有总体精度 Acc = 1 和 MCC = 1;当 N− + = N+ 和 N+− = N− 意味着阳性数据集中所有真实的 Ψ-site-containing RNA 样本和阴性数据集中所有虚假的 Ψ-site-containing RNA 样本都被错误预测时,我们的总体精度 Acc = 0, MCC =− 1;而当 N - + = N+ / 2 和 N+-= N−  / 2 时,我们有 Acc = 0.5 和 MCC = 0,这意味着没有比随机猜测更好。从上面的讨论中我们可以看到,方程 1 的表述使得敏感性、特异性、总体精度和 Mathew’s 相关系数的含义更加直观和容易理解,特别是 MCC 的含义,在最近的一系列出版物中得到了许多研究者的赞同和采用(参见,例如,参考文献)。14 日,17 日,25 - 30)。请注意,在方程 1 中的四个指标中,最重要的是 Acc 和 MCC,因为前者反映了预测器的整体准确性,而后者反映了稳定性。度量 Sn 和 Sp 用于从两个不同的角度测量预测器,并且它们相互约束。

然而,需要指出的是,方程 1 中定义的方程组只对单标签系统有效。对于在系统生物学 32–34 和系统医学中出现越来越频繁的多标记系统,35 需要一套完全不同的度量标准,如 ref. 36 所述。Jackknife test 的验证定义了一套好的评估指标后,接下来就是应该使用什么验证方法来获得指标值。

在统计预测中,经常使用以下三种交叉验证方法来推导预测器的指标值:独立数据集测试、子抽样( 或 k 折交叉验证)测试和 jackknife 测试。37 然而,在这三种方法中,折刀检验被认为是最不随意性的方法,它总是可以为给定的基准数据集产生一个独特的结果,如参考文献 12 所述,并由其中

的公式 28-32 所示。因此,重叠刀检验已被广泛认可,并越来越多地被研究人员用于检查各种预测因子的质量( 参见,例如,参考文献。38-46)。相应地, jackknife test 也被用来检验当前研究中提出的模型的性能。 其中 N+表示调查的真实 Ψ-site-containing RNA 样本总数,而 N− +表示错误预测的真实 Ψ-site-containing RNA 样本数量为分子治疗-核酸在折刀测试过程中,基准数据集中的每个 RNA 样本依次被挑出作为一个独立的测试样本,计算所有规则参数,不包括被识别的规则参数。

对智人基准数据集(参见方程 1 和补充资料 S1)进行折刀测试得到的结果为 Sn = 61.01%

Sp=59.80%

(2) Acc = 60.40%

MCC = 0.21

that on (2)for S. cerevisiae(见补充资料 S2) by sn = 64.65%

Sp=64.33%

(3)

Acc = 64.49%

MCC = 0.29

以及关于 M. musculus 的 (3)(见补 充资料 S3) sn = 73.31%

(4)中的样本没有一个出现在基准数据集 (1)中;  (5)

中的样本没有一个出现在基准数据集  (2)中。两个独立

数据集的详细序列分别参见补充信息 S4 和补充信息 S5。

表 1 分别是使用 ppus11 web 服务器和 i RNA-Ps eU web 服务器对智人(H. sapiens)和猪链球菌(S. cerevisiae)两个独立的数据集所获得的结果。从表中我们可以看到以下内容。(i)与 PPUS 相比,iRNA -P s eU 对 Acc 和 MCC 的预测率均显著高于 P P US,表明所提出的预测器不仅更准确,而且更稳定。(ii)与 i RNA - Ps eU 相比, ppuss 产生 11 的 Sn 和 Sp 之间的间隙要大得多。这种由 PP US 产生的极度偏斜的剖面意味着它的预测结果包含很多假阳性或假阴性以及大量的噪声。正如在“定量测量预测器质量的度量”一节中提到的,Sn 和 Sp 是相互制约的。31 相应地,只使用两者中的一个进行比较是没有意义的。有意义的比较应该基于两者结合的结果,这不是别的,就是 MCC。

为了进一步证明其在实际应用中的能力,我们对酿酒酵母的第 XII 染色体进行了 i RNA -P s e U 全基因组分析。在这样一个独立的 RNA 序列上获得的结果如图 2 所示 ,为了便于比较,还显示了伪 seq 技术获得的相应实验结果 7 。从图中可以看出,在已知的 6  个 Ψ 位点中,iRNA-P s eU 正 确识别了 5 个, 再次证明了 iRNA-PseU 在 Ψ 位点识别方面确实是很 有 前景的。

sp = 64.83%

Acc =

(4)

 图 形化分析 为什么提出的方法会如此成功?要解决这个问题,给出一个简单的答案并不容易。幸运的是,

讨论  

与现有预测器的比较

据我们所知,到目前为止, P P US1 1 是唯一现有的预测因子,可用于识别 RNA 序列中的 Ψ 位点。需要指出的是,式 4 给 出的结果超出了 P P US1 1 的范围,因为它可以用于识别智人 (H. sapiens) 和酿酒链球菌(S. cerevisiae)的 RNA 序列中的 Ψ 位点,而不能用于识别 m.s musculus。

然而,对于智人和猪链球菌,如果没有 P P US 的程序代码,也很难给出相应的叠刀结果。幸运的是,像 i rna - psu 预测 器一样, P P US 也有一个网络服务器预测器,这将使通过在 同一独立数据集上的性能来比较两个预测器成为可能。为了实现这一点,我们分别为智人(H. sapiens )和猪链球菌(S. cerevisiae)构建了两个独立的数据集<s:1>(4)和<s:1>(5)。  100 chrXI I : 45216 8- 452367  

论文解读:《iRNA-PseU:鉴定RNA假尿苷位点》_直方图_02

 表 1 新预测器与现有预测器分别在智人(补 充信息 S4)和酿酒链球菌(补充信 息 S5)独立数据集上的比较

 

论文解读:《iRNA-PseU:鉴定RNA假尿苷位点》_直方图_03

图 2 酿酒酵母 XII 染色体 200- nt (452 168 ~ 452 367 )基 因组区 iRNA-Pse U 预测结果与实验结果比较。上图显示了 iRNA-P se U 计算的概率值。中间的面板显示了使用伪 seq 技术确定的实验结果,其中六个已知的 Ψ 位点用红色矩形突出显示。7 蓝色虚线表示预测结果与实验结果的一致性。下方面板显示的是相对基因组坐标。

Acc

物种  预测  (%)c 世纪 挑战 集团  Sn (%)c Sp (%)c智人 PPUS a 52.50 0.13 6.0 99.00 irna - psu 65.00 0.30 60.00 70.00酿酒酵母 PPUSa 71.00 0.44 56.00 86.00 iRNA-PseUb 73.00 0.46 81.00 65.00aLi 等人开发的predictor,11 可以在http://lyh.pkmu 上找到。cn/ppus/。b 本文提出的预测器。c 指标的定义见公式 1。

许多生物系统及其复杂的关系可以通过直观的图形方法来揭示,如研 究 酶 催化 反 应 、47 – 4 9   蛋白 质 折叠 动 力学 和 折 叠速 率 、 50HIV -1 逆转录酶的抑制、5 1 ,52 药物代谢系统、53 分析大规模生物序列, 54 以及最近使用文相图或图形来 5 5 分析蛋白质- 蛋白质相互作用。

为了提供一个直观的图表关于新提出的方法的性能,使用了接收者工作特征(ROC)57,58 。在 ROC 图中,纵坐标为真阳性率(敏感性),横坐标为假阳性率(1-特异性)。最佳的可能预测方法将产生一个坐标为(0,1)的点,代表 100%的灵敏度,0假阳性率或 100%的特异性。57,58 因此,(0,1)点也被称为完美分类。完全随机猜测,从该点出发,沿着对角线会得到一个点


(0,0)到(1,1)。ROC 曲线下的面积,也称为 AUROC,通常用于表示二值分类器的性能质量:AUROC 的值为 0.5 相当于随机预测,AUROC 的值为 1 表示完美预测。因此,为了客观评价 iRNA -P s eU 识别 Ψ 位点的整体性能,我们绘制了 ROC曲线,并在图 3 中报告了 auroc。如图所示,i RNA -P s eU 识别 Ψ 位点的 AUROC 分数在智人、肌肉鼠和酿酒链球菌基因组中分别为 0.64、0.75 和 0.81。

此外,为了深入分析不同特征对 Ψ 位点识别的贡献,我们建立了两个模型:一个基于核苷酸化学性质,另一个基于核苷酸密度。验证的结果如图 4 所示,其中橙色、绿色和蓝色的直方图分别表示基于核苷酸密度、核苷酸化学性质及其组合训练的模型的准确率得分。从图中可以看出,对于 Ψ位点的识别,核苷酸化学性质(绿色)比核苷酸密度(橙色)的贡献更大,但后者在预测中确实起到了互补作用,蓝色直方图比蓝色和橙色的都高。由于假尿嘧啶是由 Ψ 合成酶催化的,这些合成酶需要识别和结合特定的基因组区域,因此上述发现表明核苷酸的化学性质可能与合成酶与 RNA 序列的相互作用密切相关。

结论  

预计所提出的预测器将成为基因组分析中识别 Ψ 位点的非常有用的高通量工具,或至少对现有的基因组分析 PPUS 预测 11 器起到补充作用。 

基准数据集。为了便于后面的描述,我们使用以下方案来表示 RNA 样本

图 3 通过受试者工作特性曲线显示 irna - pseudo 的性能的图形说明。

Rξ( )=Ν − ξΝ − ( ξ − 1) ⋅ ⋅ ⋅ Ν − 2Ν − 1 Ν +1Ν + 2⋅⋅⋅ Ν +( ξ − 1) Ν + ξ (5)

其 中中 心 表示 “ 尿 嘧啶 ” , ξ 下标 ξ 是 一 个 整数 , − ξ

Νrep res en ts 位于中心 ξ- ξ-th 的上游核苷酸, + ξ Νt h e ξ- ξ- th 的下游核苷酸, 以此类推。(2 ξ + 1)元组 R NA 样本 R ξ ( 以下简称“R” ,简称“R ” )可进一步分为以下两类:

Rξ( )∈ RRξ ξ− +(( )),如果o therw is eits 中心 ψ 网站

 40

式中, R ξ +( 洽洽会) 表示实验证实中心尿嘧啶可以通过 Ψ 修饰转化为伪尿嘧啶的 R NA 样品, R ξ − (洽洽会) 表示中心尿嘧啶不能通过 Ψ 修饰转化为伪尿嘧啶的 R NA 样品, 符号 表示

20 集合论中“ 的成员”。

在文献中,基准数据集通常由一个训练数据集和一个独立的测试数据集组成:前者用于训练模型,后者用于测试模型。但正如在一篇综合综述中指出的,59 完全没有必要人为地分离一个基准

 


图 4 对三个模型贡献的深入分析 :橙色直方图代表基于核苷酸密度训 练的模型在识别 Ψ 站点时获得的准确率得分 ;绿色的代表基于核苷酸化学性 质的 那个 ; 蓝色的 是结合 上述 两种模 型得到 的。 详 见正文。


如果模型通过 jackknife test 或 subsampling (K-fold)交叉验证进行评估,则将数据集分成两部分,因为由此获得的结果实际上是来自许多不同独立数据集测试的组合。因此,当前研究的基准数据集 S 可以表述为

ξ =             (7)

其中, 正子集 RNA 只包含真实 Ψ 位点的样本; 负子集 RNA 只包含假 Ψ 站点的样本; 而 U 代表集合论中“ 并” 的符号。

由于 R N A 样本长度 R ξ (t es t )为 2 ξ + 1 (见式 5) , 所以不同 ξ 值的基准数据集将包含不同核苷酸数的 R N A 片段, 如下图所示

因为一个包含许多高度相似样本的数据集缺乏统计代表性。12 (v)由此获得的负样本的数量将大大大于正样本的数量;(vi)通 过上述程序收集的样本长度取决于 ξ 的值,15 但 25 初步测试表明,对于智人或 m.s musculus, ξ = 10 时预测结果最佳, 而对于酿酒链球菌,ξ = 15 时预测结果最佳(见图 7)。接下来,我们将重点分析智人(H. sapiens)和肌肉鼠(M. musculus)基因组 中含有 21 个核苷酸的 RNA 样本,以及酿酒链球菌(S. cerevisiae)基因组中含有 31 个核苷酸的样本。

经过上述 6 个步骤后,我们最终获得了 3 个基准数据集,如下所示

NA 样品的长度在 ξ =

17 个核苷酸,

21 个核苷酸,

26 个核苷 酸

31  个核苷酸 , 吗?

(9)


其中 , “(1 ) ” 、 “(2 ) ” 和 “(3 ) ” 分别表示 智人 (H.

s ap i en s )、“S . cer evi si a e” 和“ M. mu s cu l u s ”的基准数据集。

R N A 样本 ( 1) 和 ( 3) 都是由 21 个核苷酸, 而在 (2 ) 都是由

31  个核苷酸。子集+ (1 ) 、+ (2 ) 和 + (3 ) 分别包含 495 、

 

从 R M B as e 下载智人( H. s a pi en s )、肌肉鼠( M. mu s u s )和啤酒链

球菌(S . cer evi si a e) Ψ 位点经实验验证的 R N A 序列。6 0 构建这三个物种的基准数据集的详细步骤 如下: (i )参照文献 61 ,沿着相关 R NA 序列滑动(2 ξ + 1 )-元核苷酸窗口(图 5), 只收集在中心有尿嘧啶( U) 的 R N A 片段( 见式 5) 。(ii )如果 R N A 的上游或下游小于或大于 L - ξ ( L 为 R NA 的长度), 将缺失的核苷酸用其镜像填充( 图 6 )。 (iii)实验证实其中心为 Ψ 位点的 R NA 样品为阳性;否则, 为阴性。(i v )使用 CD - HIT 软件, 进一步对上述 62 样本进行筛选,筛选出与同类中任何其他样本具有 ≥ 6 0 % 配对序列同一性的样本

 

314 和 472 个阳性样本,子集− (1 ) 、− (2 ) 和− (3 ) 分别包含 49 5 、314 和 472 个阴性样本。

三个基准数据集的详细序列分别在补充信息 S1、补充信息 S2 和补充信息S3 中给出。

RNA 序列样本的表示。随着后基因组时代产生的生物序列的爆炸式增长,这是计算中最具挑战性的问题之一

图 5 示意图显示了如何使用沿 RNA 序列的灵活缩放窗口来收集潜在的含有 Ψ-site-的序列样本。

— 55

5'端镜像

50

b 葡萄球菌 M. muscle 智人

图 6(a)5 ' R N A 末端片段和 (b) 3 ' R N A 末端片段的镜像示意图。符号表示一面镜子,真实的 R N A 片段是蓝色的, 而它的镜像是红色的。

 

图 7 一个直方图, 显示了所提出的预测器在识别 Ψ 站点具有不同 ξ 值时所获得的总体精度。当 ξ = 1 0 时, 智人 (h. s s api ens )或 m. s mus us 的准确率达到峰值, 而当 ξ = 15 时, 酿酒链球菌的准确率达到峰值。


www.moleculartherapy.org/mtna

6

生物学就是如何用一个离散的模型或向量来表述一个生物 序列,但仍然相当程度地保持其关键模式或序列顺序信息。这是因为几乎所有现有的机器学习算法都是为了处理向量 而不是序列样本而开发的,正如最近的一篇综述中阐述的 那样。63 不幸的是,在离散模型中定义的向量可能会完全 失去所有的序列顺序信息或序列模式特征。为了解决蛋白 质/肽和 DNA/RNA 序列的这一问题,分别引入了伪氨基酸 组成(PseAAC)64– 69 和伪核苷酸组成(PseKNC)70– 73 。自从它们被引入以来,PseAAC 已被广泛应用于计算蛋白质组学

 0 ,if Ν i ∈ { G ,U } ;zi = 0 , 如 果 Ν i∈ {C ,G } (12)

 

(参见引用 12,74 的长列表或参考文献),PseKNC 已越来越多地用于计算基因组学。75 最近,建立了一个名为“Pse-in- One”的 web 服务器,用于生成 DNA/RNA 和蛋白质/肽序列的各种模式的伪组分。

根据最近的一项研究,75 RNA 序列样品的 PseKNC 的一般形式可以表示为

 

因此,根据表 2,可以将核苷酸 A 表示为(1,1,1),C 表示为(0,1,0),G 表示为(1,0,0),U 表示为(0,0,1)。

核苷酸密度。为了结合核苷酸的局部出现频率及其在  RNA

 

R =[φφ1 . 吗  φu 吗 φZ )

 

(10)

i RNA 序列第 i 位 i 核苷酸的密度是多少?年代?i 是否涉及滑动

 

其中 T 是转置算子,下标 Z 是整数及其值以及分量 φ(uu = 1, 2,…, Z)将取决于如何从 RNA 序列样本中提取所需的信息。

 

子串的长度,?对应的定位器序列位置,和

 

为了使方程 10 既能涵盖 RNA 样品的局部位点信息,又能涵盖其全局序列模式特征,下面我们用核苷酸的化学性质和核苷酸密度来定义其中的组分。

 

核苷酸的化学性质。RNA 由四种核苷酸组成:腺苷(A)、鸟苷 (G)、胞苷(C)和尿苷(U),每种核苷酸都有自己的化学结构和内部结合特征。A 和 G 有两个环,而 C 和 U 只有一个环(图 8),在形成二级或三级结构时,G 和 C 之间的氢键比 A 和 U

-之间的氢键更强(图 8),而且,根据化学功能, A 和 C 可以归为氨基,G 和 U 则归为酮基。因此,四种核苷酸可分为三种不同的基团,如表 2 所示。

为了将这些化学性质特征整合到 RNA 样品的表示中,类似于研究 HIV 蛋白和大肠杆菌蛋白中密码子 77 使用的方法,让我们­ 78 用公式 5 中的第 i 个核苷酸

 

例如, 假设一个 R N A 序列“ AGC GU A AC ” 。“ A ” 在位置

1 、6 、7 处的密度分别为 1 (1 / 1 )、0 .3 3 (2 / 6 )、0 .4 3 (3 / 7 )。“C ”

在 3 、8 号位的密度分别为 0 .3 3 (1 / 3 )、0 .2 5 (2/ 8 )。“ G ” 的密度

分别为 0 .5 (1 / 2 )、0 .5 (2/ 4 ),位置为 2 、4 。“ U ”在位置 5 的密

度为 0.2 (1 / 5 )。

伪核苷酸组成(PseKNC)  。通过整合核苷酸化学性质(公式

11)和核苷酸频率信息(公式 13),我们有


        (15)

因此, R N A 序列“ AGC G UA AC ” 中的核苷酸可以用以下 8

组数字 连续表 示: (1 ,1 ,1 ,1 ) 、(1 ,0 ,0 ,0 .5 ) 、(0 ,1 ,0 ,0.3 3 ) 、(1 ,0 ,0 ,0 .5 ) 、

(0,0,1 ,0 .2 )、(1 ,1 ,1 ,1 ,0 .33 )、(1 ,1 ,1,1 ,0 .4 3 )和(0 ,1 ,0 ,0 ,0 .2 5 )。

或者,根据 pseknc 的公式(参见公式 10),我们有

支持向量机(SVM)。SVM 是一种基于统计学习理论的机器学习算法,在生物信息学[16,80,81]和计算生物学领域得到了广泛而

成功的应用。13 - 15,26,82SVM 的基本思想是将输入数据转换成高维特征空间,然后确定最优的分离超平面。

有关 SVM 的简要公式及其工作原理,请参阅论文 83,84;有关 SVM 的更多细节,请参阅专著

本研究使用 LibSVM 软件包 3.18 实现 SVM,该软件包可从 http://www.csie.ntu.edu.tw/~cjlin/libsvm/免费下载。由于其在训练过程中的有效性和快速性,这里使用径向基核函数 (RBF) 来获得最佳分类超平面。在 SVM 操作引擎中,正则化参数 C 和核宽度参数 γ 通过定义的网格搜索方法进行优化

 

步骤 3。 ? 点击提交按钮查看预测结果。例如,如果使用 example 窗口中来自智人物种的三个查询 RNA 序列作为输入并检查智人按钮,单击 Submit 按钮后,您将在计算机屏幕上看到以下显示。(i)第一个 query序列包含 5 个 U(尿苷)残基,其中位置 11 的那一个可以修改为伪尿苷(Ψ 网站)。(ii)第二个查询序列包含 3 个 U(尿苷)残基,其中没有一个可以被修饰为伪尿苷。(iii)第三个查询序列包含 7 个 U 残基,其中位置 21 的 U 残基可以修饰为伪尿嘧啶。所有这些结果都与实验观测完全一致。注 :为了获得预期的预测精度,物种按钮必须与查询序列的来源一致:如果查询序列来自智人,则在智人按钮上进行核对;来自 m.s musculus 的,查看 m.s musculus 按钮;来自酿酒葡萄球菌,点击酿酒葡萄球菌按钮。

步骤 4。 点击 Data 按钮下载用于训练和测试 i RNA -P s eU 预测器的数据集。

第 5 步。 ?点击引文按钮,查找 i RN A -P s eU 的 详细发展和算法 的 相关论文。


补 充材料

信息 S1。 智人的基准数据集(1)。S2 的信息。S. cerevisiae 的基准数据集(2)。

S3 的 信 息。M -的基准数据集 (3)。肌肉。

S4 的信息。 智人的独立数据集(4)。

S5 的信息。 酿酒酵母的独立数据集 (5)。

致谢作者希望感谢三位匿名审稿人的建设性意见,这些意见对加强陈述非常有帮助

 

2− 5 ≤C≤2,15 步长为2

2− 15 ≤γ≤2− 5 步长为2−

(17) 通过上述程序获得的预测因子称为 i RNA-Ps eU ,其中“i ” 代表 “识别”,“ Ps e” 代表“伪” ,“ U ” 代表“ 尿嘧啶”。

Web-server 和用户指南。根据大多数实验科学家的要求,为iRNA-PseU 提供一个可公开访问的网络服务器

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
24eTNZKd6a8S