论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》
  24eTNZKd6a8S 2023年11月02日 33 0

Title:A deep multiple kernel learning-based higher-order fuzzy inference system for identifying DNA N4-methylcytosine sites

期刊:Information Sciences

中科院分区:一区(计算机科学技术)

影像因子:8.1↓ 0.133

文章链接:https://doi.org/10.1016/j.ins.2023.01.149

Websever:

Github:

摘要

n4 -甲基胞嘧啶(N4 - methylcytosin e, 4 mC) 作为一种 D NA 修饰, 在表观遗传调控中起着至关重要的作用。然而,现有的准确识别 4 mC 位点的实验方法效率低下, 而且消耗很大, 难以实现。尽管各种新的识别方法不断被提出, 但现有技术尚未完全成熟。与传统的基于支持向量机或 卷积神经网络的 4 mC 位置预测器相比, 我们提出了一种替代的计算方法。 在这项研究中, 我们提出了一种基于核化高阶模糊推理系统( KH FIS)和深度多核学习的方法, 称为 D MKL- HFIS,以提高 4 mC 位点识别 DN A 序列的准确性。我们使用 PSTNP 对基准数据集进行处理, 然后应用 KHFIS 得到多个模糊核矩阵。利用深度神经网络融合多个模糊核矩阵。 最后, 从融合矩阵中导出预测值。我们的方法与现有的主流计算方法进行了比较。在基准数据集( G. subt erraneus, D. mel anogast er , E. coli, a . thalian a 和 C. el egans )上, 我们的方法的准确性分别比最先进的方法高出 0.4 %, 0 .44 %, 1.5 1 %, 0 .55 %和 0 .25 %。与主流方法相比, 我们的方法显示出更高水平的准确性,因此可以被认为是一种有效的预测工具。

1.介绍

DNA 甲基化是一种可遗传的表观遗传修饰, 在疾病和细胞分化中起着至关重要的作用[32,18,41]。此外, 4mC 甲基化是原核生物中的一种甲基化[10,13]。由于这种表观遗传修饰不仅使基因组变得更加多样化[31,50], 它还在许多生物学功能中发挥着深远的作用。在之前的研究中,4mC已被证明发挥了许多作用,包括调节 DNA 复制,调节细胞发育和印记基因组[14,2]。通过准确识别 4mC 位点,可以更有效地解决相关生物学问题[34]。

已经研究了几种鉴定 4mC 位点的实验方法, 包括单分子实时测序(SMRT)[8]。然而,这种方法不适用于广泛的物种和大规模基因组[1]。此外,还提出了其他几种实验方法,包括 Yu 等人提出的 4mC-TAB-seq[45]。同样需要注意的是,这些方法既昂贵又耗时。

机器学习和深度学习可以用来识别更多的 4mC 位点[25],如 Meta-4mCpred[26]、 4mCPred - svm[40]、 iDNA4mC[3]、 4mCPred[12]。他们使用了支持向量机(SVM)分类器。基于卷积神经网络(CNN)模型的典型预测因子包括 4mCCNN,由 Khanal 等人[17]提出;由 Liu 等人[22]提出的 DeepTorrent;以及由 Xu 等人[43]提出的 Deep4mC。尽管如此,当涉及到这些方法的预测性能和可解释性时, 仍然有相当大的改进空间。

模糊推理系统(Fuzzy  inference  systems,  FIS)实现多个模糊规则[35]。FIS 由多个子规则组成,每个子规则都是目标问题的局部逼近。正则化常用于优化 FIS, 减少过拟合,提高泛化能力[38,23,6]FIS 分为 if-部分和 then-部分,两个部分的参数训练是独立的。与普通 FIS 相比,核化高阶模糊推理系统(KHFIS)的子系统是非线性的[39]。此外, KHFIS 可以更有效地处理高维特征空间和有噪声样本的问题[6,48]。在这项研究中,我们提出了一种基于 KHFIS 和深度多核学习(DMKL-HFIS)的方法来提高 DNA 序列中 4mC 位点识别的准确性。为了实现信息的完整提取,我们使用 PSTNP 对基准数据集进行处理。使用 KHFIS 对特征向量进行模糊化,得到多个模糊核矩阵。然后利用深度神经网络对多个核矩阵进行融合。利用深度学习框架对核矩阵进行核融合,自适应学习核矩阵的权值。最后,通过融合矩阵得到预测值。将我们的预测器与现有的主流计算方法进行比较。结果表明, DMKL- HFIS 具有较高的性能。与 KHFIS 相比, DMKL-HFIS 在融合子集时, 根据每个子集的贡献来确定其权重。而且,通过多层特征抽象,这种方法可以更好地表示特征,提高模型的输出。作为与深度学习方法的一个关键区别,我们提出的模型是基于对模糊系统的改进,更具有可解释性。

本研究的贡献总结如下。

 (1)我们提出了一个使用多个深度学习核的模型构造,以更有效的方式将深度学习和机器学习结合在一起。 (2)提出的模型增强了高阶模糊推理系统,提高了其泛化性。

(3) 使用深度学习, 该模型能够计算多个核的权值。

(4) 与高阶核模糊系统相比,本文提出的深度多核模糊系统表现出更好的性能和更高的精度。

下一节回顾一阶模糊推理系统(1-FIS)、高阶模糊推理系统(HFIS)和 MKL算法。第 3 节介绍了 KHFIS。在第 4 节中,我们详细阐述了提出的新 DMKL-HFIS模型。第 5 节介绍了特征提取方法。第 6 节描述了实验过程,然后列出了 DMKL-HFIS在基准数据集上的结果,并将其与其他现有方法进行了比较。最后,第 7 节总结了本文,并对未来的研究进行了展望。

2.相关工作

在本节中,我们介绍了一些关于模糊推理系统和多核学习的预备知识。

 2.1. 一阶模糊推理系统

模糊推理系统实现多个模糊规则[35]。它们结合多个子规则来近似最终结果,其中每个子规则都是客观问题[4]的局部近似。在这里, 我们引入经典一阶模糊推理系统[29]中的 if 部分和 then 部分。 

2.2.高阶模糊推理系统

有很多公式不好弄,麻烦看原文

2.3. 多核学习

利用 MKL 将不同权值的多个核进行组合。MKL 主要应用于支持向量机[49]。MKL 的目标是确定线性组合给定核的最优方法[21]。

3.核化高阶模糊推理系统

KHFIS也分为 if-part 和 then-part[7,9]。与 1-FIS和 HFIS类似,FCM 用于估计参数的   𝜇̃        其𝜇̃-th 模糊规则为

算法 1 给出了 KHFIS的过程。算法 1 KHFIS法。

要求:数据集𝜇̃= [𝜇̃ , 1], 𝜇̃  ]和新点 , 模糊规则数𝜇̃, 调整系数𝜇̃, 训练标签𝜇̃∈ 𝜇̃𝜇̃×1;确保:𝜇̃(𝜇̃ )2:计算     Eq。(2);()

3:使用方程式。(12 ) (19 ) 计算  ;

4:利用 E q.(18)估算 ;

5:使用式(20) 计算 出总分 (总分 )(总分)

4. DMKL-HFI S 模型

结合上述相关研究 ,介绍了所提出的 D M K L - H F I S 模型的算法。 D M K L - H F I S 框架图如图 1 所示。 我们使用 模糊核作为 核矩阵。在𝜇̃-th 网络内核 𝜇̃ -th 层的矩阵是由 𝜇̃𝜇̃,( 𝜇̃ ) ( 𝜇̃ = 1𝜇̃;𝜇̃= 1,,𝜇̃),和 𝜇̃ ,(𝜇̃ )是它的输出。 根据 E q.( 1 9 ), ( 1)∈ 𝜇̃𝜇̃×的元素可以 表示

论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》_深度学习

5. 特征向量构建

位置特异性三核苷酸倾向(position-specifictrinucleotidepropensity, PSTNP)可以描述阳性和阴性样品在每个位置上的三核苷酸差异[20,11,15]因此,我们使用 PSTNP 将数据转换为特征向量。对于每个𝜇̃-length 序列,


6. 实验与结果

6.1.  数据集

我们采用了 Chen 等人[3]从可靠的 MethSMRT 数据库[44]中构建的高效数据集。根据 Chen 等[3]的研究,在构建数据集时,为了避免偏差,需要根据正样本的数量随机选择负样本。样本需要序列长度为 41-bp。此外, SMRT 测序技术无法检测阴性样本中的中枢胞嘧啶。数据集包括 6 个物种

论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》_深度学习_02

6.2. 评估测量

论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》_数据集_03

6.3. 实验结果

我们使用 10 倍交叉验证 (10- C V ) 来测试数据集 , 并应用网格搜索来选择参数 。 𝜇̃ 的调优 图。 𝜇̃如图 2 和图 3 所示, 其中

论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》_数据集_04

论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》_深度学习_05

首先,精确度和MCC值优于其他模型。与DeepTorrent相比,该方法的性能分别提高了1.23%和1.74%。

比较𝐷.的结果表4给出了带有其他预测因子的𝑚𝑒𝑙𝑎𝑛𝑜𝑔𝑎𝑠𝑡𝑒𝑟数据集。行政协调会和管理协委会的改进是明显的。我们的预测准确率比KHFIS高0.44%,Sp提高2.72%。这里,𝐷.𝑚𝑒𝑙𝑎𝑛𝑜𝑔𝑎𝑠𝑡𝑒𝑟总共包括3538个样本,是这六个数据集中较大的一个。

DMKL-HFIS在𝐸.表现最好𝑐𝑜𝑙𝑖数据集,其细节如表5所示。我们的模型排名第一,所有评估指标都在0.9以上。在这个数据集中,ACC、Sp和MCC都得到了很大的改善。特别是,与第二高的预测值相比,ACC和MCC分别提高了1.51%和3.05%。

为了𝐺.𝑝𝑖𝑐𝑘𝑒𝑟𝑖𝑛𝑔𝑖𝑖,Sp的评价指数得分提高了3.92%,MCC提高了0.78%。我们预测器的MCC最高。ACC和Sn评分略低于其他预测因子。对比𝐺.时的结果带有其他预测因子的𝑝𝑖𝑐𝑘𝑒𝑟𝑖𝑛𝑔𝑖𝑖数据集如表6所示。

表7列出了𝐴.上各种方法的具体分数𝑡ℎ𝑎𝑙𝑖𝑎𝑛𝑎数据集。与第二高的预测值相比,KHFIS和ACC提高了0.55%。DeepTorrent的Sp值最高,为0.903。KHFIS的锡含量最高,达到0.8288。排除我们的预测器,DeepTorrent和4mCCNN也表现得更好,表明深度学习更适合处理4mC站点预测问题。

最后,表8提供了𝐶.的比较结果𝑒𝑙𝑒𝑔𝑎𝑛𝑠数据集,包括3108个样本。为了𝐶.𝑒𝑙𝑒𝑔𝑎𝑛𝑠,与DeepTorrent相比,MCC值增加了2.01%。总的来说,我们的模型比KHFIS表现得更好。

7.结论

我们使用了一种深度多核学习方法来融合多个核矩阵,该方法可以自适应地计算每个核矩阵的权重。这样可以有效提高泛化能力。与KHFIS相反,当DMKL-HFIS融合子集时,每个子集的权重基于其贡献来确定。此外,DMKL-HFIS引用了深度的概念学习。DMKL-HFIS使用多层特征抽象,可以更好地表示特征,便于模型的输出。与深度学习相比,我们的模型基于模糊系统的改进,更具可解释性。此外,我们应用PSTNP从基准数据集完全提取信息。我们应用了ACC、MCC、SN和SP四个指标来评估我们提出的模型的性能。我们的预测器与主流计算方法进行了比较。结果表明,DMKL-HFIS表现出较高的性能。对于4mC位点的识别,现有的特征提取方法只考虑了序列信息和化学性质,在今后的研究中应该考虑基因表达信息。为了更好地预测和验证计算方法,我们计划从新发现的物种中收集DNA 4mC位点,并构建新的计算模型。接下来,我们计划使用2型模糊系统进行DNA 4mC位点预测。与传统的模糊系统相比,引入了上下隶属函数,增强了描述的集合模糊性[19]。模糊逻辑理论不仅适用于预测4mC位点,它还在生物信息学中发挥作用,如蛋白质结构能量模式的比对[28],医学诊断[42],蛋白质能量特征[27]。此外,多源信息[46]可以提高预测性能。在未来的研究中,结合计算预测和实验验证可以更好地探索4mC位点的功能和作用。此外,可以将结构化稀疏正则化结合到我们的模型中,以更好地融合特征并进一步提高其预测性能。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
24eTNZKd6a8S