论文解读:《ccctc结合因子介导的染色质环形成序列模式的深度学习》
  24eTNZKd6a8S 2023年11月02日 55 0


(八月摸鱼计划而已)
一、摘要二、结果三、方法四、分析过程五、最终结论

一、摘要

      理解3D基因组的组织机制提供了有用的信息,也可能有助于对与人类疾病相关的非编码序列变体进行注释和优先排序,开发了一个名为DeepCTCFLoop的深度学习模型,用于预测染色质环是否可以由一对收敛或串联的CTCF基序形成,并发现除了CTCF基序对之外的潜在序列模式。

二、结果

      数据集:DeepCTCFLoop的数据集来自三个不同细胞系:GM12878、HeLa和K562。

      1、证明DeepCTCFLoop能够准确地预测由聚合或串联CTCF基序对介导的染色质环的形成。

      2、TF蛋白与特定DNA基序的结合可能为CTCF介导的染色质环的形成提供了额外的信息。

      3、DeepCTCFLoop为研究潜在的染色质环中断和致病机制提供了一个分析非编码序列变异的有用工具

三、方法

论文解读:《ccctc结合因子介导的染色质环形成序列模式的深度学习》_过拟合

论文解读:《ccctc结合因子介导的染色质环形成序列模式的深度学习》_过拟合_02编辑

 DeepCTCFLoop架构图

       将CTCF基序的DNA序列及其周围的基因组序列(250nt)编码成二进制矩阵作为输入。然后,利用两层卷积神经网络学习序列基元和高层特征。双向LSTM层用于学习高层特征之间的长期依赖关系。接下来,使用关注层来捕捉最重要的特征,以获得高模型性能。最后,使用两个完全连通的层对关注层的输出进行组合并进行二值预测。

四、分析过程

       DeepCTCFLoop与两层CNN取得了最好的性能。利用GM12878数据集对模型构建的超参数进行了优化。采用丢弃、L2正则化和早期停止过程来避免模型过拟合。

       第一步:在第一卷积层之后,使用最大汇聚层来获得空间相邻子区域的最大激活值。作为一种下采样策略,最大合并层可以降低输入维数,从而避免模型过拟合。然后,使用第二卷积层和另一个最大汇集层来学习序列基序之间的高层相互作用。通过与单层CNN模型和三层CNN模型的比较,选择了两层CNN模型。

       第二步:使用一层BLSTM学习两层CNN学习到的高层特征之间的长期依赖关系。与Vanilla递归神经网络相比,LSTM能够克服梯度消失问题。每个LSTM单元由输入门、遗忘门和输出门组成。这些门决定应该丢弃、存储或输出哪些信息。因此,LSTM能够长时间地记住信息,并学习长期依赖关系。这里,BLSTM用于向前和向后扫描输入。在BLSTM层之后,注意力层被用来通过赋予更多权重来更多地关注最重要的特征。

        第三步: 将输出馈入完全连通的层,并使用Sigmoid函数来计算形成染色质环的概率。在这项研究中,使用小批量的亚当优化算法来最小化二元交叉熵损失函数。采用丢弃和L2正则化的方法对模型进行正则化。为了避免模型过拟合,还采用了提前停止过程。该模型是使用Kera 2.2.4(https://github.com/fchollet/keras),TensorFlow1.5.0作为后端)用Python语言实现的。

     通过调节超参数:利用GM12878的数据,使用贝叶斯优化通过Hyperopt调整用于模型训练的超参数,得到CNN过滤器的数量(N)为208,过滤器的长度(L)为13,池化层的大小为4,LSTM单元为64,学习率为1e-4,L2正则化为5e-5,CNN之后的辍学率为0.43,以及注意后的辍学率。使用三种细胞系的数据进行模型训练和评估的平均时间约为2小时。相关AUC与对比表格如下:

论文解读:《ccctc结合因子介导的染色质环形成序列模式的深度学习》_过拟合_03

论文解读:《ccctc结合因子介导的染色质环形成序列模式的深度学习》_数据集_04编辑

DeepCTCFLoop和CTCF-MP(仅word2vec特征)在GM12878、Hela和K562测试数据集上的ROC。

论文解读:《ccctc结合因子介导的染色质环形成序列模式的深度学习》_数据集_05

论文解读:《ccctc结合因子介导的染色质环形成序列模式的深度学习》_过拟合_06编辑

 CTCF-MP,DNA序列用word2vec编码成载体特征

从这里面得出word2vec在这里没有他们这个深度学习模型研究的好。

五、最终结论

      以CTCF基序及其侧翼基因组序列作为模型输入,DeepCTCFLoop表现出更好的性能,并显著优于之前的机器学习模型CTCF-MP,包括ZNF384、ZNF263、ASCL1、SP1和ZEB1在内的几种TF蛋白的DNA基序与DeepCTCFLoop从GM12878、HeLa和K562细胞数据中获得的PWMS显著匹配,表明这些DNA结合蛋白在CTCF介导的染色质环形成中可能发挥作用。 


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
24eTNZKd6a8S