PLASMe: a tool to identify PLASMid contigs fromshort-read assemblies using transformer
会议时间:2023-10-4
会议地点:QQ共享
关键词:
作者: Xubo Tang; Jiayu Shang; Yongxin Ji; Yanni Sun
期刊:Nucleic Acids Research
年份:Nucleic Acids Research
论文原文:
补充材料:
主要内容
1问题 :
2方法
3主要实验及结果
4分析
5结论
论文链接:https://doi.org/10.1093/nar/gkad578期刊:Nucleic Acids Research
代码链接:https://github.com/HubertTang/PLASMe
质粒是携带重要附属基因的移动遗传元件。
现有质粒检测工具存在的问题:
1下一代测序(NGS)是当今发现新质粒的主要来源。然而,NGS组装程序倾向于返回重叠群,这使得质粒检测变得困难。对于包含不同来源的短重叠群的元基因组组合来说尤其严重。
2基于比对的工具往往会错过发散的质粒,而基于学习的工具往往精确度较低。
在这项工作中,我们开发了一个质粒检测工具PLASMe,它结合了基于比对和基于学习方法的优势。使用PLASMe中的比对组件可以很容易地识别密切相关的质粒,而针对特定类群的Transformer模型可以预测发散的质粒。
通过将载体序列编码为基于蛋白质簇的标记集上定义的语言,Transformer可以通过位置标记嵌入和注意力机制来了解蛋白质的重要性及其相关性。我们比较了PLASMe和其他工具在检测完整质粒、质粒重叠群和从CAMI2模拟数据组装的重叠群方面的差异,我们还在真实的元基因组和质粒组数据上进行了测试。实验表明,PLASMe比其他工具表现出更可靠的性能。
数据集
PLSDB质粒和RefSeq染色体
PLSDB 是一个经过人工校准的全面质粒数据库,在去除短于 1K 或长于 350K 的质粒后,最终保留了33,125个质粒作为数据库的一部分。从NCBI数据库的RefSeq染色体数据中筛选出4,005个序列,被视为参考染色体。
数据集根据数据发布时间被分成训练集和测试集。为了确保不同类群之间的训练与测试比率相似,避免偏差,大致维持了4:1的比率。
具体来说,PLSDB训练集包括26,451个质粒和3,530条染色体,而测试数据包括6,674个质粒和475个染色体。
为了模拟已组装的contigs(DNA序列的片段),研究人员随机切割染色体,并生成一个平衡的PLSDB测试集,其中包含6,674个质粒和6,674个染色体片段。
为了测试模型在短contigs上的性能,研究人员从PLSDB测试集中抽样了长度分别为1001、2000和3000的短子序列。分别命名为contig 1K、contig 2K和contig 3K测试集。
Dataset |
质粒 |
染色体 |
PLSDB训练集 |
26451 |
3530 |
PLSDB测试集 |
6674 |
6674 |
Contig 1K测试集 |
24120 |
24120 |
Contig 2K测试集 |
23695 |
23695 |
Contig 3K测试集 |
22775 |
22775 |
模拟数据:CAMI2海洋数据集
1CAMI2 Marine数据集是一个基于1680个微生物基因组和599个新质粒和virous构建的数据集。该数据集包含了来自不同生态系统的多个模拟元基因组数据集。
2在这个研究中,研究人员选择了10个模拟海洋样本的短读取元基因组数据集,这些样本分别命名为CAMI2 marine S0∼9。
3研究人员使用了metaSPAdes工具来将测序数据组装成contigs(DNA序列片段),并保留了长度在1K到350K之间的contigs。
CAMI2 marine S0∼9的质粒和染色体数量如下:
CAMI2MARINESSCAMI2MARINESMI2MARINEAMI2MARINESCAMI2MARINESMARINESMARINES4125587131017111162MARINEMARINE121741CAMI2M119599104499826179945390056CAMI2I935951163CAMI2221818261788144718801410MARINECAM21937978AMI2171SES7S2S0S1
真实数据:采集自高海拔湖泊的元基因组和质粒组数据
我们还评估了PLASMe在真实数据上的性能。
1这些数据集由Perez等人采集。研究人员对质粒组数据进行了富集,然后进行了测序。
2元基因组数据包含了7,798,852个读取(reads)(短DNA序列片段),而质粒组数据包含了7,812,709个读取。
3在使用metaSPAdes工具进行序列组装后,元基因组数据产生了52,096个contigs,这些contigs的长度在1K到350K之间,平均长度为1,879个碱基对(bp)。
4同样地,质粒组数据产生了38,480个contigs,这些contigs的长度也在1K到350K之间,平均长度为1,808个碱基对(bp)。
metaSPAdes工具:metaSPAdes是一种用于元基因组序列组装的计算工具,通常用于处理来自微生物群落(如环境样本)的DNA序列数据。
元基因组数据:这是指从环境样本中获得的DNA序列数据,通常包含多个不同微生物的基因组片段。
模型框架
RDER-SPECIFICTRANSFORMERMODELSUSINGBLASTPTOBUILDPLASMIDPROTEINSSHORT-READASSEMBLIESPREPARINGTHEDATABASE72005320018000EDGESANDMCLTOCLUSTERFROMPLSDB1O5000ALIGNMENTWITHPCSUNKNOWNCONTIGS二ENTEROBACTERALESPUTATIVEPLASMIDSI-HEADCONNECENCODINGTOVECTORPLASMIDPROTEINSEGUENCINASSEMBLYPREDICTINGPROTEINSCOVERAGE290%OUTPUTIBRIONALESPGYPCPGPLASMIDSCLUSTER(PC)33,125PLASMIDSDATABASEBLASTNBLASTNIDENTITY290%PLASMIDINPUTVECTORBACILLALESAIGNEDWITHLEMBEDDINGPCSPC;PCMETAGENOMICTHERMALESUSINGPRODIGALANNOTATIONANDNOSTOCALESATTENTIONPOSITIONOPGENE/PROTEINDATABASEEMBEDDINGLNPUTPCIOPCSDATALAVERS三WORDPCADNAPCFULY4A444
质粒识别的第一个难题:尽管质粒识别可以被构建为一个二元分类问题,但质粒的高度多样性对特征学习提出了巨大挑战。质粒的多样性意味着它们在结构和序列方面具有很大差异,这使得开发一个通用的质粒识别工具变得复杂。
1质粒相似性研究:Redondo-Salvo等人通过构建包含蛋白质组的二分网络来评估质粒的相似性。得出结论,相同宿主类群的质粒比跨不同宿主类群的质粒更相似。这一研究结果激发了开发针对不同类群进行质粒检测的动机。
2针对不同类群:他们设计了专门用于不同类群的质粒检测的特定于类群的Transformer模型。这意味着他们为每个宿主类群设计了一个独立的模型,以提高质粒识别的准确性。
3替代设计的评估:结果部分比较了特定于类群的Transformer模型和统一的Transformer模型进行质粒识别的性能。
质粒识别的第二个难题:在进化过程中,质粒和染色体会发生基因转移,导致它们的序列之间共享相似区域。部分染色体和质粒之间存在高度相似性,我们通过 BLASTN(默认 E 值截断为 10)检测了每个序列中质粒和染色体之间的局部相似性,并计算了查询覆盖率和同一性,以证明它们之间的基因转移。
覆盖率和同一性的计算方法:
ENGTH(GUUERYCOVERAGELEGTHSI
一个查询可能有多个比对区域 S = s1、s2、......、sn,区域 si 可能与多个主题序列比对。计算覆盖率时,用查询的总长度除以查询上所有配准区域的长度。
UDENTUTYMARSCORESSI*LENGTH(SILENGTHSI)IDENTITY-
我们只保留重叠区域中位分最大的结果。计算同一性时,我们根据不同区域的长度计算其加权同一性。
并将结果汇总在图 1 中。
ENTEROBACTERALESPSEUDOMONADALECORYNEBACTERIALESHYPHOMICROBIALESHODOBACTERALESBACILLALESSPIROCHAETALES204060Z10020406080COVERAGE210O70L100一00807010074060750100O01007010070580三80575
图 1. 质粒和染色体在 8 个最大类群上的总体覆盖率(x 轴)和同一性(y 轴)。相似性以密度散点图表示,颜色越深,数据点越多。
根据散点图,我们得出了三个结论。
1不同类群的局部比对的覆盖率和同一性差异很大,这进一步支持了我们的特定于类群的预测模型。
2染色体和质粒共享覆盖率大于 90% 的局部比对是非常罕见的。因此,如果contig能与同一性和覆盖率均大于 90% 的参考序列进行比对,就可以放心地将其归类为质粒。
3大多数质粒与染色体的同一性大于 70%,阻碍了比对程序将质粒与染色体区分开来。因此,PLASMe 建立在序列比对和 Transformer 的基础之上,而序列比对和 Transformer 最适合分别用于识别近缘质粒和分歧质粒。
基于上述设计的 PLASMe 流程如图 2 所示。
LFCONTIGSARENOTALIGNEDTODBONTIGSAREALIGNEDTOD(THRESHOLDT)ENTEROBACTERALESORDERSOFCONTIGSVIBRIONALESTCOV,IDENTITY2TIDEMT,ANDCOVERAGE2TCOU,1KSLENGTHS350KTRANSFORMERPLASMIDSPLASMIDEINGPLASMIDENTEROBACTERALESROBABILITYOFBACILLALESBLASTNDETERMINETHEFILTERBYLENGTHNON-MODELSDATABASECONTIGSVIBRIONALESBACILLALESLASMIDCONTIGS0.7>T10.3<TQUERYFILTERED111110.9>TB二二一
1过滤Contigs: 首先,PLASMe会筛选掉长度小于1k或大于350k的查询Contigs,以保留合适长度的Contigs用于进一步分析。
2Contigs与质粒数据库比对: 接下来,PLASMe将这些Contigs与名为DB的质粒数据库中的33125个参考质粒序列进行比对。如果Contigs与质粒数据库中的某些序列具有高覆盖率和高同一性(覆盖率和同一性均为90%),则它们将被标识为质粒。
3分类为质粒或其他类群: 否则,它们将基于比对的E值(小于10)被分配到相应的类群中。如果一个查询项在其默认的E 值下无法通过 BLASTN 被分配到任何类群,则会被归类为非质粒。
4使用Transformer进行质粒预测: 对于被分配到各自类群的Contigs,PLASMe将它们输入到相应的Transformer模型中进行质粒预测。如果模型预测的概率超过了预设的阈值,那么这些Contigs将被最终标识为质粒。
Transformer tokens
1Transformer 在生物信息学领域有许多成功的应用,包括蛋白质分类、基因组或蛋白质嵌入以及分子或蛋白质相互作用预测。Transformer 可以捕捉标记之间的相关性,缓解长期记忆丢失问题。
2生物序列建模的挑战:在将生物序列视为一种语言进行建模时,确定最佳词汇表(标记集)并非易事。在生物信息学中,可以使用各种各样的标记集,包括蛋白质、氨基酸或k-mer等。每种标记集都有其优缺点。
3选择最佳词汇表:在这项工作中,我们考虑了不同的词汇集,并根据经验确定了最佳词汇集。
其中基于核苷酸水平的词汇集有nt-BPE, 基于蛋白质水平的词汇集有AA、aa-BPE 和 PC。
核苷酸字节对编码(nt-BPE)
BPE的基本思想是统计语料库中最频繁的核苷酸组合。为了建立词汇表,BPE将从单核苷酸(A、T、C、G)开始,通过添加出现频率较高的DNA子串来逐步扩大词汇量。BPE将迭代并重复上述操作以合成更长的标记,直到达到目标词汇量。
在进行nt-BPE编码的过程中,我们将质粒切割成长度为1500bp的片段,以限制编码载体的长度。在这里,我们用所有参考质粒来训练 BPE 模型,词汇量为 5002。然后,使用训练好的BPE模型将片段编码成长度为350的标记向量,与使用固定长度的 k-mer 作为标记相比,BPE 可以根据不同碱基的共现频率高效地生成不同长度的标记。为了进行测试,因为每个config将被切割成1500个碱基片段,所以我们对所有片段的结果进行多数票表决,以预测该config是否为质粒。
单个氨基酸(AA)
其词汇表包含 20 个标准氨基酸、未定义氨基酸和其他氨基酸,词汇量为22。在我们的数据库中,98.6%的质粒蛋白小于1000aa,因此我们将编码向量的长度设置为1000。
氨基酸字节对编码(aa-BPE)
类似于DNA基序,我们利用蛋白质上的BPE来构建包含高频氨基酸短串的aa-BPE标记。我们将编码向量的长度设置为400,可以覆盖99.9%的蛋白质。
蛋白质簇(PC)
1Protein Clusters (PC):这些蛋白质簇是从参考质粒中预测的蛋白质。研究表明,蛋白质结构域或经过筛选的基因集合比蛋白质序列的物理特征更重要。
2数据收集:首先,使用工具Prodigal对参考质粒中的所有蛋白质进行预测。然后,使用DIAMOND BLASTP对所有蛋白质进行全比对。
3构建蛋白质图:将蛋白质作为节点,将E值小于1e–5的蛋白质成对排列表示为图中的边。这样构建了一个图,其中节点表示蛋白质,边表示它们之间的相似性。
4Markov Clustering (MCL):应用马尔科夫聚类算法(Markov clustering,MCL)将这些蛋白质聚类成蛋白质簇。MCL是一种用于在图上进行聚类的算法,它可以将具有相似性的节点聚合到同一个簇中。
5筛选蛋白质簇:最后,保留至少包含两个蛋白质的簇,从而产生151086个PC。
6标记集长度:为了编码质粒,将编码向量的长度设置为400,这足以覆盖数据库中99.9%的质粒。
7特殊标记:在标记集中,使用了特殊标记,如掩码标记(token ID为0)来指示填充的位置,以及未知标记(token ID为1)来表示未知的蛋白质。
图3显示了不同的标记器(tokenizers)以及它们用于预测的相应策略
CAGTCGAGTCAGTTGCTA....CGATGCTAGCGATCT17915--073328756--00M[NTR][AF][F].CGATCGATCTAC.34124671100M[NT[R[A[F][F]CONTIGSEGMENTS(1500BP[M[N[AJ[AJ[QVL[CG][ATC[GATCT[AC].L[MN[AA[QVL].6494588一一0[PCZL[PCSAL[PCSAL.CAG]TCGA[GT[CG]..634321211--0ROTEINCLUSTERREDICTEDPROTEINS7168798.00[CAGTGI[CATGCG]TOKENIZATIONCAGTGCATGCG.PROTEIN--PC22ALIGNMENTRESULTSCAGTCGAGTCG..[M][SF][NAKD].TRANSFORMER[MS[F[N[AKRANSFORME1712120CLPLASMICLPLASMIDTRANSFORMER636488624PREDICTIOR11137TRANSFORMERTRANSFORMERMNAAQVL24一一00#PROTEINSPADDINGPLASMIDMSFNAKDDATABASEIAMONMNTRAFF.NT-BPETOKENINDEX#SEGMENTELP之RLTOKENIZE151,.086TAA-BBLASTPAA-BPEPRODIGALEIP2TPLASMIDZP2TLSEGMENT之TNT-BP#PROTEINPROTEINA---PCSGTOKENSNPUTCONTIG一一O02121456O0ROTEINPROTEINS1000SEGMENTAPROTEINPROTEIN440APROTEIN,---PCTOKENSROTEINAAAPROTEIN海PC400TAA5001P2TPCTOKENS5001444440022350YESYESCUTVES56
Transformer
该模型包含三个主要组件:将编码向量转换为数值矩阵的嵌入层、学习标记相关信息的多头注意力模块以及作为最终预测分类器的全连接层。模型的基本结构如图4所示。
MULTI-HEADATTENTIONBLOCKFULLYCONNECTEDBLOCKBACKPROPAGATIONNUCLEOTIDE/AMINOX211456POSITIONEMBEDDINGMBEDDINGEMBEDDINGBLOCKACIDSEGUENCECONCATENATEXEMBED元ALUETOKENIZERWORDFLATTENQUERY11111WGCONTIGLABEL三=SOFTMIAWWKEYOSS
不同标记集上的 Transformer 之间差别在于输入向量的长度:nt-BPE、AA、aa-BPE 和 PC,分别为 350、1000、400 和 400。
为了提高 PC 模型的分辨率,我们使用 200、400、600、800、1000、2000 和 4000 bp 的滑动窗口对序列进行采样,并使用原始序列和采样序列来训练模型。在训练过程中,我们还会为较小的类分配较大的权重,以避免数据不平衡的影响。权重为 max(N质粒,N染色体)/Ni,i∈ {质粒,染色体}。
嵌入块
嵌入块包含两个部分:单词嵌入和位置嵌入。我们训练单词嵌入以获得每个标记的向量表示,并通过位置嵌入学习不同位置的表示。在训练过程中,我们使用全连接网络计算每个标记对嵌入向量的线性投影。经过embedding层后,我们可以得到 Xembed,如公式(1)所示。
WORDEMBED(X+POSITIONEMBED(XAEMBED1
结果
我们首先在RefSeq数据集上比较了不同标记的Transformer的性能。然后,我们在多个数据集上对 PLASMe 进行了评估。在这些数据集上,我们还将 PLASMe 与其他质粒鉴定工具进行了比较,包括基于学习的方法(cBar 、PlasFlow 、PPR-Mate 、PlasClass )、基于比对的方法(PlasmidFinder 、MOB-Suite 、Platon )和混合方法(plasmidVerify 、PlasForest 、Deeplasmid )。我们使用常用的指标来评估结果,如召回率、精确度和F1-Score。所有基准工具都以contigs为输入,因此可以在同一测试集上进行评估。为了进行公平比较,我们没有包括基于图形的质粒组装工具,它需要不同的输入,并且没有针对contigs进行优化。
验证PLASMe设计的合理性
考虑到质粒的高度多样性,我们对每个质粒类群进行了模型训练。我们使用PLSDB训练集训练了一个统一模型,将它与PLSDB测试集和重叠群 1K/2K/3K测试集上的order-specific模型的性能进行了比较。结果如图S1所示。
1个BCONTIG1KTESTSETDCONTIG3KTESTSETAPLSDBTESTSETCCONTIG2KTESTSETORDER-SPECIFICUNIFIED0.84.8380.9AG69962ORDER-SPECIFICORDER-SPECIFIC0.797930.958G600.86.8670.858560.902A0.823G5ORDER-SPECIFIC0.96.9590.952.957PRECISIONUNIFIEDUNIFIED0.96CGRECALLRECALLF-SCOREUNIFIEDPRECISION0.75F-SCORE0.850.750.950.85PRECISION-SCORE0.95PRECISION0.950.950.70.70.75RECALLRECALL0.90.9.9680.80.90.8F-SCORE0.750.850.850.70.80.90.70.90.80.900.904
1可以看出,在 PLSDB/contig 数据集上这两种模型的结果相似。
2其中统一模型的 F1 分数比特定类群模型低 0.1%。
3我们提取了与训练集相似性较低的质粒configs(比对e值大于10),以及可以与训练质粒比对且覆盖率和同一性高于50%的染色体configs。
4这两个模型的性能主要在容易被误判的测试序列上存在差异。
我们从config 1K、config 2K 和config 3K 测试集中建立了Hard 1K、Hard 2K 和Hard 3K 测试集。图 S2 显示了 order-specific模型和统一模型的性能。
ORDER-SPECIFICUNIFIEDHARD3KTESTSET01610.81.93ORDER-SPECIFICARD2KTESTSETHARD1KTESTSE084.848ORDER-SPECIFIC0.83827ICUNIFIEDRECISIONCUNIFIED二81AG61PRECISIONPRECISION0.11A90.81G0.60C62RECALLRECALLRECALLF-SCORE0.786F-SCORE0.9F-SCORE0.7440.620.793820.70.90.50.90.80.80.60.7610.S
在这三个数据集上,我们可以看到特定类群模型仍然比统一模型执行得更好。因此我们选择使用order-specific模型。
我们使用 PLSDB 测试集,将不同类群输入到相应的序列模型中,评估 PLASMe 在不同类群上的性能。结果如图 S3 所示
1上工1二口万ECISIONRCALLF-二鑫1广万嘉广上区量量20.EO.E
1可以看出 PLASMe 在某些类群上的性能比较差。
2具体来说,精确度的差异相对较小,而召回率的差异较大。
3因此,我们假设测试集和训练集之间的序列相似性可能是造成这一现象的原因,相似性越低,召回率越低。
为了验证这一假设,我们使用 Dashing计算了测试集和训练集在不同类群下的相似性。
我们绘制了精确度和召回率与平均相似度之间的关系,如图 S4 所示。我们只给平均相似度低于 0.2 的类群着色(其他类群为灰色)。
SIMILARITYSIMILARITYDEINOCOCCALESMYCOPLASMATALESCHROOCOCCALESHYPHOMICROBIALESRHODOBACTERALESALTEROMONADALESCHLAMYDLALESHYPHOMICROBIALESDEINOCOCCALEMYCOPLASMATALECHLAMYDILALESCYTOPHAGALESCYTOPHAGALESCORYNEBACTERIALEMICROCOCCALESMICROCOCCALESNOSTOCALESATEROMONADALSTREPTOMYCETALESTREPTOMYCETANOSTOCALESCHROOCOCCALES三OHERCONYNEBACTENIALE0.8OTHER0.800.60.2
右图显示,平均相似度越低的类群召回率越低。
不同标记集(token sets)的性能表现
比较了PLASMe 在 PLSDB 测试集上使用不同标记集的性能,这些标记集包括PC、AA、aa-BPE以及nt-BPE。由于使用 AA、aa-BPE 和 nt-BPE 作为标记集需要多数投票,我们为它们设置了不同的投票阈值(分别为 0.41、0.17 和 0.55)。
AA-BPE(0.17)NT-BPE(0.55)AA(0.41)F-SCOREPRECISIONRECALL警2国3号0.923艺0.00.88PC
1基于PC的标记集表现最佳,有两个可能的原因。首先,使用PCs作为标记集允许Transformer直接学习蛋白质的重要性。其次,基于PC的Transformer可以捕捉到同一DNA序列上不同蛋白质之间的相关性。
2AA和aa-BPE表现优于nt-BPE:这表明来自蛋白质的特征对于质粒鉴定更为关键。
3因此,研究人员选择PC作为PLASMe的默认标记集,因为它在性能上表现最佳。
在PLSDB测试集上的性能
作者选择了将PC作为PLASMe的标记集,在PLSDB测试集上比较了PLASMe与其他质粒识别工具的性能。
增客学场恩包景营日景ALIGNMENT-BASED旦PRECISIONLEARNING-BASED三一金号国OHYBRID三E国图1SCORE国RECALL兰客酒季首3国0.80.20.4BRE理ASCE0.6BARF1PLASFORATO
1PLASMe在召回率(recall)和F1得分(F1-score)方面取得了最高的表现。
2在该数据集中,BLAST和Transformer分别识别了556个(11.53%)和4056个(84.08%)质粒。前三名性能最好的工具分别为PLASMe、Deeplasmid和plasmidVerify,这些都是混合方法,结合了机器学习和从蛋白质比对中获得的特征。
3Deeplasmid在这些工具中具有最高的精确度(precision),但它的召回率低于PLASMe,因此F1得分较低。进一步的观察表明,Deeplasmid在识别短质粒片段方面存在困难。
4为了进一步说明问题,作者对长度在1000到3000之间的测试质粒进行了评估,这些质粒约占数据集的5.58%。在这种情况下,PLASMe的召回率为0.937,而Deeplasmid和plasmidVerify的召回率分别为0.736和0.528。结果显示PLASMe在识别短质粒上的性能更好。
总体而言,基于学习的工具实现了更高的召回率,基于比对的方法实现了更高的准确率。基于学习的方法通过捕获序列模式对远程同源序列更加敏感。而基于比对的方法通常设置严格的比对阈值来减少误报,导致准确率高但召回率低。
为了进一步比较PLSDB测试集上不同工具的结果,计算了不同工具之间已识别质粒的交集,分别将PLASMe与基于比对、基于学习和混合的工具进行了比较。如图S7所示。
)ALIGNMENT-BASEDMETHOD(C)LEARNING-BASEDMETHODSHYBRIDMETHODS527490100107495832143619114701134452933312ASMIDVERIFYEEPLASMID3PR-METAPLASMIDFINDERSCLAS4000PLASFLOW3006048300040001000PLASMEPLATONLASME150(2500653964166412005000135PLASFOREST353571531920060976831
1图S7(a)中PLASMe观察到更多唯一识别的质粒。说明它比基于比对的方法表现出更高的灵敏度。
2图S7(b),大多数contigs在PLASMe、Deeplasmid和PlatmidVerify之间共享,而PlatForest鉴定出的质粒较少。
3图S7(c),与基于学习的方法相比,最大的集合是所有工具的交集,包含4598个contigs。
由于在图表(Figure 6)中PLASMe和Deeplasmid之间的性能差异较小,研究人员生成了一个UpSet图表,进一步分析它们的输出差异。
DEEPLASMIDCHROMOSOME物PLASME1000605PLASMIC67235000GO6353500060006118
1我们观察到PLASMe和Deeplasmid鉴定出6,723和6,352个 contigs为假定的质粒,其中6,118个 contigs通常被这两种工具鉴定。
2PLASMe和Deeplasmid分别鉴定出605个和235个不同的contigs,其中336个和135个 contigs为质粒。
3因此,两种工具鉴定的质粒contigs的差异主要在于336和135个 contigs。
还比较了PLASMe和Deeplasmid在不同序列长度的输入上的性能,范围从1000到5000 bp、5000到25,000 bp和25,000到350,000 bp。如补充图S9所示。
(1000,5000)(5000,25000)(25000,350000)1000,5000)(5000,25000)(25000,350000)(1000,5000)(5000,25000)(25000,350000)PLASMEDEEPLASMIDPLASMEDEEPLASMIDPLASMEDEEPLASMID夏一亿G780.9800.9790.9750.95一0.985.945.85.95969092.982.945.965.90.926.9390.966.85.95O.8.9610.80.80.969
结果表明,PLASMe在短contigs上的性能优于Deeplasmid,而在长contigs群上两种工具的性能相当。
contig测试集的性能表现
在contig测试集上对 PLASMe 和其他工具进行了基准测试,并绘制了精确度-召回曲线,如图 7 所示。
DEEPLASMID(0.86)PLASCLASS(0.85)CONTIG1KTESTSETPLASCLASS(0.79)DEEPLASMID(0.86)CONTIG2KTESTSETPPR-META(0.82)PPR-META(0.86)DEEPLASMID(0.84)PPR-META(0.84)PLASFLOW(0.60PLASMIDFINDERPLASME(0.95)PLASME(0.94)PLASFLOW(0.65)PLASMIDVERIFPLASFLOW(0.68CONTIG3KTESTSETPLASME(0.95)PLASCLASS(0.87)MOB-RECORPLASFOREST+PLATONECBARECALLECALLRECALL0.40.80.20.20.60.60.01.01.01.0
图7.contig测试集上的性能。PLASMe、PlatClass、PlaFlow、PPR-Meta和Deeplasmid可以输出预测得分,所以我们设定了阈值来绘制PR曲线。括号中的值是AUC。其他工具不输出预测相关分数,因此图中只有一个数据点。
1除 BLASTN 和 PlasForest 外,大多数工具的性能都随着contig长度的增加而提高,PLASMe实现了最大AUC值。
2所有基于比对的工具的精确度都接近1。但它们在最长序列集上的召回率最多只有 0.6(Platon)。
3总体而言,基于比对的方法仍然比基于学习的方法具有更高的精确度和更低的召回率。与现有的基于学习的工具相比,PLASMe不仅实现了高召回率,而且保持了更好的精确度。因此,PLASMe 是一种能处理短contigs的更强大的管道。
考虑到短contigs的分类可能不太依赖于长期依赖性,我们也对短contigs实验了基于LSTM的分类模型。如补充图 S11 所示,transformer在短contigs上的表现仍然优于 LSTM。
TRANSFORMER(O.95)LSTM(0.94)0.21.00.40.00.60.80.60.80.51.00.90.7
模拟 CAMI2 元基因组数据集的性能
首先,删除所有与测试序列相同的训练序列。为了获得组装好的contigs的标签,我们使用 BLASTN 将configs与 CAMI2 提供的参考文献进行了比对。为了最大限度地减少组装错误对性能评估的影响,只有能够与提供的具有同一性和覆盖率都在80%以上的参考比对的contigs才被用作测试数据。如表 1 所示,在这些数据集中,染色体的数量远远大于质粒的数量。不同工具的预测结果如图 8 所示。PLASMe 的 F1 分数最高,在灵敏度和准确度之间取得了良好的平衡。
图8.CAMI2海洋数据集上的性能。方框图显示了CAMI 2海洋S0∼9的结果(表1)。
与 PLSDB 测试集相比,其他基于学习的方法在 CAMI2 数据集上的性能有所下降。导致精确度降低的一个原因可能是测试数据中质粒和染色体的组成极不平衡。这种不平衡在典型的元基因组数据中很有代表性,对于基于学习的方法来说,这可能会导致许多假阳性识别。相比之下,PLASMe 可以通过基于比对的组件和基于蛋白质的 Transformer来排除短染色体configs。具体来说,通过 PLASMe 中的配准步骤,样本中 95.76% 的染色体可以被剔除。在每个数据集中,硬核configs平均占 5%,Transformer 对硬核configs的精确度为 77.97%,特异度为 99.02%。在这组实验中,与 PLSDB 测试集相比,基于比对的方法的召回率较低,这是因为它们在比对中设置了严格的阈值以保持高精度,但却无法识别分歧质粒。
在真实的元基因组和质组数据集上的性能
因为我们不知道真实数据的真实组成,所以很难确定configs的标记。因此,我们通过分析configs中现有的标记来分析性能。我们使用Prokka对已识别的configs中的基因进行注释。然后,我们检查了AMR和染色体相关蛋白(CAP),因为它们分别富含在质粒和染色体中。不同工具预测的质粒configs中的AMRs和CAPs的数量如表2和表3所示。不同的工具对AMRs和CAPS有非常不同的注释。
表 2. 不同工具在元基因组(ERR3083899)数据中识别出的质粒configs的注释,包括预测为质粒的configs的数量,以及含有 AMR 和 CAP 的configs的数量。
人PLASMIDVERIFYBDEEPLASMIDBPLASMEPLASFORESTBPLASCLASSDPPR-METAPLASFLOWD#CONTIGS#AMRPLATON12205260681821917922S#CAPTOOLSABARD1544621146201060230140
表 3. 不同工具在质粒体组(ERR3528510)数据上识别出的质粒configs的注释,包括预测为质粒的configs的数量,以及含有 AMR 和 CAP 的configs的数量
PLASMIDVERIFYBDEEPLASNMIDPPR-METAPLASFORESTB#CONTIGSPLASMEBPLASCLASSDPLASFLOWD#AMRPLATONTOOLSA#CAP108781488014806CBARU1646994(3562383101819
a MOB-Recon 和 PlasmidFinder 没有鉴定出任何质粒,因此未显示在表中。 b 混合方法。 c 基于比对的方法。
总体而言,PLASMe报告的质粒具有最高的AMR和CAP比率,这表明从这个角度来看,它的发现是合理的。plasmidVerify分别鉴定出4个和3个包含AMR的configs。然而,它也在这两个数据上发现了5个含有CAP的configs,表明plasmidVerify的精确度不高。没有鉴定出包括AMR在内的任何configs。此外,尽管基于学习的工具预测了更多的configs作为质粒,但许多已识别的configs包含CAP。这与基于纯学习的工具往往比基于比对的工具精确度更低的观察结果是一致的。