基因组大数据计算: CPU和GPU加速方案深度评测
  bacJ5n0L2wMU 2023年11月02日 36 0

随着NGS测序通量的大幅提高,搭配高效NGS二级分析技术的精准解决方案快速融进基因组学的各个应用领域:遗传进化、临床诊断、分子育种、医药开发等。以下我们通过对基于CPU和GPU不同硬件平台的NGS二级分析方案进行详细评测,以期为基因组学研究领域的用户提供参考。

基因组大数据计算: CPU和GPU加速方案深度评测_二级

Sentieon软件是面向CPU平台开发的,在不需要专用的编程语言,不依赖任何专用硬件的情况下进行快速基因变异检测分析,大幅降低了软件的配置、部署和维护成本。同时,Sentieon针对第三代和第四代Intel Xeon Scalable处理器(以前代号为Sapphire Rapids)进行了改进及优化,更适用于在多核系统上扩展,可以在Xeon平台上实现更快速地处理急诊科及ICU的紧急样本,也可在实验室环境下以更高的通量处理大量样本。

基因组大数据计算: CPU和GPU加速方案深度评测_基因测序_02

本次评测将比较面向CPU平台的Sentieon软件及面向GPU平台的NVIDIA Clara Parabricks的运算性能和分析准确性,以评估两者在基因组二级分析中的性价比及成本效益。

为什么没选择GATK

GATK是变异检测流程的行业金标准,但它是用Java写的,所以不是性能的金标准。伊利诺伊大学和梅奥诊所发表的文章已经证实,Sentieon 的运算性能明显优于 GATK,而且没有损失精度(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6710408)。

基因组大数据计算: CPU和GPU加速方案深度评测_基因测序_03

同时基于最新来自AWS的官方评测,NVIDIA Clara Parabricks相对GATK也有明显的性能优势(https://aws.amazon.com/cn/blogs/hpc/benchmarking-the-nvidia-clara-parabricks-germline-pipeline-on-aws/)

基因组大数据计算: CPU和GPU加速方案深度评测_4th_04

综上原因,我们没有将GATK纳入评测范围。我们的目标是比较Sentieon软件(用C++编写,并针对CPU优化)与 Parabricks(用CUDA编写并针对 NVIDIA GPU 优化)。

测试项目

为了尽可能精确地比较Sentieon与Parabricks流程每个计算阶段的运行性能,我们按照两个流程中匹配的计算步骤(如下表),将Parabricks中haplotypecaller、预处理和fq2bam各个阶段对应Sentieon流程的步骤标记出来,并统计两个流程对应计算阶段的运算时间。测试数据为30X HG001 WGS标准数据集。


基因组大数据计算: CPU和GPU加速方案深度评测_4th_05

性能评测

以下我们将展示Sentieon和Parabricks在不同硬件配置环境下的性能表现。其中Intel Xeon 可扩展处理器提供了具有竞争力的性能,第四代 Intel Xeon 可扩展处理器(以前的代号为 Sapphire Rapids)提供最佳的整体性能。除了最重要的性能评测,我们详细对比了每个基因组的计算成本和功耗表现。

基因组大数据计算: CPU和GPU加速方案深度评测_基因测序_06

  • 3rd Gen硬件环境为2* Intel 2.4GHz  Intel Xeon Platinum 8368 CPU(152核心, 超线程开启),256GB DDR4-3200 内存,1TB Intel 660p 和 2TB DC P4510 SSD。
  • 4th Gen硬件环境为2* 4th Gen Intel Xeon Scalable CPU(原代号为 Sapphire Rapids,>40 核,超线程开启),Intel Pre-production BIOS,256GB DDR内存(16(1DPC)/16 GB/4800 MT/s),1TB Intel D3-S4610 SSD。
  • 3rd Gen和4th Gen的操作系统均为. Ubuntu Linux* 20.04。

通过下表中各计算实例上Sentieon vs. Parabricks的性能对比,可以看出,3rd Intel Xeon平台可在40分钟左右完成30x WGS的数据分析,与GPU平台速度相当。而4th Intel Xeon平台则跑出了26.8分钟的最佳成绩


基因组大数据计算: CPU和GPU加速方案深度评测_4th_07

其中NVIDIA Clara Parabricks评测数据来源于AWS官方博客:https://aws.amazon.com/cn/blogs/hpc/benchmarking-the-nvidia-clara-parabricks-germline-pipeline-on-aws/

根据不同配置的硬件定价统计表可以发现,与 NVIDIA A100 Tensor Core 处理器(4.59 美元)相比,Intel Xeon Scalable CPU(1.54 美元)的每个基因组分析所需成本要低得多。如果第4代英特尔至强可扩展处理器具有类似的AWS EC2定价,则每个基因组的计算成本将降至不到 1 美元(2.1635 美元/小时 * 26.8 分钟 = 0.97 美元)。在此补充一下,这次基准测试中使用的4th Gen Xeon Scalable CPU是预发布硬件,因此最终产品的性能可能会有所提高。

基因组大数据计算: CPU和GPU加速方案深度评测_4th_08

在功耗方面,c6i.metal 实例中的两颗Intel Xeon Platinum 8352M 处理器的功率是370W,而 p4d.24xlarge 实例中的八个 NVIDIA A100 Tensor Core 的功率则高达3,200W。Parabricks 要达到最佳性能,相较于Intel纯CPU硬件环境需要8.6倍的功率和 3.0 倍的成本,但分析效率相较于Intel 3rd Gen Xeon Platinum 8352M CPU来说,仅有1.5 倍的性能提升。

精度评测

在分析精度方面,Parabricks官方博客此前报道了其变异检测结果的准确性与GATK相当(F1 scores)。而Sentieon不但提供与GATK一致结果(一致性达99%以上),更是PrecisionFDA Truth Challenge的连续冠军。在第二届PrecisionFDA Truth Challenge比赛中更是赢得了4个分项赛冠军。

基因组大数据计算: CPU和GPU加速方案深度评测_基因测序_09

关于对Sentieon软件的运行效率和准确度的行业认可,其遍布全球的用户和快速增长的数据处理量提供了广泛的例证。

基因组大数据计算: CPU和GPU加速方案深度评测_可扩展_10

结论

Sentieon软件是通过改进算法模型实现性能加速(纯CPU环境,支持X86/ARM),不依赖于昂贵高功耗的专用硬件配置(GPU/FPGA),不依赖专有编程语言;同时Sentieon软件针对几乎所有的短读长和长读测序平台进行了优化,是FDA多次公开挑战赛的连续赢家。本次评测展现了Sentieon软件在Intel Xeon平台上的卓越性能,是基因组二级分析的最佳解决方案

 


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

bacJ5n0L2wMU