大模型存储实践｜焱融全闪加速 AI 大模型开发应用-摩杜云开发者社区

百舸争流 AI存储是大模型高效训练的关键技术

人工智能正在从文本、语音、视觉等单模态智能，向着多种模态融合的通用人工智能方向发展。基于多模态的预训练大模型将成为人工智能基础设施，AI 大模型是“人工智能预训练大模型”的简称，是“大算力+强算法”结合的产物。它结合了"预训练"和"大模型"的概念，具有重要的应用和影响力。这种新兴的人工智能模式正推动着 AI 的产业化进程，被视为实现通用人工智能的重要方向。为了更好地支持大模型的的计算、训练和演进，如何去设计、开发基础设施就成了非常重要的问题。

由于大模型的构建需要使用大量的数据进行训练，这就包含了各种复杂的特征和规律,因此大模型具有更好的预测性能和更高的准确率。其次，大模型的计算算法较为复杂，需要使用分布式计算框架和高效的并行计算技术来实现。这些技术可以极大地提高模型训练和预测的速度，使得大模型能够在更短的时间内完成训练和预测。完整的基础设施包括算力、数据和基础软件三大要素，大模型能否实现跨时代的发展取决于三大要素共同进步的频速。其中，数据存储是 AI 大模型的关键基础设施，是加速大模型高效训练的关键技术。

焱融全闪助推某认知大模型开发应用

某认知大模型，是以中文为核心的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。

开发 AI 大模型离不开巨量的数据和强大的算力支持，尤其在存储方面，亟需更先进的技术和产品能力为 AI 大模型的发展提供有稳健有力的支撑。焱融科技是最早进入 AI 领域的分布式文件存储厂商，专注于 AI / HPC 场景的存储技术的研发，凭借业界性能领先的存储性能优势成功落地众多 AI+行业场景的标杆客户。在今年 5 月，赛迪顾问重磅发布的《中国分布式存储市场研究报告 2023 》提到，焱融科技在 Al、智能汽车、高性能计算等领域具有较强实力，行业竞争力突出。在该认知大模型项目中，所采用的焱融明星产品全闪存储具备大容量和超高 IO 能力，完美匹配高性能 GPU 算力集群对数据访问的需求，支持 NVIDIA GPUDirect Storage（GDS）能充分匹配前端的异构计算能力，释放 GPU 计算能力，助推该认知大模型稳定前行。

AI 大模型全流程存储需求及挑战

AI 大模型全流程数据需求分析

AI 大模型具备庞大参数量和复杂结构的人工智能模型，需通过存储更多的参数来增加模型的深度和宽度，从而提高模型的表现能力，参数从百亿起步，通过对大量数据进行训练产生高质量的预测结果。作为世界上最大的中文预训练模型之一，该认知大模型具有 1.5 万亿个参数。
大模型下的数据量是海量的，从 TB 到 PB 再到惊人的 ZB，多模态 AI 在数据结构、数据类型远比单模态 AI 复杂，数据量也庞大；未来掌握数据量越多，模型成果价值就越大。
AI 大模型从数据采集到最后大模型应用场景输出，总的流程可以分为几大类：数据采集、数据处理、模型训练、推理验证、模型应用，每个步骤都需要存储的参与，然而每个步骤对于存储的需求和数据的格式应用都有所不同。对于存储厂商而言，面对这种复杂应用场景，把各种非结构化的数据应用起来，实现自动高效的流转成为大模型建设需求中的关键。
在 AI 大模型开发过程中，因为网络原因、硬件原因、还有其他一些未知的因素影响等，导致大模型训练会中断暂停，所以多数大模型厂商会应用 checkpoint 来保证中间的成果，即 checkpoint 时刻，然后重启训练。恢复过程中，训练会退回到此前的一个节点，即有一部分会重新训练一次；在大模型训练过程中 checkpoint 为一个同步阻塞的过程，简单点理解就是 GPU 在做 checkpoint 时候，它是不能够去参与计算的，因此训练会暂停。如何高效稳定的完成 checkpoint 动作对存储应对高并发和高吞吐提出了极高的要求。

大模型存储实践｜焱融全闪加速 AI 大模型开发应用_文件存储

AI 大模型全流程数据需求分析

基于上述分析，焱融科技认为 AI 大模型在存储方面的面临如下挑战

大型数据集海量存储空间

AI 大模型需要高质量、大规模、多样性的数据集，随着数据和模型规模的增长，数据量会呈现指数级增长，海量的存储空间和可以横向扩展的存储系统尤为重要，分布式存储解决方案势在必行。

高效的数据流动

大模型应用的源数据目前正在从各个时间方向和维度被人们采集，由于采集的原始数据量大、文件数据类型复杂、噪音多，所以一般在训练之前会经过有大量的工作来给数据瘦身和处理，面对处理后的有效数据快速的切入到训练环境，这对高效的数据流动提出了更高的要求，统一数据湖成为必选的诉求。

模型训练中高吞吐和低延时

为了缩短模型的成型时间提高生产的效率，高效的吞吐和极低的延时为 GPU 计算提供数据支撑，减少 GPU 计算等待的时间；同时在模型训练环节，checkpoint 也是一项必不可少工作，由于 checkpoint 工作原理的特殊性，所以优化 checkpoint 过程，尽量缩短 checkpoint 耗时，减少训练中断时间。

智能高效的数据归档

数据将是 AI 大模型的关键竞争要素之一，因为基础硬件和基础模型算法相对固定的情况下，谁能拥有更多的数据，将会在未来大模型开发中占据优势，海量的数据收集，智能归档保存成为大模型厂商需要考虑的需求项之一。

海量小文件性能支持

训练模型的精准程度依赖于数据集的大小，样本数据集越大，就为模型更精确提供了基础。通常，训练任务需要的文件数量都在几亿，十几亿上百亿的量级，对存储的要求是能够承载几十亿甚至上百亿的文件数量。小文件，很多的训练模型都是依赖于图片、音频片段、视频片段文件，这些文件基本上都是在几 KB 到几 MB 之间，对于一些特征文件，甚至只有几十到几百个字节，而小文件的读取速度又是业界的一个难题；所以针对大模型数据的特点，对于小文件的性能要求变得尤为重要。

焱融全闪打造面向 AI 大模型统一存储方案

大模型存储实践｜焱融全闪加速 AI 大模型开发应用_文件存储_02

焱融全闪存储 F8000X 为 AI 大模型提供了海量数据支持、超高性能、大模型全流程高效数据流转及建设成本都可兼顾的统一解决方案。采用全 NVMe SSD、InfiniBand 高速网络，支持 200Gb/400Gb Infiniband 网络及 NVIDIA GPUDirect ，实现了单存储节点达到 80GBps 以上，IOPS 性能可以达到 300万，性能提升 100%。通过 YRCloudFile 分布式存储架构、数据智能加载和分层功能，针对异构存储并存的应用场景，灵活高效地驱动数据在不同存储平台流动，方便组织数据集进行计算分析；焱融全闪存储构建绿色低碳的数据存储，将数据按照生命周期管理策略分层到本地低速存储或者云端，对业务端提供统一命名空间，降低使用复杂度，提升了数据存储使用的经济性。

大模型存储实践｜焱融全闪加速 AI 大模型开发应用_人工智能_03

大模型 AI 存储方案架构图示意图

海量数据支持实现 AI 大模型全生命周期

焱融科技自研的文件存储系统 YRCloudFile 采用分布式架构，支持 POSIX / SMB / NFS 等文件协议接口，满足业务发展对存储容量和性能同步提升的需求。在面对大模型海量的数据需求时，焱融分布式文件系统可以扩展到 4096 个节点，单一命名空间容量可达 EB 级，满足 AI 大模型全生命周期对于海量数据的存储需求。

实现 AI 大语言模型超高性能存储能力是关键

焱融全闪存储 F8000X 结合高性能存储介质加高性能无阻塞网络组建一套横向扩展的全闪集群，单个存储节点可提供 80GBps 带宽和 300 万 IOPS 的极致性能。不仅支持从算力需求到网络再结合模型训练的业务形态和数据结构的类型，还能保证训练的效果和整体的效率；

业界领先的 AI 存储技术将性能发挥极致

海量小文件技术

在小文件操作中，元数据操作占据了很大的比重，几乎达到 70%-80% 。对于整个系统而言，元数据性能成为严重限制 ops 性能的瓶颈。焱融分布式文件存储 YRCloudFile 采用的 io 框架可提供百万级的 iops 能力；其次，依赖客户端缓存机制，提供基于内存缓存的元数据管理技术，在保证语义的前提下，能安全的命中缓存，减少跨网络和磁盘访问开销。YRCloudFile 实现轻量级 open，lazy close，batch commit，metadata readhead 机制，使得焱融分布式文件存储 YRCloudFile 在处理小文件时的赢的超高性能表现。

兼容 TCP ROCE、IB RDMA 等高速网络聚合技术

焱融全闪分布式文件存储支持全栈网络，不固定于某一型号网络设备和协议，支持以太网和 Infiniband，从千兆以太环境到 400Gb IB 网络，全面覆盖现有行业网络要求；内部 IO 优化的机制和高性能存储介质的支撑，可以充分发挥硬件网络的极致性能，让网络不再成为性能瓶颈；并支持 IB 网络聚合技术，让有限的硬件发挥出更高的性能。

客户端缓存技术

客户端元数据缓存主要是通过 dcache 来加速 lookup（元数据查找），dcache 加速获取文件 layout 信息。数据缓存是否失效，需要大量的 d_revalidate去确认数据是否存在，元数据缓存可以极大减少 d_revalidate，并且配合 YRCloudFile 元数据缓存的 delegation 机制，可以尽可能让查询类的元数据操作在本地完成，从而使元数据查询类操作获得很高的 QPS 和很低的延迟。

预读技术

预读 Readahead，是客户端针对顺序读的性能优化机制。预读可以有效地减少存储和应用程序的 I/O 等待时间，缩减网络和磁盘的开销，提升数据读取性能，加速 AI 大模型训练的效率。

国内首家支持 NVIDIA GPUDirect Storage（GDS）

NVIDIA®Magnum IO GPUDirect® 技术，能够显著降低 GPU 服务器内的 CPU 占用率，增加存储带宽并减少延迟。支持 GPUDirect Storage（GDS）功能，能够更好地管理数据路径，使得数据在应用程序和存储之间通过更短、更有效的路径传输。

AI 大模型全流程多环节数据流动

焱融全闪存储打通数据从处理到模型训练再到备份归档全流程数据流动；焱融 YRCloudOS 提供标准 bucket，以 S3 协议接口对接数据处理平台；通过焱融 Dataload 功能作为桥梁，将全闪存储和对象存储组建成一个支持多业务需求的数据湖；完成训练所需要的有效数据集高效的流动切换。在大模型全生命周期内，焱融 YRCloudOS 提供归档 bucket，焱融提供智能分层功能对接到全闪文件系统，完成数据冷热自动分层，统一的数据平台助力大模型业务对于全生命周期的数据治理和备份归档。

大模型存储实践｜焱融全闪加速 AI 大模型开发应用_文件存储_04

焱融全闪分布式并行文件存储架构

AI 大模型是通用人工智能领重要的驱动力，具有重要的应用和影响力。焱融科技以敏锐的市场洞察力、提前布局精准研判，正积极推动 AI 大模型的发展和应用，为 AI 大模型提供了海量数据支持、超高性能、大模型全流程高效数据流转及绿色低碳存储设施建设都可兼顾的统一解决方案。未来，焱融科技将继续致力于 AI 大模型存储技术的研发与应用，为 AI 大模型的发展提供有稳健有力的支撑，打造引领 AI 存储市场和前沿科技的未来发展趋势。