CFMS | MemoryS 2025
权威的存储市场资讯平台English

Solidigm https://www.solidigmtech.com.cn/

Solidigm如何激发硬件及AI系统的强劲性能,实现满负载超算运行?来CFMS | MemoryS 2025一探究竟

编辑:Cynthia   发布:2025-02-28 16:26

在AI运行过程中,主要由五个关键阶段构成,分别是数据采集、数据准备、模型训练、模型部署与推理以及数据归档。AI运行的不同阶段对数据传输和存储读写性能的需求呈现出鲜明差异。从前期数据积累到端侧推理部署的AI应用,对存储提出了多维度的高性能要求。

来源:CFM闪存市场

数据准备

数据准备阶段直接奠定了AI大模型训练的基础。该环节需要从存储器中读取大量数据,如图像、文本、音频等,加载到运行内存进行数据处理转换,如缩放、增强、标准化等,转换为AI模型可处理的格式。此时的I/O工作负载,不仅包括读取原始数据,还包括将数据转换后的中间结果临时存储到内存中,甚至会将需要存储的部分中间数据写入硬盘。因此,这个过程会涉及随机读取和顺序写入操作。

模型构建和训练

数据准备好后进入AI模型训练阶段,该阶段对并行运算效率要求极高。通常多个任务竞相访问同一数据集,并发数据读取访问的操作量大幅增加。在持续数日数周甚至数月不等的训练过程中,训练任务需要定期写入检查点,以便快速实现数据恢复并减少重新训练的可能。因此,存储需要在检查点密集的连续写入期间,也能够维持频繁并发训练所需的读取性能。因此,在AI训练环节,高性能存储的表现至关重要,需要能够持续拓展的高性能存储,如全闪存存储来消除I/O瓶颈,可高速进行多主机的混合读取访问,能够高效地向计算资源提供数据,是消除闲置资源提高AI训练效率的关键。 

来源:Solidigm

模型部署和推理

在模型部署和推理阶段,存储系统需要具备高效的数据检索和传输机制,尤其在实时交互、在线服务等应用场景中,减少等待时间对用户应用AI的体验感至关重要,因此,具备高速随机读取性能的存储尤为重要。随着模型部署后吸收的新数据增加,模型会进行再训练和微调,因此存储在满足高速读取需求以外,还需要支持高可拓展性和远程自我修复能力,并且存储系统往往需要与多个硬件及不同的操作系统协作,实现跨平台融合,从而允许开发、训练和生产部门能够轻松访问动态变化的数据。整体来看,端侧AI推理部署往往需要跨平台协作、硬件加速和工具链的整合,从而有助于显著降低端侧AI部署的复杂度,提升智能终端的高效AI推理和人机交互感。

归档

在推理环节结束后,海量的数据需要归档以便后续调用。尤其在垂直行业领域的AI应用中,合规监管要求日趋严格,数据归档要求日益增加。数据归档环节将对存储写入性能和容量扩展带来新的要求。

那么在AI运行的各环节中,Solidigm是如何激发硬件及系统的强劲性能,实现满负载的超算运行?2025年3月12日, Solidigm亚太地区销售副总裁倪锦峰(Benny Ni)将莅临CFMS|MemoryS 2025峰会现场进行主题演讲,并与现场嘉宾进行深度交流,让我们共同期待!

大会报名通道现已开启,可通过峰会官网(https://www.memorys.com/)或“闪存市场”APP进行报名。

人气厂商
更多»