在大模型推理过程中,KV Cache会随着对话长度的增加而急剧膨胀,单台服务器的 GPU 显存往往无法承载超长上下文的存储需求 。为突破这一瓶颈,基于SSD的KV Cache“以存代算”技术,通过将活跃度较低的KV Cache数据卸载至固态硬盘,构建HBM+DRAM+SSD多级缓存体系,从而释放AI算力。
具备超高性能的AI SSD由此应运而生。
英韧科技的AI SSD产品洞庭-N3X采用PCIe Gen5接口和优化的数据引擎,并搭配一种介于HBM/DDR和FLASH之间的新型存储介质,结合多项创新技术,令洞庭-N3X拥有高达14.7GB/s的超高性能,延迟仅为TLC SSD的1/3,耐用性(DWPD) 却可达到TLC SSD的17-33倍,可以快速打破“内存墙”,让数据能够更快地供给GPU,避免算力闲置,为训练加速和推理加速提供强大支持。
近期,英韧科技的AI SSD参与ODCC AI存储实验室KV Cache场景测试,本次项目由ODCC牵头,英韧科技联合 NVIDIA 、焱融科技、超擎数智、DaoCloud、纳多德,在高性能计算和人工智能研发测试中心进行。测试显示,洞庭N3X作为AI SSD将大大助力AI服务器构建缓存层,从而在系统吞吐量(Throughput)、首 Token 延迟 (TTFT)、长上下文高效支持等多个方面实现提升,并实现让性价比更高的中端 GPU 在长文本推理场景下获得接近高端 GPU 的表现,降低整体 TCO。

本次项目采用英韧科技SSD洞庭-N3X,焱融 YRCache 推理存储系统,适配高端HBM GPU服务器以及中端GDDR GPU服务器进行“面向AI推理场景中的KV Cache的数据存储测试”,在此场景下,SSD将采用GPU直接调度的方式,构建“以存代算”的第三级缓存。
AI SSD性能表现

根据实测数据显示,洞庭N3X在顺序读写方面展现了优秀的性能。其顺序读取速度超过14 GB/s,顺序写入速度近12 GB/s,且在不同Block Size下均能维持这一性能。对于AI训练场景,这意味着加载大模型文件或读取海量训练数据集时,能以最快的速度将数据喂给GPU,显著减少数据加载的等待时间。

针对AI训练中常见的小文件随机访问负载,洞庭N3X也同样表现优异。其4KB随机(128QD)读取接近3500K IOPS,4KB随机写(128QD)入可达756.72K IOPS。凭借其卓越的读写延迟和稳态QoS表现,洞庭N3X作为AI SSD将大大助力AI服务器构建缓存层,从而在首 Token 延迟 (TTFT)、长上下文高效支持等多个方面实现提升。
AI应用场景表现
在Qwen和DeepSeek-R1等主流大模型环境下,引入洞庭-N3X构建的 KV Cache offloading方案后,可以得到以下AI SSD助力推理速度优化的结论:
【发现1】
延迟性能:节点A的P99延迟仅66μs,尾延迟控制优秀。

【说明】
实测数据显示,在采用高端HBM GPU服务器的节点A的P99延迟仅66μs,得益于洞庭-N3X对服务质量的严苛控制,其读延迟约为传统TLC SSD的三分之一,能够有效避免因存储响应抖动导致的推理延迟毛刺,为KV Cache offloading场景下的推理服务提供稳定的响应性能支撑。
【发现2】
在处理长文本和高并发任务时,洞庭N3X可以令高性价比的中端 GPU 也能展现出媲美更高算力卡的推理效能。

【说明】
实现首 Token 延迟(TTFT)的数量级降低:在10K 或更长输入长度下,首字响应时间可从数秒级缩短至毫秒级,在特定缓存命中场景下加速比可达百倍。
爆发式提升系统吞吐量(Throughput): 能够有效打破“内存墙”,让数据更快供给 GPU,本次测试中使中端显卡的吞吐量提升约 20 倍,高端显卡提升约 12 倍。
支持超长上下文的高效处理:解决了单台服务器显存无法承载超长文本存储的需求,确保在 50K-100K 甚至更长的文本场景下,系统依然保持高效的换入换出效率。
显著提升中端 GPU 的推理效能:通过“以存代算”方案,使中端显卡在命中缓存时的性能表现能够接近或追平高端显卡,为智算中心提供更具性价比的存储方案。
增强系统耐用性与稳定性:采用高 DWPD(耐用性)的极低延迟 AI SSD,能承受 KV Cache 频繁读写带来的压力,确保在长文本和高并发任务下的上下文无感调度。
【发现3】
高宽带对KV cache卸载的加速效果明显。

【说明】
图表展示了中端GPU服务器在不同大存储带宽网络环境下的性能比对,在存储池性能满足网络带宽的前提下,网络带宽越大,Throughput提速推理速度越显著。
高速带宽网络投资与洞庭-N3X的超高读写性能形成合力,显著优化 Prefill 和 Decode 阶段的数据流转效率,是高端推理集群降本增效的关键。
测试结论
英韧科技的AI SSD产品洞庭-N3X通过极速的IO响应解决了大模型推理中的“存储墙”问题,让焱融 YRCache 推理存储系统能够实现上下文的无感调度,从而在处理长文本和高并发任务时,令中端GDDR GPU也能展现出媲美更高算力卡的推理效能。用户无需全部采购昂贵的顶配算力卡,通过优化存储投资即可实现跨量级的性能飞跃,降低整体 TCO,大幅提升智算中心整体的投资回报率(ROI)。
此次ODCC AI存储实验室的KV Cache场景测试,不仅验证了洞庭-N3X在“以存代算”架构中的卓越性能,更标志着英韧科技在AI存储领域的战略布局迈出了坚实一步。面对AI推理向长上下文、高并发演进的时代需求,英韧科技将持续深化“介质、架构、互联”三大核心要素的技术突破,以极致存力持续破解AI时代的“存储墙”瓶颈。
从PCIe 5.0到AI SSD,英韧科技致力于以持续的技术创新,为全球智算中心提供更高效率、更低TCO的存储解决方案。以洞庭-N3X为起点,我们期待与全球合作伙伴一起,持续探索存储与AI场景的深度融合。
ODCC AI存储实验室
为系统评估算力中心的“存力”水平、打通技术研发与产业应用壁垒,在NVIDIA、美团、三星、Solidigm、英韧科技等产业链企业支持下,ODCC成立AI存储实验室。针对推理场景中的数据响应瓶颈,实验室聚焦大模型推理中的关键制约因素—KV Cache,启动面向存储软硬件的专项协同测试工作,旨在构建一套适配推理场景的KV Cache存储解决方案及测试规范,切实推动AI存储技术的标准化、规范化与规模化落地。