突破“内存墙”：英韧科技AI SSD参与ODCC AI存储实验室KV Cache 场景测试

厂商动态英韧英韧 2026-04-10 16:39

在大模型推理过程中，KV Cache会随着对话长度的增加而急剧膨胀，单台服务器的 GPU 显存往往无法承载超长上下文的存储需求。为突破这一瓶颈，基于SSD的KV Cache“以存代算”技术，通过将活跃度较低的KV Cache数据卸载至固态硬盘，构建HBM+DRAM+SSD多级缓存体系，从而释放AI算力。

具备超高性能的AI SSD由此应运而生。

英韧科技的AI SSD产品洞庭-N3X采用PCIe Gen5接口和优化的数据引擎，并搭配一种介于HBM/DDR和FLASH之间的新型存储介质，结合多项创新技术，令洞庭-N3X拥有高达14.7GB/s的超高性能，延迟仅为TLC SSD的1/3，耐用性（DWPD）却可达到TLC SSD的17-33倍，可以快速打破“内存墙”，让数据能够更快地供给GPU，避免算力闲置，为训练加速和推理加速提供强大支持。

近期，英韧科技的AI SSD参与ODCC AI存储实验室KV Cache场景测试，本次项目由ODCC牵头，英韧科技联合 NVIDIA 、焱融科技、超擎数智、DaoCloud、纳多德，在高性能计算和人工智能研发测试中心进行。测试显示，洞庭N3X作为AI SSD将大大助力AI服务器构建缓存层，从而在系统吞吐量（Throughput）、首 Token 延迟 (TTFT)、长上下文高效支持等多个方面实现提升，并实现让性价比更高的中端 GPU 在长文本推理场景下获得接近高端 GPU 的表现，降低整体 TCO。

本次项目采用英韧科技SSD洞庭-N3X，焱融 YRCache 推理存储系统，适配高端HBM GPU服务器以及中端GDDR GPU服务器进行“面向AI推理场景中的KV Cache的数据存储测试”，在此场景下，SSD将采用GPU直接调度的方式，构建“以存代算”的第三级缓存。

AI SSD性能表现

根据实测数据显示，洞庭N3X在顺序读写方面展现了优秀的性能。其顺序读取速度超过14 GB/s，顺序写入速度近12 GB/s，且在不同Block Size下均能维持这一性能。对于AI训练场景，这意味着加载大模型文件或读取海量训练数据集时，能以最快的速度将数据喂给GPU，显著减少数据加载的等待时间。

针对AI训练中常见的小文件随机访问负载，洞庭N3X也同样表现优异。其4KB随机（128QD）读取接近3500K IOPS，4KB随机写（128QD）入可达756.72K IOPS。凭借其卓越的读写延迟和稳态QoS表现，洞庭N3X作为AI SSD将大大助力AI服务器构建缓存层，从而在首 Token 延迟 (TTFT)、长上下文高效支持等多个方面实现提升。

AI应用场景表现

在Qwen和DeepSeek-R1等主流大模型环境下，引入洞庭-N3X构建的 KV Cache offloading方案后，可以得到以下AI SSD助力推理速度优化的结论：

【发现1】

延迟性能：节点A的P99延迟仅66μs，尾延迟控制优秀。

【说明】

实测数据显示，在采用高端HBM GPU服务器的节点A的P99延迟仅66μs，得益于洞庭-N3X对服务质量的严苛控制，其读延迟约为传统TLC SSD的三分之一，能够有效避免因存储响应抖动导致的推理延迟毛刺，为KV Cache offloading场景下的推理服务提供稳定的响应性能支撑。

【发现2】

在处理长文本和高并发任务时，洞庭N3X可以令高性价比的中端 GPU 也能展现出媲美更高算力卡的推理效能。

【说明】

实现首 Token 延迟（TTFT）的数量级降低：在10K 或更长输入长度下，首字响应时间可从数秒级缩短至毫秒级，在特定缓存命中场景下加速比可达百倍。

爆发式提升系统吞吐量（Throughput）：能够有效打破“内存墙”，让数据更快供给 GPU，本次测试中使中端显卡的吞吐量提升约 20 倍，高端显卡提升约 12 倍。

支持超长上下文的高效处理：解决了单台服务器显存无法承载超长文本存储的需求，确保在 50K-100K 甚至更长的文本场景下，系统依然保持高效的换入换出效率。

显著提升中端 GPU 的推理效能：通过“以存代算”方案，使中端显卡在命中缓存时的性能表现能够接近或追平高端显卡，为智算中心提供更具性价比的存储方案。

增强系统耐用性与稳定性：采用高 DWPD（耐用性）的极低延迟 AI SSD，能承受 KV Cache 频繁读写带来的压力，确保在长文本和高并发任务下的上下文无感调度。

【发现3】

高宽带对KV cache卸载的加速效果明显。

【说明】

图表展示了中端GPU服务器在不同大存储带宽网络环境下的性能比对，在存储池性能满足网络带宽的前提下，网络带宽越大，Throughput提速推理速度越显著。

高速带宽网络投资与洞庭-N3X的超高读写性能形成合力，显著优化 Prefill 和 Decode 阶段的数据流转效率，是高端推理集群降本增效的关键。

测试结论

英韧科技的AI SSD产品洞庭-N3X通过极速的IO响应解决了大模型推理中的“存储墙”问题，让焱融 YRCache 推理存储系统能够实现上下文的无感调度，从而在处理长文本和高并发任务时，令中端GDDR GPU也能展现出媲美更高算力卡的推理效能。用户无需全部采购昂贵的顶配算力卡，通过优化存储投资即可实现跨量级的性能飞跃，降低整体 TCO，大幅提升智算中心整体的投资回报率（ROI）。

此次ODCC AI存储实验室的KV Cache场景测试，不仅验证了洞庭-N3X在“以存代算”架构中的卓越性能，更标志着英韧科技在AI存储领域的战略布局迈出了坚实一步。面对AI推理向长上下文、高并发演进的时代需求，英韧科技将持续深化“介质、架构、互联”三大核心要素的技术突破，以极致存力持续破解AI时代的“存储墙”瓶颈。

从PCIe 5.0到AI SSD，英韧科技致力于以持续的技术创新，为全球智算中心提供更高效率、更低TCO的存储解决方案。以洞庭-N3X为起点，我们期待与全球合作伙伴一起，持续探索存储与AI场景的深度融合。

ODCC AI存储实验室

为系统评估算力中心的“存力”水平、打通技术研发与产业应用壁垒，在NVIDIA、美团、三星、Solidigm、英韧科技等产业链企业支持下，ODCC成立AI存储实验室。针对推理场景中的数据响应瓶颈，实验室聚焦大模型推理中的关键制约因素—KV Cache，启动面向存储软硬件的专项协同测试工作，旨在构建一套适配推理场景的KV Cache存储解决方案及测试规范，切实推动AI存储技术的标准化、规范化与规模化落地。

推荐：电脑用的少，手机扫一扫，资讯快一步！

英韧科技

关注

报价中心

简讯快报

⊙前天 07-17 16:50

月之暗面正式发布Kimi K3，参数规模达2.8万亿，支持100万Token超长上下文与原生视觉理解。综合性能直逼全球顶尖闭源模型，甚至完成AI自主设计芯片的概念验证！目前Kimi网页端及App已全面开放体验，完整模型权重将于7月27日前正式开源。

⊙前天 07-17 15:55

vivo、小米、OPPO、荣耀共建“公平运存机制”，旨在公平分配内存运行资源、统一规则降低适配成本、构建良性可持续终端生态。针对安卓用户面临的运行卡顿、设备发热、切换重加载问题，vivo、小米、OPPO、荣耀共建的公平运行内存机制将进行高效调度，让体验改善形成正循环，核心内容包括：
统一标准：建立清晰的内存使用区间参考，让优化目标有据可依；
智能通知：在内存紧张时，系统会主动通知应用进行资源释放，减少对用户体验的直接影响；
场景化规范：明确特殊场景下的用户通知规则，最大限度减少对用户的打扰。

⊙前天 07-17 15:33

理想正式推出新款L6 Ultra车型，售价为24.98万元。智能座舱方面，新一代理想L6搭载高通骁龙8797座舱芯片、马赫M100芯片和29英寸6K全景屏的组合。辅助驾驶方面，新一代理想L6搭载自研马赫M100芯片与马赫VLA司机大模型，智能辅助驾驶体验全面进化。随新一代理想L6交付，马赫智能辅助驾驶还将在7月底迎来多项能力升级。该车还可选具身智能套装，额外增加一颗马赫M100芯片等，限时优惠选装价格2万元。

⊙前天 07-17 15:09

Gartner预测，2030年新型云端（neocloud）提供商将占AI云端市场20%市场，即2,670亿美元。新型云端提供商正以性能卓越、灵活的AI工作负载部署方式，结合对数据主权高度投入形成差异化优势，定价通常更具竞争力。AI云端市场正进入新阶段，主权、性能与基础结构专业化成为企业决策首要因素。GPU密集型工作负载需求加速增长，一般云端模式难以跟上步伐，为新型云端提供商大规模交付AI基础结构创造条件。

⊙前天 07-17 15:04

据媒体报道，华为昇腾950超节点（Atlas 950 SuperPoD）真机在2026世界人工智能大会上，首次公开亮相。昇腾950基于灵衢互联协议和超节点架构，实现业界最大1024卡规模，提供1 EFLOPS FP8 、2 EFLOPS FP4算力，拥有256TB全局统一内存编址空间，依托TB级NPU互联超大带宽与3μs超低RTT时延。

⊙前天 07-17 14:29

存储芯片所带来的数据交互延时与功耗问题，是制约算力提升的根本瓶颈。中国专家团队的最新研究成果实现了“单电子存储”，即只用1个电子就能存1比特信息，且关闭电源信息不会丢失。复旦大学周鹏—刘春森团队的这项研究成果已发表于《科学》(Science)主刊。《科学》杂志方面评价，这项研究成果“前景广阔、潜在高影响力，在存储物理学和纳米器件工程领域备受关注”，“引入新理论机制(态密度剪刀)，使得量子态的工程化操控成为可能”。

⊙前天 07-17 14:20

据台媒援引PC供应链消息，2026年下半年存储价格涨幅虽有所收敛，但整体价格仍持续走高。PC品牌厂商虽将新增成本转嫁至消费者，销量受一定压制但影响程度尚未触及临界点。当前品牌厂仍在积极寻求内存货源，长鑫科技已成为重要供应方。供应链透露，各家品牌均已与长鑫科技完成产品测试，但能否实际获得供货则取决于优先次序。大型PC品牌如戴尔、惠普、联想及苹果将享有优先拿货权，其余品牌需凭各自资源争取，小型厂商基本无缘获得产能。据悉，长鑫科技的在手订单已排至2027年底。

⊙前天 07-17 14:14

据外媒报道，据法院文件显示，美国得克萨斯州韦科市的联邦地裁陪审团于16日作出裁决，认定日本半导体制造商铠侠（Kioxia）侵犯了美国卫星通信公司威亚萨特（Viasat）的计算机内存技术专利，判令铠侠向后者支付高达2.29亿美元的赔偿金。陪审团认定，铠侠的闪存产品侵犯了Viasat的一项专利权。该专利技术能够有效降低设备功耗，并显著提升存储设备的可靠性与使用寿命。

⊙前天 07-17 14:13

台积电在法说会上表示，A14 研发进度完全符合规划，内部测试芯片器件性能达到目标值近 90%，256 兆位静态随机存储器（SRAM）良率接近 90%。智能手机、HPC/AI 赛道客户均展现出极高合作意愿，持续深度对接技术方案。目前，客户流片（tape-out）进度超前原定计划，预计2027年启动试产，2028年正式大规模量产。与台积电的2纳米（N2）工艺相比，A14工艺在相同功耗下可实现10%至15%的性能提升，或在相同性能水平下降低25%至30%的功耗。芯片密度也提高了20%。此外，台积电正开发A13和A12工艺，这两种工艺是在A14工艺的基础上提供更高性能的。这两种工艺的量产目标日期均为2029年。

⊙前天 07-17 11:38

海光信息发布2026年半年度业绩预告公告。预计2026年上半年实现营业收入85亿元至93亿元，同比增长55.56%至70.20%；预计实现归属于母公司所有者的净利润17亿元至18.3亿元，同比增长41.50%至52.32%；预计扣除非经常性损益后的净利润为15.1亿元至17亿元，同比增长38.53%至55.96%。若扣除股份支付的影响，半年预计实现归属于母公司所有者的净利润为21.7亿元至23亿元，同比增长74.27%至84.71%。

从单季度表现来看，结合第一季度营收40.34亿元、净利润6.87亿元的既定数据推算，其第二季度预计实现营业收入44.66亿元至52.66亿元，环比增长10.7%至30.5%；预计实现归母净利润10.13亿元至11.43亿元，环比大幅增长47.5%至66.4%。

⊙前天 07-17 10:09

7月17日，A股四大指数集体低开，沪指跌0.44%，深证成指跌0.97%，创业板指跌1.36%，科创综指跌0.7%；日经225指数早盘开盘跌幅0.74%。个股方面，存储概念股多数走低，截至发稿，大普微涨超2%，香农芯创跌超7%，江波龙、佰维跌超6%，兆易跌超5%，联芸跌超1%，德明利连续三日跌停；铠侠跌超12%。韩国股市因制宪日今天休市。

⊙前天 07-17 09:57

澜起科技发布2026年半年度业绩预增公告。经初步测算，2026年半年度，公司实现营业收入约33.35亿元，较上年同期增长约26.6%；归属于上市公司股东的净利润19.00亿元~21.00亿元，较上年同期增长63.9%~81.2%；归属于上市公司股东的扣除非经常性损益的净利润12.50亿元~14.50亿元，较上年同期增长14.5%~32.9%；剔除股份支付费用影响后的归属于上市公司股东的净利润20.80亿元~22.80亿元，较上年同期增长56.1%~71.1%。澜起科技预计经营业绩实现大幅增长，主要是受益于公司DDR5 RCD芯片出货量显著增加和互连类芯片新产品MRCD/MDB、PCIe Retimer、CKD及CXLMXC芯片收入显著攀升。

⊙前天 07-17 09:32

美光宣布，已与高通、伟世通（Visteon）、哈曼（HARMAN）、均联智行（JOYNEXT）、电装（DENSO）、安斯泰莫（Astemo）和现代摩比斯（Hyundai Mobis）等支撑汽车生态系统的关键技术供应商签订了战略客户协议 (SCA)。据悉，这些协议属于美光在2026财年第三季度财务电话会议上提到的SCA。通过提高供应和定价的确定性，相关协议将支持对未来汽车平台所需的技术开发、认证和制造能力的投资，有助于确保先进的汽车平台拥有提供更丰富、更安全、更智能体验所需的内存和存储能力。

⊙前天 07-17 09:16

当地时间7月16日，美股三大股指全线收跌。截至收盘，道琼斯工业指数跌幅0.20%，报52552.97点；标普500指数跌幅0.51%，报7533.77点；纳斯达克综合指数跌幅1.47%，报25881.95点。其中，大型科技股多数收跌，AMD跌超5%，高通、谷歌A、谷歌C均跌超4%，英伟达跌超2%，亚马逊跌超1%，苹果、微软涨超1%；存储板块普遍收跌，SK海力士跌超13%，闪迪跌超12%，希捷跌10%，西部数据跌超9%，美光跌超5%。

⊙07-16 18:12

据业界消息，为了进一步整合集团资源，实现全球产品战略的协同，未来realme新品将聚焦海外市场，在中国市场暂停产品更新；一加在中国市场的产品更新保持不变。realme和一加将持续在游戏和性能领域为用户提供优质的体验。

⊙07-16 17:50

据外媒报道，苹果公司寻求收购人工智能服务器芯片公司，以增强其在为人工智能服务提供支持的服务器半导体领域的竞争力。报道称，苹果最近已与多家半导体初创公司接触，商讨收购事宜，并与投资银行探讨了潜在的交易方案。

⊙07-16 17:31

印度政府7月15日批准了全新的「Semicon 2.0」半导体计划，并投入超过12,750 亿卢比（约合133 亿美元）的庞大资金，旨在加速本土芯片制造并降低对进口的依赖，将印度打造为全球半导体产业重镇。

⊙07-16 17:27

台积电董事长暨总裁魏哲家表示，CoWoS已经是一项成熟的技术，为降低成本，台积电正在开发其他先进封装选择方案，大概需要再1年左右时间才会成熟，之后再进入量产阶段。

⊙07-16 17:23

日本政府与产业界共同推动的新成立企业Noetra Corp.计划从英伟达（NVIDIA）采购27,500枚下一代Rubin架构AI芯片，用于构建日本本土的机器人基础人工智能模型。日本政府设定目标，到2040年在18个行业部署约1000万台AI机器人，占据全球约60万亿日元机器人市场30%以上的份额。

⊙07-16 16:58

华为公司高级副总裁、引望公司CEO靳玉志表示，自动驾驶发展将迎来快速迭代、有序发展——L3部分城市试点后，预计2026年开启城区低速L4试点；预计2027年L3实现规模商用，L4 2B（Robotaxi部分城市试点）与L4 2C（低速L4部分城市商用）同年开启；2028年，Robotaxi或迎来部分城市商用，城区L4低速规模商用、城区L4全速部分城市试点及无人干线物流试点等同年开启。