英伟达在一篇技术博客中表示,其全栈推理软件与NVIDIA GPU、CPU、网络和系统协同设计,并依托广泛的开源生态系统,持续提升硬件性能。在NVIDIA Blackwell平台上,该软件栈仅一个月就将 DeepSeek V4 型号的token成本降低了高达 5 倍。据介绍,英伟达软件栈主要通过连接生产运营、应用加速和基础架构访问三个层面来降低单 Token成本。当这些层级协同构成一套完整系统时,各项独立优化效果会叠加放大。多项技术叠加优化后,Blackwell平台单GPU的token吞吐量最高可提升20倍。