数据中心资源浪费难题:服务器与内存寿命错配
服务器预期使用寿命为3-5年,但内存的使用寿命可达7-10年,大量状态完好的内存随旧设备退役而被闲置。据悉,Meta无法为其庞大的服务器群中约40%的服务器增加内存容量,这意味着数百万台服务器无法处理部分工作负载。
Vistara核心思路:新旧内存混用,搭建全局共享内存池
现成的 CXL 硬件无法实现这一点,因此 Meta 自行开发了一套称为Vistara的解决方案。
Vistara 技术的核心是盘活老旧硬件资源,通过内存池化架构打破单服务器的内存容量限制,同时依托自研芯片解决传统CXL方案的性能缺陷,实现在单台机器中混用不同类型的内存。
具体来看,Vistara是一款定制的ASIC芯片,它通过符合 CXL 2.0/1.1 标准的 PCIe Gen5 x16 接口将DDR4内存连接到新的处理器。Meta公司从旧服务器中取出DDR4内存条,并将它们安装到名为MemServer的专用单元中,每个MemServer单元都包含768GB的DDR5内存和256GB的回收DDR4内存,并通过Vistara ASIC连接。操作系统会将DDR4内存视为一个额外的内存节点,并在主DDR5内存不足时从中调用。
Vistara 的软件层面则将DDR4内存视为“一个独立的、无CPU的NUMA节点,与直接连接到处理器的本地DRAM节点分离”,并将其呈现给操作系统。Meta的平台首先使用所有可用的本地DDR4内存,然后在需要时使用支持CXL的内存。
此外,现有的接口将内存与控制器捆绑在一起,这使得重复使用旧的内存条变得不可能。但Vistara将控制器与内存完全分离,因此Meta可以插入任何现有的DDR4内存条。
落地成效显著:大幅降低业务故障,降本增效双突破
据悉,Meta已将这种技术应用于“拥有数百万台服务器的超大规模基础设施,涵盖各种生产工作负载,包括分解式机器学习推理(在推荐系统中嵌入表格)、大数据处理、数据库、分布式缓存和 CI/CD 构建系统”。
Meta称,在采用该方案后,因内存不足导致的任务中断减少33%;该方案亦能降低基础设施成本,例如在分布式推理场景中,服务器需求最多可下降25%。相关报道还指出,在内存价格上涨的背景下,该方案也有助于降低成本。

