Enfabrica发布EMFASYS:优化大规模AI推理的弹性内存架构

发布于 2025-8-6 06:55
浏览
0收藏

Enfabrica,一家专注于高性能网络芯片的公司,推出了其弹性内存网络系统(Elastic Memory Fabric System,EMFASYS)。该系统通过整合其3.2Tbps ACF-S SuperNIC与基于CXL的DDR5内存,为AI集群提供灵活的高性能内存池,有望改变数据中心管理生成式AI内存的方式。

AI推理中的内存瓶颈

生成式AI是迄今为止最复杂的应用之一,其依赖复杂的计算处理海量数据集。大型语言模型(LLM)将信息分解为Token,通过神经网络传递以生成参数——这些参数定义了模型的“思考”能力。更多的Token和参数带来更强的能力,但也需要巨大的内存资源,每天在AI云服务中处理数十亿批次推理调用。

在推理过程中,注意力机制(Attention Mechanism)跟踪查询的关键元素(Key)和上下文的要点(Value)以生成响应。随着上下文窗口的扩大——一些模型现可处理数百万Token——存储这些Key和Value向量的KV缓存(KV Cache)所需内存迅速超过GPU或其他加速器上高带宽内存(HBM)的容量。HBM虽然速度快,但成本高昂且容量有限,常常迫使系统通过扩展计算资源来增加内存,这是一种低效且成本高昂的方法。此外,模型权重和激活内存也需占用HBM空间,进一步加剧瓶颈。

EMFASYS通过提供以主机内存速度运行的共享内存池,解决了这一问题,适用于存储KV缓存和嵌入(Embeddings),使推理更快、更具成本效益。这与行业使用CXL协议聚合同类TB级DDR内存作为HBM快速缓存的趋势一致,这种“内存百宝箱(Memory Godbox)”的概念在AI工作负载中正获得关注。

EMFASYS简介

EMFASYS是一个机架兼容系统,由Enfabrica的ACF-S SuperNIC驱动,该芯片通过多端口800Gbps以太网提供3.2Tbps(400GB/s)的吞吐量。它通过Compute Express Link(CXL)协议连接高达18TB的DDR5内存,支持最多144条CXL通道。与需要CPU、多个NIC(如NVIDIA ConnectX或Broadcom)以及PCIe/CXL交换机的传统架构不同,EMFASYS将这些功能整合到单一设备中。SuperNIC的一侧处理通过400G或800G以太网端口的RDMA网络,另一侧作为PCIe交换机,通过将内存呈现为RDMA目标,简化AI应用的数据移动。

Enfabrica发布EMFASYS:优化大规模AI推理的弹性内存架构-AI.x社区

GPU服务器与EMFASYS内存池之间的数据传输通过基于以太网的RDMA实现,利用CXL.mem协议支持零拷贝、低延迟(微秒级)的内存访问,无需CPU干预。Enfabrica提供的内存分层软件基于广泛采用的Infiniband Verbs,运行于现有硬件和操作系统环境,管理传输延迟,确保无缝部署,无需重大架构变更。该软件通过缓存层次结构(Caching Hierarchy)隐藏推理流水线中的延迟,保持高性能,适用于苛刻的工作负载。

EMFASYS针对具有长提示、大上下文窗口或多AI代理的AI用例,这些用例对GPU附带的HBM造成显著压力。通过聚合同类DDR5内存,EMFASYS支持数据中心独立于计算资源扩展内存,提高资源利用率并降低成本。Enfabrica估计,该系统在高周转率和长上下文场景中可将每个AI生成Token的成本降低高达50%,同时通过更均匀的服务器任务分配消除瓶颈。

ACF-S SuperNIC内部解析

ACF-S SuperNIC,代号“Millennium”,是一款融合以太网和PCIe/CXL交换的芯片。其设计通过消除机架顶部以太网交换机、网络接口卡和PCIe交换机的需求,降低计算架的复杂性。该芯片支持在4路或8路GPU服务器集群或超过18个CXL DDR内存通道上实现高吞吐量、零拷贝的数据放置,适用于多种配置。其跨多通道和端口的条带化(Striping)交易能力最大化带宽,克服了此前认为不适合AI的单端口CXL连接的限制。

Enfabrica发布EMFASYS:优化大规模AI推理的弹性内存架构-AI.x社区

Enfabrica发布EMFASYS:优化大规模AI推理的弹性内存架构-AI.x社区

Enfabrica发布EMFASYS:优化大规模AI推理的弹性内存架构-AI.x社区

与现有GPU附带NIC相比,ACF-S提供四倍的I/O带宽、基数(Radix)和多路径韧性(Multipath Resiliency),是EMFASYS的坚实基础。其可编程性支持超大规模(Hyperscale)环境定制,提升对大型数据中心的吸引力。芯片的内存移动引擎进一步优化数据传输,确保高效处理大规模并行内存操作。

EMFASYS架构与优势

Enfabrica发布EMFASYS:优化大规模AI推理的弹性内存架构-AI.x社区

EMFASYS系统在中心机架部署内存服务器,每个机架包含8台服务器。每台服务器搭载9个SuperNIC,每个SuperNIC提供两个CXL内存DIMM,使用1TB DIMM实现18TB DDR5容量。8台服务器共提供144TB内存,可供周围四个GPU服务器机架访问。每个GPU机架使用EMFASYS发起器(Initiator),通过PCIe MCIO链接连接到服务器,并通过800Gbps以太网和RDMA over Converged Ethernet(RoCE)实现与内存池的低延迟访问。

即使使用较小的256GB DIMM,单台服务器可提供4.5TB,整个机架可达36TB,相当于192个Nvidia Blackwell B200 GPU的内存(每个192GB,估价约4万美元)。集中内存避免仅为容量而低效使用昂贵GPU。在Nvidia的GB200 NVL72系统中,每个B200 GPU共享Grace CPU上的LPDDR5内存,需144个Grace CPU才能达到36TB,且分散为288块。相比之下,EMFASYS作为统一内存集群,跨节点条带化数据以高效读写。

Enfabrica首席执行官Rochan Sankar解释道:“我们构建了一个拥有大量内存的云存储目标,跨所有内存通道条带化交易。人们认为CXL不适合AI,因为他们只关注单端口带宽。但通过宽内存控制器,你可以按需条带化数据,使用所有端口分解写入。这让你能充分利用多链接带宽,实现高吞吐量,例如100GB文件传输时间很短,具体取决于使用的线缆和通道数量。”

EMFASYS目前支持18个并行内存通道,计划明年扩展至28个,可能通过增加SuperNIC或升级芯片实现。系统通过PCIe与任何GPU或XPU主机集成,表现为扩展内存,类似Nvidia的Grace CPU在Grace-Hopper或Grace-Blackwell配置中的功能。相比基于闪存的推理存储,EMFASYS提供100倍低延迟和无限写/擦除周期,非常适合内存密集型AI任务。

测试显示,将EMFASYS添加到Nvidia GB200 NVL72机架可将每Token成本减半,表明GPU利用率显著提高。这表明内存限制目前严重制约GPU吞吐量,EMFASYS的加入尽管成本不菲,但通过优化计算效率可带来显著节省。通过将HBM卸载到同类DRAM,EMFASYS减少了随推理需求线性扩展GPU或CPU DRAM的需要,缓解成本压力。

Enfabrica的愿景与行业背景

Enfabrica由Rochan Sankar(首席执行官,曾任Broadcom五代数据中心交换ASIC产品营销与管理总监)和Shrijeet Mukherjee(首席开发官,曾任Cisco融合系统工程总监及Cumulus Networks软件工程副总裁)于2020年创立。2021年,公司从隐形模式(Stealth Mode)中走出,致力于解决分布式系统中“百亿美元I/O问题”。2023年,其加速计算结构(Accelerated Compute Fabric)的发布为汇聚机架内互连奠定了基础,支持低延迟内存和I/O池。

Enfabrica是超以太网联盟(Ultra Ethernet Consortium,UEC)的顾问成员,并为超加速器链接(Ultra Accelerator Link,UALink)联盟贡献力量,致力于推动AI基础设施标准发展。公司近期在印度开设了研发中心以扩展工程团队,并于2025年4月开始采样ACF-S芯片,此前于去年末宣布其普遍可用性。目前,EMFASYS和ACF-S SuperNIC正由部分客户进行试点测试,尚未公布更广泛的可用性时间表。

意义何在

随着推理工作负载需要更大的上下文、多AI代理和推理驱动查询,内存限制成为AI的重大挑战,某些查询的计算需求比早期LLM高出10至100倍。EMFASYS通过提供可扩展、低延迟的内存池,为GPU和XPU系统提供补充。通过减少对成本高昂的HBM依赖并提高计算资源效率,EMFASYS有望降低成本并处理日益复杂的AI任务。其通过标准以太网端口和RDMA与现有基础设施的集成使其成为数据中心的灵活选择。

正如Sankar所言:“AI推理面临内存带宽和利润叠加的挑战。随着推理变得更具代理性(Agentic)和记忆性(Retentive),传统内存扩展方式将难以为继。EMFASYS创建了一个弹性的机架级AI内存网络,以全新方式应对这些挑战。”在Nvidia支持和AI基础设施演进的背景下,EMFASYS有望在测试进展中显著提升大规模AI部署的效率和经济性。

参考资料:Arts, S. (2025, July 29). Enfabrica unveils industry's first Ethernet-based AI memory fabric system for efficient superscaling of LLM inference. Enfabrica Blog. https://blog.enfabrica.net/enfabrica-unveils-industrys-first-ethernet-based-ai-memory-fabric-system-for-efficient-8078bd89fdcb

本文转载自​​Andy730​​,作者:常华​

收藏
回复
举报
回复
相关推荐