
探索CXL 3.X交换机在AI应用中的用例
CXL 3.X技术正从理论讨论转向实际部署,业界对其必要性和潜力的关注日益增加。它特别适合作为构建大规模实用计算系统的标准,因为它通过内存共享实现更高效的资源利用,并通过支持多级交换和基于端口路由(Port-Based Routing,PBR)的互连架构来提升可扩展性和灵活性。
为了探索CXL 3.x技术的实际应用领域,CXL成员公司Panmnesia的团队在我们的CXL 3.x全系统框架上运行了各种工作负载。如上图所示,Panmnesia的CXL 3.x全系统框架包括CXL-GPU、CXL内存扩展器和CXL-CPU,这些组件均是使用我们CXL 3.x IP在内部开发,并通过我们的CXL 3.x交换机SoC进行互连。
**此框架是2022年USENIX年度技术会议上展示的CXL 2.0全系统框架的升级版本[1]。
通过我们的探索,我们确定CXL 3.x技术特别适合以下两个领域:AI基础设施和高性能计算(HPC)。在接下来的部分,我们将介绍为什么这些领域与CXL技术的特性高度契合,以及我们如何使用CXL 3.x框架加速每个领域的代表性应用。
<应用领域#1:AI基础设施>
各种AI应用,例如大型语言模型(Large Language Models,LLM)和推荐系统,已深入融入日常生活。随着其影响力的持续增长,各大公司正试图提升AI模型的性能。提升性能最常见的方法包括:增加训练数据量以使模型从更多样化的示例中学习,以及增加模型参数数量以分析更复杂的关系。随着这些努力的持续,模型和数据集的大小迅速增长。因此,许多应用现在需要数TB甚至数十TB的内存[2, 3],这轻易超过了单个GPU的内存容量(最新GPU通常为100-200GB[4])。
传统上,为了弥补内存容量不足,通常会分配更多GPU或配备GPU的服务器节点,并通过网络互连来运行大规模AI应用。然而,考虑到每个AI应用对计算和内存资源的需求不同,传统方法以固定的计算与内存比率分配资源,往往导致资源利用率低下和浪费。鉴于主要IT公司运营的单个数据中心通常容纳超过10,000个GPU,总基础设施成本达到数亿美元甚至更多[5, 6],提高资源利用率已成为一项必需。
为了应对这一挑战,我们提出了几种基于CXL的解决方案。如图所示,我们的方法是根据计算需求放置GPU或其他AI加速器,并通过添加高密度内存设备(即CXL内存扩展器)或内存节点来解决内存不足问题。与传统方法(即仅为了确保足够内存容量而添加更多GPU或配备GPU的服务器)相比,这种方法能最小化资源浪费。换言之,可显著降低构建和运营成本。在接下来的部分,我们将介绍两个基于上述方法的代表性CXL系统,以提升AI基础设施中的资源效率。
第一个系统在GPU/AI加速器本身中集成了CXL根复杂。通过将CXL内存扩展器或CXL-SSD连接到此根复杂,GPU系统的内存容量得以增加。对于主机(将GPU作为端点设备访问),它看起来就好像只是GPU的内存增长了。
请注意,Panmnesia的CXL IP嵌入在每个设备的CXL控制器中,能够以硬件自动化的方式处理诸如缓存一致性管理等操作。因此,相比先前的方法,例如统一虚拟内存(Unified Virtual Memory,UVM[7])(其中主机软件管理GPU对外部内存空间的访问),可以实现更高的性能。
事实上,当我们基于CXL IP构建原型并评估其性能时,我们证实其性能超过了UVM性能的3倍。有关此系统的更多细节,可在Panmnesia的最新博客中找到:https://panmnesia.com/technology/blog/2024-06-25-cxl-gpu-techblog/。
第二个系统将GPU/AI加速器用作Type 2设备。我们在去年的OCP全球峰会上发布了此系统,即CXL使能的AI集群。该框架由GPU节点和内存节点组成,通过Panmnesia的CXL 3.x交换机互连。它支持用户根据资源需求,从每个节点(池)中仅分配所需的计算(GPU/AI加速器)和内存资源,从而最小化不必要的资源浪费。
为了验证此框架的实用性,我们运行并评估了检索增强生成(Retrieval-Augmented Generation,RAG)应用的性能,该应用如今在主要AI聊天机器人中广为常用。简而言之,RAG通过从向量数据库中检索与用户查询相关的文档,并将其用作LLM的附加输入,来提升LLM推理的准确性。鉴于向量数据库的大小可能达到数十TB,许多先前研究提出将它们存储在SSD等存储设备上[8, 9]。在我们的方法中,我们将向量数据库存储在利用CXL技术构建的大型内存池中,并且在GPU池上运行LLM。
我们的测试显示,基于CXL的系统消除了基于SSD的系统中通常由慢速存储访问引起的高延迟,并最小化了其通信开销,因为我们的CXL IP实现了超过六倍的性能提升。
这仅是我们努力的一部分。除了上述工作外,我们还将继续通过Panmnesia的核心产品(CXL交换机SoC和CXL IP)驱动的各种现实用例,来展示CXL的实用性。
参考文献:
[1] Donghyun Gouk, Sangwon Lee, Miryeong Kwon, and Myoungsoo Jung. Direct Access, High-Performance Memory Disaggregation with DirectCXL. 2022 USENIX Annual Technical Conference (USENIX ATC 22).
[2] Harsha Simhadri. Research talk: Approximate nearest neighbor search systems at scale. https://youtu.be/BnYNdSIKibQ?si=WoSWfJTVLEd2Rk62
[3] Cong Fu, Chao Xiang, Changxu Wang, and Deng Cai. Fast approximate nearest neighbor search with the navigating spreading-out graph. Proceedings of the VLDB Endowment, 2019.
[4] NVIDIA. NVIDIA H200 Tensor Core GPU. https://www.nvidia.com/en-us/data-center/h200/
[5] Business Insider. Elon Musk quietly built a 2nd mega-data center for xAI in Atlanta with $700 million worth of chips and cables. https://www.businessinsider.com/xai-elon-musk-x-new-atlanta-data-center-2025-2
[6] The Globe and Mail. OpenAI’ First Stargate Site at Texas to Host 400K Nvidia (NVDA) AI Chips. https://www.theglobeandmail.com/investing/markets/stocks/MSFT/pressreleases/31469159/openai-first-stargate-site-at-texas-to-host-400k-nvidia-nvda-ai-chips/
[7] NVIDIA. Unified Memory for CUDA Beginners. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/
[8] Suhas Jayaram Subramanya, Fnu Devvrit, Harsha Vardhan Simhadri, Ravishankar Krishnawamy, and Rohan Kadekodi. Diskann: Fast accurate billion-point nearest neighbor search on a single node. Advances in Neural Information Processing Systems (NeurIPS), 2019.
[9] Siddharth Gollapudi, Neel Karia, Varun Sivashankar, Ravishankar Krishnaswamy, Nikit Begwani, Swapnil Raz, Yiyong Lin, Yin Zhang, Neelam Mahapatro, Premkumar Srinivasan, et al. Filtered-diskann: Graph algorithms for approximate nearest neighbor search with filters. Proceedings of the ACM Web Conference 2023 (WWW 23), 2023
本文转载自Andy730,作者:常华
