探索CXL 3.X交换机在AI应用中的用例

发布于 2025-10-11 06:39

浏览

0收藏

CXL 3.X技术正从理论讨论转向实际部署，业界对其必要性和潜力的关注日益增加。它特别适合作为构建大规模实用计算系统的标准，因为它通过内存共享实现更高效的资源利用，并通过支持多级交换和基于端口路由（Port-Based Routing，PBR）的互连架构来提升可扩展性和灵活性。

探索CXL 3.X交换机在AI应用中的用例-AI.x社区

为了探索CXL 3.x技术的实际应用领域，CXL成员公司Panmnesia的团队在我们的CXL 3.x全系统框架上运行了各种工作负载。如上图所示，Panmnesia的CXL 3.x全系统框架包括CXL-GPU、CXL内存扩展器和CXL-CPU，这些组件均是使用我们CXL 3.x IP在内部开发，并通过我们的CXL 3.x交换机SoC进行互连。

**此框架是2022年USENIX年度技术会议上展示的CXL 2.0全系统框架的升级版本[1]。

通过我们的探索，我们确定CXL 3.x技术特别适合以下两个领域：AI基础设施和高性能计算（HPC）。在接下来的部分，我们将介绍为什么这些领域与CXL技术的特性高度契合，以及我们如何使用CXL 3.x框架加速每个领域的代表性应用。

<应用领域#1：AI基础设施>

各种AI应用，例如大型语言模型（Large Language Models，LLM）和推荐系统，已深入融入日常生活。随着其影响力的持续增长，各大公司正试图提升AI模型的性能。提升性能最常见的方法包括：增加训练数据量以使模型从更多样化的示例中学习，以及增加模型参数数量以分析更复杂的关系。随着这些努力的持续，模型和数据集的大小迅速增长。因此，许多应用现在需要数TB甚至数十TB的内存[2, 3]，这轻易超过了单个GPU的内存容量（最新GPU通常为100-200GB[4]）。

探索CXL 3.X交换机在AI应用中的用例-AI.x社区

传统上，为了弥补内存容量不足，通常会分配更多GPU或配备GPU的服务器节点，并通过网络互连来运行大规模AI应用。然而，考虑到每个AI应用对计算和内存资源的需求不同，传统方法以固定的计算与内存比率分配资源，往往导致资源利用率低下和浪费。鉴于主要IT公司运营的单个数据中心通常容纳超过10,000个GPU，总基础设施成本达到数亿美元甚至更多[5, 6]，提高资源利用率已成为一项必需。

为了应对这一挑战，我们提出了几种基于CXL的解决方案。如图所示，我们的方法是根据计算需求放置GPU或其他AI加速器，并通过添加高密度内存设备（即CXL内存扩展器）或内存节点来解决内存不足问题。与传统方法（即仅为了确保足够内存容量而添加更多GPU或配备GPU的服务器）相比，这种方法能最小化资源浪费。换言之，可显著降低构建和运营成本。在接下来的部分，我们将介绍两个基于上述方法的代表性CXL系统，以提升AI基础设施中的资源效率。

探索CXL 3.X交换机在AI应用中的用例-AI.x社区

第一个系统在GPU/AI加速器本身中集成了CXL根复杂。通过将CXL内存扩展器或CXL-SSD连接到此根复杂，GPU系统的内存容量得以增加。对于主机（将GPU作为端点设备访问），它看起来就好像只是GPU的内存增长了。

请注意，Panmnesia的CXL IP嵌入在每个设备的CXL控制器中，能够以硬件自动化的方式处理诸如缓存一致性管理等操作。因此，相比先前的方法，例如统一虚拟内存（Unified Virtual Memory，UVM[7]）（其中主机软件管理GPU对外部内存空间的访问），可以实现更高的性能。

探索CXL 3.X交换机在AI应用中的用例-AI.x社区

事实上，当我们基于CXL IP构建原型并评估其性能时，我们证实其性能超过了UVM性能的3倍。有关此系统的更多细节，可在Panmnesia的最新博客中找到：https://panmnesia.com/technology/blog/2024-06-25-cxl-gpu-techblog/。

探索CXL 3.X交换机在AI应用中的用例-AI.x社区

第二个系统将GPU/AI加速器用作Type 2设备。我们在去年的OCP全球峰会上发布了此系统，即CXL使能的AI集群。该框架由GPU节点和内存节点组成，通过Panmnesia的CXL 3.x交换机互连。它支持用户根据资源需求，从每个节点（池）中仅分配所需的计算（GPU/AI加速器）和内存资源，从而最小化不必要的资源浪费。

探索CXL 3.X交换机在AI应用中的用例-AI.x社区

为了验证此框架的实用性，我们运行并评估了检索增强生成（Retrieval-Augmented Generation，RAG）应用的性能，该应用如今在主要AI聊天机器人中广为常用。简而言之，RAG通过从向量数据库中检索与用户查询相关的文档，并将其用作LLM的附加输入，来提升LLM推理的准确性。鉴于向量数据库的大小可能达到数十TB，许多先前研究提出将它们存储在SSD等存储设备上[8, 9]。在我们的方法中，我们将向量数据库存储在利用CXL技术构建的大型内存池中，并且在GPU池上运行LLM。

探索CXL 3.X交换机在AI应用中的用例-AI.x社区

我们的测试显示，基于CXL的系统消除了基于SSD的系统中通常由慢速存储访问引起的高延迟，并最小化了其通信开销，因为我们的CXL IP实现了超过六倍的性能提升。

这仅是我们努力的一部分。除了上述工作外，我们还将继续通过Panmnesia的核心产品（CXL交换机SoC和CXL IP）驱动的各种现实用例，来展示CXL的实用性。

参考文献：

[1] Donghyun Gouk, Sangwon Lee, Miryeong Kwon, and Myoungsoo Jung. Direct Access, High-Performance Memory Disaggregation with DirectCXL. 2022 USENIX Annual Technical Conference (USENIX ATC 22).

[2] Harsha Simhadri. Research talk: Approximate nearest neighbor search systems at scale. https://youtu.be/BnYNdSIKibQ?si=WoSWfJTVLEd2Rk62

[3] Cong Fu, Chao Xiang, Changxu Wang, and Deng Cai. Fast approximate nearest neighbor search with the navigating spreading-out graph. Proceedings of the VLDB Endowment, 2019.

[4] NVIDIA. NVIDIA H200 Tensor Core GPU. https://www.nvidia.com/en-us/data-center/h200/

[5] Business Insider. Elon Musk quietly built a 2nd mega-data center for xAI in Atlanta with $700 million worth of chips and cables. https://www.businessinsider.com/xai-elon-musk-x-new-atlanta-data-center-2025-2

[6] The Globe and Mail. OpenAI’ First Stargate Site at Texas to Host 400K Nvidia (NVDA) AI Chips. https://www.theglobeandmail.com/investing/markets/stocks/MSFT/pressreleases/31469159/openai-first-stargate-site-at-texas-to-host-400k-nvidia-nvda-ai-chips/

[7] NVIDIA. Unified Memory for CUDA Beginners. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/

[8] Suhas Jayaram Subramanya, Fnu Devvrit, Harsha Vardhan Simhadri, Ravishankar Krishnawamy, and Rohan Kadekodi. Diskann: Fast accurate billion-point nearest neighbor search on a single node. Advances in Neural Information Processing Systems (NeurIPS), 2019.

[9] Siddharth Gollapudi, Neel Karia, Varun Sivashankar, Ravishankar Krishnaswamy, Nikit Begwani, Swapnil Raz, Yiyong Lin, Yin Zhang, Neelam Mahapatro, Premkumar Srinivasan, et al. Filtered-diskann: Graph algorithms for approximate nearest neighbor search with filters. Proceedings of the ACM Web Conference 2023 (WWW 23), 2023

本文转载自Andy730，作者：常华

标签

CXL 3.X

交换机

已于2025-10-11 06:39:42修改

51CTO

51CTO博客

51CTO学堂

探索CXL 3.X交换机在AI应用中的用例

目录