光子技术加速数据中心AI发展

发布于 2025-5-8 00:58
浏览
0收藏

光子技术(Photonics)在数据中心AI加速中扮演着日益重要的角色。

光学组件的全球市场规模已相当可观,去年收入达170亿美元。历史上,电信领域(如海底光缆和光纤到户)主导了需求。然而,如今数据通信领域,尤其是AI驱动的数据中心,已占据市场超60%的份额。这一转变正在加速光学技术的增长。

为匹配AI计算集群(包括GPU和定制加速器在内的xPU)不断提升的性能,光学传输速率正迅速提高。

光子技术加速数据中心AI发展-AI.x社区

图1:光学组件市场历史与预测。来源:OMDIA/OFC

据J.P. Morgan数据,最大的光学组件供应商为Coherent和Innolight(各占20%市场份额),其次是Broadcom,占10%。众多中小供应商也在为这一扩展生态系统贡献力量。

由LLM驱动的AI数据中心增长

LLM正推动AI工作负载呈指数级增长。随着AI能力提升和成本降低,需求激增。LLM规模的扩大需要庞大的xPU集群。互连需求增长速度超过xPU数量本身,迫切需要高带宽、低延迟的网络解决方案。

Broadcom首席执行官Hock Tan指出,数据中心网络成本正不断攀升,从目前的资本支出的5%-10%预计到2030年将升至15%-20%。

光子技术加速数据中心AI发展-AI.x社区

图2:AI集群规模激增。来源:Dell'Oro Group/OFC

例如,Oracle云基础设施(OCI)部署了包含131,000个Nvidia Blackwell GPU的集群,通过NVLink72实现互连。

光子技术加速数据中心AI发展-AI.x社区

图3:Oracle云基础设施面向生成式AI的超大规模集群产品。来源:Oracle/OFC

Scale-Out与Scale-Up网络

在AI数据中心,互连主要分为两种类型:

  • Scale-Out:光学链路连接机架和行之间的交换机。
  • Scale-Up:电信号链路连接少量机架内及机架间的GPU。

光子技术加速数据中心AI发展-AI.x社区

图4:数据中心中的光学技术。来源:Coherent/OFC

虽然Scale-Out网络已采用光学技术,但Scale-Up网络向光子技术的过渡正在进行,尚未完全实现。

Scale-Out网络的光学进展

光子技术在Scale-Out架构中占据核心地位。目前,可插拔光学收发器支持网卡(NIC)与交换机之间数十米的数据传输。随着数据速率的提升,这些解决方案在功耗和性能方面面临越来越大的限制。

Oracle的131000 GPU网络在其Scale-Out网络的三个层级均使用光学链路。然而,传统可插拔光学器件功耗较高。

光子技术加速数据中心AI发展-AI.x社区

图5:Oracle光学集群网络架构。来源:Oracle/OFC

光子技术加速数据中心AI发展-AI.x社区

图6:功耗与TCO仍是主要关注点。来源:Meta/OFC

随着Scale-Out网络数据速率的增加,以满足LLM增长和吞吐量需求,网络功耗已超过加速器机架的功耗。据Nvidia数据,将可插拔光学器件转为共封装光学(Co-Packaged Optics, CPO),可将1.6Tbps链路的光学功耗从30W大幅降至9W。

在GTC25大会上,Nvidia推出了首款采用CPO的Scale-Out交换机。功耗的节省使GPU密度提升高达3倍,在相同数据中心功耗范围内支持更多GPU。

光子技术加速数据中心AI发展-AI.x社区

图7:采用Spectrum-X光子技术实现3.5倍功耗节省。来源:Nvidia/GTC25

可靠性是从铜缆到光学再到CPO过渡中的关键考量。AI数据中心的组件规模庞大且增长迅速,类似iPhone的生产节奏。产量和可靠性必须从一开始就极高。谷歌平台光学总监表示,每日0.004%的链路故障率看似不错,但在100万个链路中,这意味着每天40次链路故障。光学解决方案需设计为极低故障率,需在高要求水平下进行测试,并以极大规模样本验证,以确保生产扩容成功。

Scale-Up网络向CPO的路径

目前,Scale-Up互连仍以铜缆为主。Nvidia的Blackwell架构采用全铜解决方案NVLink72,板卡、交换机和机架背板上可见大量布线。信号频率现已极高,铜缆束直接连接至GPU,绕过传统PCB走线。

光子技术加速数据中心AI发展-AI.x社区

光子技术加速数据中心AI发展-AI.x社区

图8:Nvidia的路线图延伸至NVLink576,仍使用铜缆,但不断提高的数据速率和信号完整性问题最终将需要光学解决方案。来源:Nvidia/GTC

然而,铜缆的局限性日益明显。Nvidia的路线图延伸至NVLink576,仍使用铜缆,但不断提高的数据速率和信号完整性问题最终将需要光学解决方案。

微软提出了其未来AI加速器对CPO的要求,希望用单一物理层和可配置接口取代现有接口。

光子技术加速数据中心AI发展-AI.x社区

图9:新型互连场景需要统一的接口,具备更严格的延迟和可靠性要求。来源:Microsoft/OFC

这一新统一接口需兼具“两全其美”——综合规格优于其替代的传统接口。这对CPO提出了更高挑战,但也扩大了市场。

光子技术加速数据中心AI发展-AI.x社区

图10:新型统一接口需优于其替代的传统接口。来源:Microsoft/OFC

Nvidia也提出了其AI加速器对CPO集成的要求:

光子技术加速数据中心AI发展-AI.x社区

图11:Nvidia的CPO要求。来源:Nvidia/OFC

这些要求具有挑战性但可实现。Needham & Company建议,Scale-Up网络向CPO的初步转变将在单一GPU域内的机架间互连中发生,而机架内连接暂时仍以铜缆为主。

100%的AI数据中心芯片由台积电(TSMC)制造。台积电深度参与所有主要AI玩家的技术路线图,仅开发其主要客户所需的技术。在4月底的年度技术大会上,台积电展示了其AI芯片路线图,包括共封装光学,表明其已为此做好准备。

市场展望与行业参与者

预计Scale-Up网络向CPO的过渡将在未来几年内开始,并在2030年代广泛取代可插拔光学器件。CPO市场将从目前的零增长至2030年的50亿美元。早期进入者如Broadcom、Marvell、Ayar Labs、Celestial AI和Lightmatter,以及激光供应商如Coherent,将从中受益。

光子技术加速数据中心AI发展-AI.x社区

图12:光学技术快速增长,CPO预计于2027-2030年兴起。来源:LightCounting/Coherent

光子技术不再仅是AI的使能者,而是其大规模增长不可或缺的基石。到2030年代中期,所有互连都将是光学的,且全部采用CPO。

参考资料:Tate, G. (2025, May 1). Photonics speeds up data center AI. Semiconductor Engineering. Retrieved from https://semiengineering.com/photonics-speeds-up-data-center-ai/

本文转载自​​Andy730​​,作者:常华​

已于2025-5-8 10:15:56修改
收藏
回复
举报
回复
相关推荐