
光子技术加速数据中心AI发展
光子技术(Photonics)在数据中心AI加速中扮演着日益重要的角色。
光学组件的全球市场规模已相当可观,去年收入达170亿美元。历史上,电信领域(如海底光缆和光纤到户)主导了需求。然而,如今数据通信领域,尤其是AI驱动的数据中心,已占据市场超60%的份额。这一转变正在加速光学技术的增长。
为匹配AI计算集群(包括GPU和定制加速器在内的xPU)不断提升的性能,光学传输速率正迅速提高。
图1:光学组件市场历史与预测。来源:OMDIA/OFC
据J.P. Morgan数据,最大的光学组件供应商为Coherent和Innolight(各占20%市场份额),其次是Broadcom,占10%。众多中小供应商也在为这一扩展生态系统贡献力量。
由LLM驱动的AI数据中心增长
LLM正推动AI工作负载呈指数级增长。随着AI能力提升和成本降低,需求激增。LLM规模的扩大需要庞大的xPU集群。互连需求增长速度超过xPU数量本身,迫切需要高带宽、低延迟的网络解决方案。
Broadcom首席执行官Hock Tan指出,数据中心网络成本正不断攀升,从目前的资本支出的5%-10%预计到2030年将升至15%-20%。
图2:AI集群规模激增。来源:Dell'Oro Group/OFC
例如,Oracle云基础设施(OCI)部署了包含131,000个Nvidia Blackwell GPU的集群,通过NVLink72实现互连。
图3:Oracle云基础设施面向生成式AI的超大规模集群产品。来源:Oracle/OFC
Scale-Out与Scale-Up网络
在AI数据中心,互连主要分为两种类型:
- Scale-Out:光学链路连接机架和行之间的交换机。
- Scale-Up:电信号链路连接少量机架内及机架间的GPU。
图4:数据中心中的光学技术。来源:Coherent/OFC
虽然Scale-Out网络已采用光学技术,但Scale-Up网络向光子技术的过渡正在进行,尚未完全实现。
Scale-Out网络的光学进展
光子技术在Scale-Out架构中占据核心地位。目前,可插拔光学收发器支持网卡(NIC)与交换机之间数十米的数据传输。随着数据速率的提升,这些解决方案在功耗和性能方面面临越来越大的限制。
Oracle的131000 GPU网络在其Scale-Out网络的三个层级均使用光学链路。然而,传统可插拔光学器件功耗较高。
图5:Oracle光学集群网络架构。来源:Oracle/OFC
图6:功耗与TCO仍是主要关注点。来源:Meta/OFC
随着Scale-Out网络数据速率的增加,以满足LLM增长和吞吐量需求,网络功耗已超过加速器机架的功耗。据Nvidia数据,将可插拔光学器件转为共封装光学(Co-Packaged Optics, CPO),可将1.6Tbps链路的光学功耗从30W大幅降至9W。
在GTC25大会上,Nvidia推出了首款采用CPO的Scale-Out交换机。功耗的节省使GPU密度提升高达3倍,在相同数据中心功耗范围内支持更多GPU。
图7:采用Spectrum-X光子技术实现3.5倍功耗节省。来源:Nvidia/GTC25
可靠性是从铜缆到光学再到CPO过渡中的关键考量。AI数据中心的组件规模庞大且增长迅速,类似iPhone的生产节奏。产量和可靠性必须从一开始就极高。谷歌平台光学总监表示,每日0.004%的链路故障率看似不错,但在100万个链路中,这意味着每天40次链路故障。光学解决方案需设计为极低故障率,需在高要求水平下进行测试,并以极大规模样本验证,以确保生产扩容成功。
Scale-Up网络向CPO的路径
目前,Scale-Up互连仍以铜缆为主。Nvidia的Blackwell架构采用全铜解决方案NVLink72,板卡、交换机和机架背板上可见大量布线。信号频率现已极高,铜缆束直接连接至GPU,绕过传统PCB走线。
图8:Nvidia的路线图延伸至NVLink576,仍使用铜缆,但不断提高的数据速率和信号完整性问题最终将需要光学解决方案。来源:Nvidia/GTC
然而,铜缆的局限性日益明显。Nvidia的路线图延伸至NVLink576,仍使用铜缆,但不断提高的数据速率和信号完整性问题最终将需要光学解决方案。
微软提出了其未来AI加速器对CPO的要求,希望用单一物理层和可配置接口取代现有接口。
图9:新型互连场景需要统一的接口,具备更严格的延迟和可靠性要求。来源:Microsoft/OFC
这一新统一接口需兼具“两全其美”——综合规格优于其替代的传统接口。这对CPO提出了更高挑战,但也扩大了市场。
图10:新型统一接口需优于其替代的传统接口。来源:Microsoft/OFC
Nvidia也提出了其AI加速器对CPO集成的要求:
图11:Nvidia的CPO要求。来源:Nvidia/OFC
这些要求具有挑战性但可实现。Needham & Company建议,Scale-Up网络向CPO的初步转变将在单一GPU域内的机架间互连中发生,而机架内连接暂时仍以铜缆为主。
100%的AI数据中心芯片由台积电(TSMC)制造。台积电深度参与所有主要AI玩家的技术路线图,仅开发其主要客户所需的技术。在4月底的年度技术大会上,台积电展示了其AI芯片路线图,包括共封装光学,表明其已为此做好准备。
市场展望与行业参与者
预计Scale-Up网络向CPO的过渡将在未来几年内开始,并在2030年代广泛取代可插拔光学器件。CPO市场将从目前的零增长至2030年的50亿美元。早期进入者如Broadcom、Marvell、Ayar Labs、Celestial AI和Lightmatter,以及激光供应商如Coherent,将从中受益。
图12:光学技术快速增长,CPO预计于2027-2030年兴起。来源:LightCounting/Coherent
光子技术不再仅是AI的使能者,而是其大规模增长不可或缺的基石。到2030年代中期,所有互连都将是光学的,且全部采用CPO。
参考资料:Tate, G. (2025, May 1). Photonics speeds up data center AI. Semiconductor Engineering. Retrieved from https://semiengineering.com/photonics-speeds-up-data-center-ai/
本文转载自Andy730,作者:常华
