英伟达GB200网络体系探讨:光与铜在AI云中的重要性孰重?

导语:英伟达最新发布的GB200系列算网系统引起了市场的热议,其中涉及到光与铜连接的选择。在这篇文章中,我们将探讨GB200系统对光通信的重要性,以及其在AI云中的应用场景。从大集群到中小客户,我们分析了不同客户的需求,引发了市场对光与铜连接的讨论。通过深入研究GB200的设计目标和市场理解,我们可以更好地理解光与铜在AI云中的重要性,以及其未来的发展趋势。

 

0)英伟达3.18发布最新的GB200系列算网系统(架构参考今早的示意图),算力性能显著提升,其中同时应用了铜连接、光连接的方案,市场对“光”与“铜”的延伸路径讨论较多。

1)现状:GB200(包括此前GH200)系列是NV定义的“superchip”系统,与传统服务器相比,系统颗粒度大,机柜内36或72个GPU的连接以电信号为主,对外则同时应用了NVLink和InfiniBand两套网络。
铜与光的选择,本质是平衡距离和速率的选择。

2)是否GB200降低了光通信的重要性?我们推测:
参照GH200,GB200NVL72系统的目标场景,更多针对【大集群/云/平台型客户】,即英伟达定义的“AI Cloud/AI Factory“,预计存在形式是【多机柜集群】,这种跨机柜≥800G的网络,电损巨大,光通信是刚需;
而从液冷/供电/运维等角度看,中小客户仅采用单套GB200系统的可行性有待商榷,或许传统服务器或上云是更好选择。(亦是NV差异化策略)

3)训推角度看,GB200的设计目标是:单机柜就能应对AI推理,利于云的虚拟化布局。
GB200系统最小单元为机柜,且推理性能大幅提升,能够更好地应对巨量参数、跨模态、海量token、多并发的推理场景,避免大量单GPU分布式。云IDC的场景中能更好应对未来海量推理需求(参考AWS、MSFT的评价)。

4)市场理解的铜连接增加,原因在于:
此前H100系列的集群,没有机柜内互联,而是单独配置一套网络机柜,加之芯片速率较高,因而几乎没有短距铜线;
而GB200系列,尽管机柜内铜线不少,但大集群中NVLink域的光互联+IB扩容的光互联需求非常庞大,加之未来硅光、chip to chip光I/O等路径,已经十分明确!

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容