英伟达GB200网络体系探讨：光与铜在AI云中的重要性孰重？-玖儿的学习笔记

导语：英伟达最新发布的GB200系列算网系统引起了市场的热议，其中涉及到光与铜连接的选择。在这篇文章中，我们将探讨GB200系统对光通信的重要性，以及其在AI云中的应用场景。从大集群到中小客户，我们分析了不同客户的需求，引发了市场对光与铜连接的讨论。通过深入研究GB200的设计目标和市场理解，我们可以更好地理解光与铜在AI云中的重要性，以及其未来的发展趋势。

0）英伟达3.18发布最新的GB200系列算网系统（架构参考今早的示意图），算力性能显著提升，其中同时应用了铜连接、光连接的方案，市场对“光”与“铜”的延伸路径讨论较多。

1）现状：GB200（包括此前GH200）系列是NV定义的“superchip”系统，与传统服务器相比，系统颗粒度大，机柜内36或72个GPU的连接以电信号为主，对外则同时应用了NVLink和InfiniBand两套网络。
铜与光的选择，本质是平衡距离和速率的选择。

2）是否GB200降低了光通信的重要性？我们推测：
参照GH200，GB200NVL72系统的目标场景，更多针对【大集群/云/平台型客户】，即英伟达定义的“AI Cloud/AI Factory“，预计存在形式是【多机柜集群】，这种跨机柜≥800G的网络，电损巨大，光通信是刚需；
而从液冷/供电/运维等角度看，中小客户仅采用单套GB200系统的可行性有待商榷，或许传统服务器或上云是更好选择。（亦是NV差异化策略）

3）训推角度看，GB200的设计目标是：单机柜就能应对AI推理，利于云的虚拟化布局。
GB200系统最小单元为机柜，且推理性能大幅提升，能够更好地应对巨量参数、跨模态、海量token、多并发的推理场景，避免大量单GPU分布式。云IDC的场景中能更好应对未来海量推理需求（参考AWS、MSFT的评价）。

4）市场理解的铜连接增加，原因在于：
此前H100系列的集群，没有机柜内互联，而是单独配置一套网络机柜，加之芯片速率较高，因而几乎没有短距铜线；
而GB200系列，尽管机柜内铜线不少，但大集群中NVLink域的光互联+IB扩容的光互联需求非常庞大，加之未来硅光、chip to chip光I/O等路径，已经十分明确！

1、本网站名称：99学社
2、本站永久网址：https://www.xueshe9.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请点击跳转到免责声明页面处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报。
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END