未来数据中心趋势:光模块取代铜线,构建超级大GPU

导语:在GTC网络部分的硬件点评中,提到了未来数据中心的趋势和技术发展。其中,光模块将逐渐取代铜线传输,以应对高速率的需求,而构建超级大GPU的概念也被提及,通过NVLink互连多个GPU,实现功耗、成本和计算效率的极致提升。此外,还探讨了B系列GPU的光模块比例、利润预测以及关于Lightcounting的砍单消息。未来的数据中心将实现几万颗GPU的互联,成为一个超级大的GPU实体。

 

1. 首先B系列的肯定是用800G网卡,1.6T光模块。初期用两个800G光模块,主要是由于当前网络硬件产品电口单通道只有100Gbps,但是随着下半年单通道224G serdes的网卡,dsp以及交换机asic开始批量,后续肯定会切换成1.6T光模块;

2. 关于GB200的网络架构,在计算光模块比例的时候一定要考虑节点数量(GPU)。比如NVL72,如果只有一个rack就是铜线连接,与DGX H100服务器内部8个GPU之间铜连接一样,如果是两个rack,inter-rack之间如果用光连接,那么比例就是1:4.5;如果超过72颗,256或者576或者更多2000只GPU,全部用IB连接就是1:2.5(两层1:2,三层1:3,平均1:2.5),全部用NVLink连接一层1:9,两层1:18。所以简单去说,B系列GPU:1.6T光模块在1:2~1:18之间。英伟达有多种产品方案,就看客户怎么选择,无论怎么样,相比较800G光模块时代的比例只增不减。

3. 不考虑GB200与光模块的比例范围,假设即便和H100的比例一样,按照平均1:2.5来计算,考虑到明年200万以上的B系列卡,NV这边至少也有500万只的1.6T,同时上市初的价格红利非常明显,加上谷歌等其他客户的1.6T需求,全市场1.6T的需求数量非常可观,带来的利润也是非常显著。此外,800G预计仍有相当多的采购量,因此我们认为主流的几大光模块公司明年的利润均有很大的概率进行上调。

4. 关于Lightcounting的砍单信息,可以去关注下从去年2月份开始他们的预测数据及点评文章,准确性相对较低,目前没有听说任何砍单消息。

5. 光进铜退是遵循物理规律的,单通道的速率越来越高,电信号传输的损耗会越来越大,因此铜线传输只是在当下某些场景下具备性价比,但是未来在功耗和成本的压力下,会被光传输取代。

6. Nvidia一直推One Giant GPU的概念,就是通过NVLink去互连多个GPU以及共享大内存以达到超级大的GPU的效果;DGX A100/H100是8个GPU,GH200 NVL32是32个,GB200 NVL72是72个,DGX GB200 SuperPod有256个,随着NVLink-Network可连接的最大节点数从256个升级到2.5k个,未来可能也有可能会更多。那么可以想象未来的一个数据中心,几万颗GPU通过NVLink连接,从而成为一个One Super Giant GPU,功耗、成本和计算效率都将达到极致。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容