部署 B200 GPU 出现摩擦:微软要求自家定制服务器机架,英伟达希望整机出货

发布时间 - 2024-06-23 12:27:58

6 月 22 日消息,媒体 The Information 曝料称,微软计划向英伟达采购最新的 Blackwell B200 GPU,不过因为服务器机房安装方式而产生摩擦,导致双方合作一度陷入僵局。

image.png

英伟达作为 AI 领域的霸主,不断瓜分数据中心的这块大蛋糕。黄仁勋在公开演讲中多次强调,英伟达公司不再考虑以单个 GPU 方式出售,而是将整个 NVL72 机架视为一个 GPU 推广销售。

DGX GB200 系统机柜分三大类,分别是 DGX NVL72、NVL32、HGX B200 ,其中 DGX NVL72 是该系列中单价更高、算力最强的 AI 系统,内置 72 颗 B200 GPU 及 36 颗 Grace CPU,配备 9 台交换器,整机设计由 NVIDIA 主导且不能修改,但 ODM 厂商可以自己设计 I / O 及以太网连接系统。

NVL72 完善提供一体水冷散热方案,可实现总计 720 petaflops 的 AI 训练性能或 1,440 petaflops(又称 1.4 exaflops)的推理性能。它内部使用电缆长度累计接近 2 英里,共有 5000 条独立电缆。

image.png

根据汇丰银行(HSBC)提供的数据,配备 36 个 GB200 超级芯片(18 个 Grace CPU 和 36 个增强型 B200 GPU)的 Nvidia GB200 NVL36 平均售价可能为 180 万美元,而配备 72 个 GB200 超级芯片(36 个 CPU 和 72 个 GPU)的 Nvidia GB200 NVL72 售价可能在 300 万美元(备注:当前约 2172 万元人民币)左右。

image.png

对于英伟达来说这种销售方式明显更为有利,不仅能获得更高的收入,而且“标准化”用户安装 B200 GPU 的方式。

英伟达表示正在推动客户购买单个机架甚至整个 SuperPods,提供“一条龙”全套服务,官方认为这样可以提高 GPU 性能。

不过在实际部署中,微软并不认可英伟达的部署方式。据援引该媒体报道,英伟达公司副总裁安德鲁・贝尔(Andrew Bell)要求微软为其新的 B200 GPU 购买专用的服务器机架设计,其外形尺寸与微软数据中心现有的服务器机架差了几英寸。

微软不认可英伟达的建议,认为如果采用英伟达的服务器机架方案,那么就无法轻松切换英伟达的 AI GPU、AMD 的 MI300X GPU 等相关产品。

双方的“摩擦”最终以英伟达的妥协告终,英伟达最终让步,让微软为其 B200 AI GPU 设计自己的定制服务器机架,但这可能不是两家巨头之间的最后一次分歧。

在线咨询
联系方式
微信二维码
线