虎嗅网 21小时前
英伟达新“王炸”,未发先难产?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

出品 | 虎嗅科技组

作者 | 丸都山

编辑 | 苗正卿

头图 | 视觉中国

文章摘要

英伟达新芯片遇过热问题,量产或推迟。

• B300/GB300 芯片功耗高达 1400W,散热成挑战

• AOS DrMos 方案成熟,问题或源于系统设计不足

• 大模型转向推理,市场需求存变数

继 B200/GB200 芯片交付推迟后,英伟达或又面临新品难产的问题。

12 月 24 日,据 Wccftech 报道,英伟达最新旗舰芯片 B300/GB300 的参数已经确认。其中 B300 的显存规格从上代产品的 192Gb 提升至 288Gb;GB300 平台将首次使用 LPCAMM 内存模块设计,并配备带宽提升至 1.6Tbps 的光模块,以确保数据高速传输。

在性能大幅提升的同时,B300/GB300 的功耗也被拉到史无前例的高度,TDP(热设计功耗)达到 1400W。作为对比,Hopper 架构的拳头产品 H100 芯片,其 TDP 为 350W。

这对于服务器的散热设计来说,无疑是个巨大的挑战。

而就在上周,天风国际分析师郭明錤在研报中表示,英伟达在为 B300/GB300 开发测试 DrMos 技术时,发现芯片存在严重的过热问题,这可能会影响 B300/GB300 的量产进度。

尽管黄仁勋此前曾多次表示,英伟达未来将严格遵循 " 一年一换代 " 的原则,但旗下 GPU 在改用 Blackwell 架构后,不止一次出现 " 跳票 " 的情况。

Blackwell 架构,真有问题?

在郭明錤发布的研报中,指出了 B300/GB300 目前面临的问题:由 AOS(Alpha & Omega Semiconductor)公司提供的 5*5 DrMos 方案在测试中过热。

先来说说 DrMos 是什么。

这是英特尔在 2004 年推出的技术,主要原理是将驱动器和 MOS 集成在一起,以减小多个元件的空间占用以及降低寄生参数带来的负面影响,从而提升转换效率和功率密度。

简单地来说,它就是一个高度集成的电源解决方案。

消费级显卡 RTX3060 上的 DrMos,由 AOS 供应

在英伟达 Hooper 架构芯片上,包括 H100/A100/H800/A800 在内,其 DrMos 方案全部由 MPS(Monolithic Power Systems)供应,可能是基于 " 不把鸡蛋放在同一个篮子 " 的原则,在 Blackwell 架构芯片上,英伟达开始测试 AOS 的方案。

那是否能说明,AOS 应该为 B300 芯片的过热问题 " 背锅 " 呢?

恐怕并不能。

首先,AOS 的 5*5 DrMos 芯片是一款散热能效高,且十分成熟的方案设计,这在行业内已经得到广泛验证。

其次,郭明錤的财报中也提到了,有产业链人士指出,B300 的发热问题除了 DrMos 芯片本身之外,还源于系统芯片管理的设计不足。

这已经不是 Blackwell 第一次被曝出存在设计问题。

今年 8 月,据《The Information》报道,B200 在台积电流片过程中,发现设计存在缺陷。

起初业内认为可能是台积电的 N4P 制程工艺存在问题,但在与高盛的投资人沟通会中,黄仁勋说出了问题所在:由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲。

"100% 是英伟达的责任。"

在芯片设计被曝出缺陷后,B200/GB200 芯片的交付时间从今年 3 季度被推迟至 4 季度。而且从实际情况来看,现阶段仍没有公司拿到 B200 芯片,从公开资料中得知,马斯克凭借 10.8 亿美元的订单,获得了 B200 芯片的优先交付权,这些芯片将被用于增强 .xAI 的超级计算集群 Colossus。

而即便是获得优先交付权 xAI,也得等到明年 1 月份才能收到 B200 芯片。

回到 B300 芯片上,这是一枚原定在明年 3 月 GTC 大会上发布的旗舰产品,现在却面临 " 未发布先难产 " 的问题。

完全垄断 AI 服务器芯片的英伟达,为什么会在 Blackwell 上一再翻车。

一个很重要的原因是,英伟达过于追求芯片性能上断代领先,从而导致 Blackwell 系列芯片作为量产型产品,几乎变成一个实验性平台。

比如 CoWoS-L 封装技术的应用。

这里需要说一个背景是,Blackwell 是一枚基于 MCM(多芯片封装)设计的 GPU,即在同一个芯片上集成两颗 GPU die。

为了配合英伟达的需求,台积电方面首次将 CoWoS-L 技术应用在这枚芯片的封装上。而在此之前,CoWoS-L 封装也没有经过大规模验证。

有业内人士指出,CoWoS-L 封装现阶段的良率可能在 90% 左右,作为一项后段工艺,这个数字很不理想。

需求是否过于乐观?

在 Blackwell 架构芯片推出后,知名华尔街投行 Keybanc Capital Markets 曾发出了一份预测:

"Blackwell 芯片将推动英伟达数据中心业务的收入,从 2024 财年(截至 2024 年 1 月)的 475 亿美元增长到 2025 年的 2000 多亿美元。"

众所周知,在大模型的训练与部署中,英伟达的 GPU 居功至伟,但 BlackWell 架构芯片真的能凭一己之力带动业绩翻倍上涨吗?

即便忽略掉 B200/B300 的延期交付问题,仅从市场需求来看,可能并不是特别的乐观。

对于各大互联网公司来说,一个首当其冲的问题是,如果大规模引入基于 Blackwell 芯片的服务器,那么算力中心的建设成本将会被大大提高。

因为 B200 芯片高达 1000W 的 TDP 实际上已超过了传统风冷散热的极限,许多服务器厂商为了解决散热问题,不得以堆砌 3D VC ( 真空腔均热板 ) 的数量和面积,由此导致在 42U 的标准服务器机柜中,可容纳的芯片越来越少。

而到了 B300 芯片上,风冷散热方案无论如何修修补补都无法压住 1400W 的功耗,必须全面改用液冷。

但对于已经搭建好计算中心的厂商而言,改用液冷会导致其成本骤增。比如在传统服务器机房中在搭建时都会对空调系统进行重点设计,一些大型计算中心的空调系统可以支持 0° 以下的送风。

如果改用液冷,则意味着在加入配套基础设施的同时,过去花大价钱打造的空调系统沦为闲置。

世界人工智能大会上的液冷机房,图片来源:视觉中国

另外就是服务器本身的价格问题。现阶段,一组基于 GB200 的 AI 服务器根据带宽配置的差异,定价约在 200-300 万美元之间,而如果这些服务器全部基于 GB300 改用液冷方案,价格甚至可能会翻倍。

还有一个很重要的问题是,市场对于最先进 GPU 的需求是否强烈?

就在 12 月 14 日的 NeurIPS 大会上,OpenAI 联合创始人 Ilya Sutskever)表示,大模型预训练即将结束,因为 AI 的化石燃料 " 数据 " 已经用尽了。

如果 Ilya 的判断没有问题,一个显而易见的转变将是大模型的研究重心将从训练转向推理,在这样的背景下,虽然英伟达 Blackwell 系列芯片具备强大的 " 训推一体 " 能力,但有多少厂商未来愿意持续性地高成本投入,还有待观察。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

英伟达 难产 英特尔 芯片 黄仁勋
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论