雷锋网 10小时前
从预训练到推理拐点,英伟达能靠Rubin延续霸权吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 赵之齐

编辑 | 包永刚

在预训练赛道凭借硬件性能与生态优势称霸的英伟达,进入 AI 推理时代后,面临新的挑战。

在 CES 2026 上,英伟达创始人兼 CEO 黄仁勋强调了 " 物理 AI" 是 AI 的下一波浪潮。他将推理性 AI 置于核心位置,发布了具备自主思考能力的自动驾驶 AI Alpamayo,提出了与西门子联手打造工业 AI 的未来蓝图,并且,也披露了下一代 AI 计算平台 Vera Rubin 的细节。

显然,黄仁勋不愿让 Rubin 停留在 " 概念革命 " 的想象层。他花了大量篇幅阐述 AI 推理带来的挑战:模型规模每年增长十倍,推理从单次生成走向多步思考,所需算力呈指数级膨胀,更长的上下文也导致存储与带宽压力飙升。

对此,英伟达给出的解决方案是,集成 Vera CPU、Rubin GPU、NVLink 6 交换机、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-X 以太网交换机的组合平台。

在部分业内人士眼中,这是一场 " 营销意味更重 " 的发布:面对 TPU、超节点等在推理领域相继崛起,以及单芯片制程逼近物理极限的现实,英伟达推出六芯协同组合 Rubin 平台,是其保持在推理市场领先地位的关键一步。

但这背后也隐藏着现实问题:

Rubin 的推理性能突破,建立在 NVFP4 自适应调整精度前提下,"但提高 FP4 精度的推理,难免会挤压 FP16、FP32 等更高精度的计算资源,且精度下降后,对于文生视频等对精度敏感的场景而言,推理质量也会肉眼可见地变差 "。

而对于黄仁勋提出 Rubin 平台用 45 ℃温水冷却、有望为全球数据中心总电力消耗节省约 6% 的论断,AI 系统架构师徐先生解读:"这种方式的出液与进液温差很小,核心元器件的实际工作温度可能维持在八九十摄氏度,机柜的故障率很难实质下降。"

面对这一系列严苛的前置条件,Rubin 能否切入推理市场并实现大规模落地,尚不明朗。(更多关于 Rubin 落地的细节判断,欢迎添加作者微信 Ericazhao23 交流。)

不过,黄仁勋形容这套六芯组合系统的出现 " 恰逢其时 " ——它告别了单一芯片的能力竞赛,迈向算力基础设施的全栈升级,这与他在 GTC 2025 上强调的打造 "AI 工厂" 概念,一脉相承。

对于此次战略转向,多位业内人士给出了相似判断:"Rubin 的发布对于国产芯片来说短期会利空,但长期会利好。从英伟达这个动作可以看出,单芯片性能红利已经触顶,多芯片协同与系统设计能力会成为新的破局关键。"

这种系统性的能力,也是许多国产芯片公司已在探索的技术路径。

Rubin 的发布,是英伟达在推理时代进一步加固自身的生态护城河。然而,行业也已形成共识:"训练业务的价值核心是效率,但推理业务的核心是成本"。在新的价值逻辑下,Rubin 要实现它的蓝图,需要跨过哪些关卡?在竞争日趋激烈的推理赛道中,英伟达还能延续其在预训练领域的霸主地位吗?

从芯片竞争到系统博弈:Rubin 带来的启示

在 CES 现场聆听分享的胡晨辉,已有十多年芯片从业经验。已经耳闻 Rubin 存在的他,这次比起惊喜,更多是平静地感慨:" 它终于来了 "。

在他看来,黄仁勋的整场演讲,都在传递一种 " 强者恒强 " 的气质

介绍完架构细节后,黄仁勋强调了 Vera Rubin 在商业上的亮眼表现:

训练一个十万亿参数规模的大模型时,其所需的集群规模仅为 Blackwell 系统的四分之一;在同等功耗和空间条件下,一座 Vera Rubin 数据中心的 AI 计算吞吐量,预计可达到基于 Hopper 架构数据中心的约 100 倍。

不仅如此,未来大规模 AI 服务的 token 生成成本,预计能降到当前水平的十分之一左右。

这样的性能与成本优势,切中了推理时代的核心需求——过去数据中心 " 更大模型 + 更强算力 " 的发展路径,如今已难以被复制,各类交互、驾驶、控制等场景对时延高度敏感,且更多落地在端边侧,对成本有着苛刻追求。面对群雄逐鹿的格局,英伟达也开始以 " 性价比 " 为抓手,坚守推理市场的份额。

黄仁勋还指出,此次 Rubin 的发布,也打破了英伟达过往 " 每一代新平台不应有超过一两个芯片发生变动 " 的原则,可以说是其从 "AI 芯片厂商 ",向打造 "AI 工厂 " 转型的重要一步。

对于这一策略的转变,炜烨智算副总裁孟健雄认为,短期内对国产芯片可能利空,但最终一定是具备制造业优势的中国更占赢面——只是这个周期可能非常漫长。

徐先生也直言,这次英伟达的动作,释放出一个关键信号:如今他们讲的不再是单芯片的故事,而是多芯片系统的协同价值,这意味着其芯片设计、代工封装等环节已经接近物理极限,对国产芯片来说,反而是一种利好。

芯片领域资深投资人 IO 资本创始合伙人赵占祥,也持相似立场。他指出,通过全局设计来提升综合算力、推出整机乃至集群级的解决方案,是 Google TPU 很早就开始走的路线,而这条技术路径,国内已有不少芯片创业公司在积极布局。(各类芯片架构的进一步探讨,欢迎添加作者微信 Ericazhao23 交流。)

此外,这一趋势对国内存储厂商也十分有利

他进一步分析说:大模型推理对 KVCache 的调用频率更高,当前的性能瓶颈是 GPU 直连的 HBM 容量有限,而存储服务器又与计算单元的物理距离过远。由此来看,未来 CXL 存储、LPDDR 等新型高速存储技术,都有望被部署到 GPU 周边,通过缩短数据传输链路来提升推理性能,进而带动相关技术的商业化落地与规模化应用。

毋庸置疑的是,英伟达发布的 Rubin 平台,在硬件性能和性价比上的进一步突破,也加强了其生态护城河。

但赵占祥也指出一个核心矛盾:英伟达试图通过强化软硬耦合,绑定客户采购其全套产品;但客户其实更倾向于选择软硬解耦的方案,不愿被英伟达的生态完全绑定,因此,采购决策负担与顾虑也可能随之加重。

不过,在生态绑定的争议之外,Rubin 所标榜的五倍性能突破,要真正落地应用,还需跨过多重技术与实践关卡。

动态精度调整," 伟大的发明 " 还是美好的想象?

在 CES 2026 上,黄仁勋把 NVFP4 Tensor Core 称作是一项 " 伟大的发明 "。

这是一个完整的处理器单元,能自适应地调整精度和结构,从而在允许精度损失的场景下实现更高吞吐量,并在需要时恢复到可能的精度。这种动态调整能力,完全在处理器内部自主完成。Rubin GPU 的 AI 推理浮点性能相较上一代 Blackwell 提升五倍,核心驱动力正是 NVFP4 Tensor Core 对精度与吞吐率的自适应调度能力。

然而,这种技术模式能否获得市场青睐?

" 晶体管就那么大,提高 FP4 精度的推理,难免会挤压 FP16、FP32 等更高精度的计算资源 ",AI 系统架构师徐先生说道。

显然,高精度是预训练的刚需,一定程度上牺牲了精度的 Rubin,瞄准的最大场景或是未来行业模型的后训练和推理应用、训推一体化领域。

但这就陷入一个尴尬境地:即便英伟达仍维持着技术领先的地位,国内厂商却已开始凭借超节点等形态进行追赶,"这条赛道跟国产芯片厂商布局高度重叠,英伟达当下力推的技术方向,国产厂商也在做 ",徐先生补充道。

同时,不可忽略的是,在推理领域,精度下调虽能减少显存占用、提升运算速度,但也会对模型的最终准确率产生影响。

有国内大模型厂商的从业人士告诉雷峰网,公司内部曾开展多轮不同精度的对比测试,结果显示,尤其是在文生视频领域,当精度从 FP16 降到 FP8,视频的生成效果已经肉眼可见地变差——这还建立在当前多数文生视频产品时长仅为五秒的前提下。

不过,业内也有不同看法。赵占祥认为,在推理需求高速增长的情况下,精度压缩是行业必经之路,由于 NVFP4 张量核心能实时分析 Transformer 模型各层的计算特性、动态调整数据精度与计算路径,本质上还是推理的自适应数据压缩技术,会在精度损失和推理性能之间做平衡。

即便如此,市场对于向 FP4 精度跨越仍存疑虑:当前业内主流的推理精度普遍停留在 FP8 级别,当精度进一步压缩,虽然英伟达宣称可通过特定技术实现微乎其微的精度损失,但在文生视频等对精度敏感的场景中,是否会引发更显著的效果衰减?

种种未知下,Rubin 技术落地的真实效果,行业还在等待验证。

功耗翻倍:Rubin 能否跨过能源与散热门槛?

"Vera Rubin 的功耗是 Grace Blackwell 的两倍,但我们仍然能将 Vera Rubin 塞进这个框架里,这本身就是一个奇迹 ",黄仁勋在大会上说道。但这份乐观,能否真正实现?

" 散热是未来超节点和万卡集群最重要的竞争点 ",AI 系统架构师徐先生说道。

Rubin 的液冷计算托盘,摒弃了传统的电缆和软管设计。在徐先生看来,这样设计的优势在于无线缆架构,能对 GPU、CPU、网卡及存储等核心模块都进行制冷处理

不过,他指出,这种方案下,如果进液温度为 45 度,出液温度可能就在 50 度左右,如此小的温差,预估核心元器件的实际工作温度仍会维持在八九十摄氏度。这就意味着,机柜的故障率很难实质下降,整个集群的模型浮点运算利用率(MFU)大概率可能停留在 30%-50% 的区间,硬件算力依然存在严重浪费

尽管已有业内消息称,面对 Rubin 与下一代 Feynman 平台的功耗激增,现有散热方案已经难以应对,英伟达正要求供应商研发 " 微通道水冷板 " 技术,但在徐先生看来,这种方案的天花板较低,最终的散热体系还是要融入浸没式液冷技术,才能突破瓶颈。(服务器散热技术迭代,液冷如何破局?欢迎添加作者微信 Ericazhao23 交流。)

除了散热,电力供应也是不容忽视的关键环节

" 一个很有意思的现象,以前你走进大厂的机房,一排机柜看过去都是满满当当装着服务器,但现在,一个机柜里可能只有一两台,看起来空空荡荡的 ",某大厂算力行业人士李明说道。

背后原因,是现有电力承载力已难以匹配设备的能耗需求

黄仁勋也抓住了这一痛点。他介绍,Vera Rubin 平台坚持使用 45 摄氏度温水冷却,无需能耗巨大的冷水机组,这一设计预计能为全球数据中心节省约 6% 的总电力消耗

在李明看来,如果这个故事真能讲通,那对于当下电力资源紧缺的全球数据中心市场来说,无疑是一剂强心针。

不过,一个无法回避的现实是,Rubin 的规模化落地,需要一套更全面的非标配套体系作为支撑。

胡晨辉指出,未来部署 Rubin 产品的总拥有成本(TCO)肯定会降低,毕竟能源利用效率显著提升,但同时,部署 Rubin 的 IDC 可能需要专用变电站来支撑。徐先生也认为,Rubin 架构单机柜的功耗门槛极高,需要大量非标电压、电线等配套设施,实则给供电系统带来了不小的压力

与此同时,很多数据中心原来的硬件配置乃至运维团队,可能都要因此 " 换一波 "。不过,炜烨智算副总裁孟健雄也推测,在故障率相当的前提下,设备集成度越高、系统内故障源点越少,相应的维护成本也有望降低。

在群雄逐鹿下,英伟达的 Rubin" 豪赌 " 能否落地,取决于其能否跨过能源与精度的双重门槛;而国产芯片的未来,则在于能否抓住这次规则重构的机遇,例如通过增加芯片部署数量、制定更优的散热方案,将系统设计的优势转化为真正的市场竞争力。

当六芯组合的时代真正来临,胡晨辉最强的体会是:SOC 不再是传统意义上的系统级芯片,系统也不再局限于硬件的简单集成,行业里的参与者,都要树立做 " 场景底座 " 的商业思维。

这场围绕 AI 基础设施的博弈,正火热展开。

作者长期关注半导体、算力上下游等方向,欢迎添加作者微信 Ericazhao23 交流。

注,文中李明为化名。

雷峰网雷峰网

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 英伟达 芯片 黄仁勋 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论