雷锋网 14小时前
巨额“收编” Groq,英伟达意欲何为?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

" 黄仁勋这 200 亿美元,买的其实就是 Jonathan Ross 这个人  ,押注在此英伟达未来可能会赚回三倍的钱,所以 200 亿美元实在不算贵。"某投资人近日向雷峰网透露。

2025 年 12 月 24 日,英伟达以其史上最大规模交易额 200 亿美金,将推理芯片独角兽 Groq 的核心技术与团队收入麾下。Groq 创始人、谷歌 TPU 初代核心开发者 Jonathan Ross 带队加盟英伟达,其独创的 LPU 芯片技术将融入英伟达 AI Factory 架构。

当下 AI 行业正从 " 规模竞赛期 " 转向 " 效率价值兑换期 ",推理侧需求大于训练侧需求已成为普遍共识。

面对推理市场的爆发式增长,Groq 的专属 LPU 芯片以 5-10 倍于 GPU 的速度优势,以及 1/10 的成本优势,成为异军突起的核心玩家,而黄仁勋最终还是选择了将这条搅动市场的鲶鱼收入囊中。

这究竟是招安潜在对手的缓兵之计,还是垄断推理市场的霸权布局?

重金收编的核心是什么?

2026 年 CES 大会期间,英伟达管理层在面向投资者的会议上强调,此次收购 Groq 不会对核心业务产生冲击,反而将为公司开辟全新的增长空间。 

而这桩被包装成 " 非独家技术授权 " 的交易,本质是硅谷近年流行的" 收购式招聘 "的升级版:用授权的名义实现 " 人才 + 技术 " 的双收。

瑞银分析师团队在研报中直言:" 这是一场没有收购之名的完全收购,英伟达用最小的监管风险,获得了最核心的战略资产。"

根据披露信息,英伟达所支付的 200 亿美元中,130 亿已即时到账,剩余款项中包含核心员工的股权激励,其中 Groq CEO Jonathan Ross 个人获得数亿美元英伟达股权。团队核心成员则几乎全员转入英伟达,芯片设计、编译器开发等核心资产也尽数归入英伟达体系。

" 黄仁勋这 200 亿美元买的其实就是 Jonathan Ross 这个人,因为 Jonathan Ross 是个非一般意义的天才。如果拿黄仁勋类比杰夫里辛顿(深度学习教父)的话,那 Jonathan Ross 就要类比伊利亚(OpenAI 联合创始人兼首席科学家)。" 苔藓花园播客主理人、资深私募投资人王韦华告诉雷峰网。

作为谷歌初代 TPU 的核心设计者,Jonathan Ross 早在 2016 年 Groq 成立时就已预判推理将成为规模化难题,并率先提出 " 推理市场规模终将远超训练 "。他提前洞悉到推理的核心需求是" 低延迟、高能效、低成本 ",而非计算密度。因此他摒弃了 GPU 架构改良思路,从零打造专为推理设计的 LPU 架构。

LPU 架构完全围绕 " 消除数据搬运延迟 " 展开,采用无外置内存、全片上 SRAM 作为主存的设计,片上带宽达 80TB/s,是 Blackwell B300 的 HBM 带宽 8TB/s 的 10 倍。

成本方面,Jonathan Ross 曾在福布斯独家专访中公开声明,"Groq LPU 在 LLM 推理速度快 10 倍同时,成本是 Nvidia GPU 的 1/10,功耗是 Nvidia GPU 的 1/10。"

这种集性能与成本优势于一身的提升,精准击中了英伟达在推理赛道的核心短板,也成为黄仁勋不惜斥资 200 亿果断出手的关键所在。

另一方面,回溯英伟达过往的并购布局便不难发现,这场交易也并非偶然。

2000 年,英伟达以 7000 万美元 +100 万股普通股收购了 3dfx 核心图形资产,奠定 GPU 领域统治基础;2013 年,收购了 HPC 编译器龙头 PGI,强化了 CUDA 生态在高性能计算领域的核心支撑;2019 年,以约 69 亿美元收购了 Mellanox,补全数据中心网络短板。

王韦华认为,"LPU 现在已经不是 0 亿美金市场了,但黄仁勋再次早于别人发现了 LPU 的重要性。英伟达现在收购 Groq,甚至比 2019 年收购 Mellanox 的重要性要更大,这一步直接让英伟达在推理端领先两三年。虽然在英伟达整个数据中心的建设里推理占比不大,但只要它在技术上保持领先就会产生巨大的杠杆效应。"

尽管 Groq 当前的市占率远未对英伟达构成直接威胁,但它掌握的可重构数据流架构,代表了 AI 推理的未来方向。英伟达此次用 200 亿美元 " 买断 " 这条技术路线,正是" 技术补位 + 生态垄断 "并购战略的延续。

而这种不计短期成本、锁定长期技术优势的大手笔操作,底气完全来自其充沛到近乎 " 过剩 " 的现金流。据英伟达最新财报,仅 2026 财年 Q3,英伟达的自由现金流便达到了 220.89 亿美元。

为什么是 Groq?

当下,全球仅有两个团队掌握 TPU 架构技术:谷歌与 Groq。

在此之前,谷歌凭借 TPU 训练出优质模型引发市场关注,导致英伟达股价受挫,此次收编补齐了其在 TPU 架构路线上的短板,在巩固行业地位的同时为其估值提供了重要支撑。

王韦华表示," 英伟达这次押注 LPU 不单是为了对抗谷歌的 TPU,TPU 专注于矩阵运算,更多还是强调在训练方面的优势。LPU 其实跟 TPU 相比的话,更专注于推理这一块。以后在推理这块谁能省最多的电?谁能在速度上面最有优势?目前看最有可能的方向就是 LPU 了。"

作为谷歌 TPU 的核心缔造者,Jonathan Ross 深知 GPU 处理线性代数运算时的架构冗余,离开谷歌后他以第一性原理为核心,选择 SRAM 作为核心存储、通过编译器规划数据路径,打造低延迟 LPU 产品,其 TPU 开发经验直接决定了 Groq" 顺序延迟优先 " 的技术路线。从谷歌 TPU 的灵魂人物,到出走自立门户成立 Groq,过程中的势力角逐,欢迎添加作者微信   IHAVEAPLANB-   交流。

业内人士告诉雷峰网,TPU 架构的计算效率远超 GPU 的原因在于,GPU 需经历" 计算 - 传数据至存储 - 读写 - 再计算 "的循环,而 TPU 采用片上存储直接计算,省去了数据往返存储的环节,效率极高。

当 token 的吞吐量效率落地到用户体验层面,Jonathan Ross 表示,响应时间每缩短 100 毫秒,桌面端用户参与度就能提升 8%,移动端更是高达 34%。业界早已形成共识:当用户体验的响应时间控制在 250 到 300 毫秒以内时,商业收益才能最大化。

根据 Groq 官方信息,实测数据显示 Groq LPU 在运行 Llama 3.3 70B 模型时,token 生成速度达 284tokens/s,首 token 响应时间仅为 0.22s,运行混合专家(MoE)模型时更是突破 460 tokens/s。

图片来源:Groq 官网

这种极致性能让 Groq 斩获沙特王国 15 亿美元业务承诺资金,也让英伟达意识到,要统治推理市场需补齐这一短板。

英伟达此前推出的 H200、B300 等推理优化芯片,本质仍是基于 GPU 架构的改良,未能突破冯 · 诺依曼架构的先天局限,而谷歌 TPU、AMD MI300 等竞争对手,均在专用推理架构上持续发力。

更严峻的是,Meta、谷歌等大客户开始寻求算力供应多元化,Anthropic 甚至宣布接入 100 万个谷歌 TPU 构建计算集群。在此背景下,收购 Groq 成为英伟达快速抢占推理高地、留住核心客户的最优解。

" 英伟达真正擅长的是训练,在这一领域它是最出色的。英伟达既不提供高速的 token 处理服务,也没有低成本的 token 解决方案,这便是 Groq 要解决的问题。"

在被英伟达纳入麾下之前,Jonathan Ross 曾在播客中公开声明,英伟达与 Groq 并非竞争对手,二者的产品完全是不同维度的存在。然而事实果真如此吗?

某机构分析师张简告诉雷峰网:" 英伟达要忌惮的,是 Groq 代表的 " 去 GPU 化 " 技术路线可能引发的产业变革。英伟达的霸权建立在 "GPU+CUDA 生态 +HBM/CoWoS 稀缺产能 " 的三重护城河上,而 Groq 的技术路线恰恰绕开了这三大壁垒:可重构架构无需依赖 CUDA 生态,采用 GlobalFoundries 和三星代工,不占用台积电稀缺的 CoWoS 产能。"

" 一旦这条路线跑通,意味着 AI 芯片的生产门槛将大幅降低,其他设计公司无需依赖稀缺供应链就能大规模生产推理芯片。英伟达以 200 亿美元收编 Groq,意味着将这条潜在的颠覆路线握在自己手中,确保算力革命的主导权不旁落。"

推理市场变天?

" 为了成为一名心血管外科医生,你不可能花费一生 95% 的时间接受培训,真正手术的时间只占 5%。实际情况恰恰相反:你经过短暂培训,随后便会用余生持续实践这项技能。" 对于推理市场未来的演进趋势,Jonathan Ross 曾打过这么一个比方。

2025 年初 Deepseek 横空出世时,Jonathan Ross 将其称为 AI 行业的 " 斯普特尼克时刻 ";当下,推理市场也许将再次进入 " 斯普特尼克时刻 "。

据悉,在收购 Groq 后英伟达会将 LPU 作为专用的 DAC 硬件单元嵌入到 CUDA 生态系统中,以此保持 CUDA 编程的通用性。短期内,英伟达会通过 NVFusion 快速集成 LPU;长期来看,则会在底层架构和编译器层面实现协同设计,从而满足性能场景下的高性能需求。

由于推理场景和训练场景存在显著差异,无法通过单一架构解决所有问题,不同推理场景对大模型的工作负载要求各异,所以推理芯片架构将呈现多样化,需要针对细分场景进行优化。

业内人士爆料,英伟达下一代 Feynman GPU 或将于 2028 年集成 Groq 的 LPU 单元,采用类似 AMD X3D 方案的独立芯片堆叠设计,即利用台积电的 SoIC 混合键技术将 3D V-Cache 芯片集成到主计算芯片上。

可能搭载 LPU 单元的 Feynman 芯片,图片来源:Wccftech

考虑到 SRAM 的扩展性有限,将其作为单元芯片集成到 Feynman GPU 中可能并非明智之举,因为在先进制程上构建 SRAM 将导致高端硅片的浪费,并大幅增加每片晶圆面积的使用成本,因此英伟达很可能会将 LPU 单元堆叠到 Feynman 芯片上。

" 这样一来,像 A16(1.6 纳米)这样的芯片将用于主 Feynman 芯片,而独立的 LPU 芯片将包含大型 SRAM 存储体。此外,为了将这些芯片连在一起,台积电的混合键合技术至关重要,因为它能提供更宽的接口,并且与封装外存储器相比,每比特能耗更低。最重要的是,由于 A16 具有背面供电功能,正面将可用于垂直 SRAM 连接,从而确保低延迟的解码响应。"

可要做到上述也绝非易事,目前的主要问题仍在于 CUDA 在 LPU 风格执行中的行为方式,因为它需要显式的内存布局,而 CUDA 内核设计初衷是为了实现硬件抽象。对于英伟达团队而言,在 AI 架构中集成 SRAM 难度极高,这需要 " 工程奇迹 " 来确保 LPU-GPU 环境得到充分优化。

然而,如果英伟达想要主导推理市场,这或许是其愿意付出的代价。

本文作者长期聚焦海外 To B 半导体科技巨头,更多公司动态、行业逻辑、价值投资信息,欢迎添加作者微信 IHAVAPLANB- 交流探讨。

注:文中张简为化名

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 芯片 黄仁勋 谷歌 投资人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论