汽车之心 12小时前
世界模型来了,旧的自动驾驶芯片开始失效
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

过去几年,汽车行业有一个越来越明显的变化:车企开始亲自下场造芯片。

特斯拉有 FSD 已迭代至第五代;蔚来推出神玑 NX9031;小鹏自研 AI 图灵芯片;理想造了马赫 M100;比亚迪、吉利、Momenta 也被频繁点名。

表面上看,这是一场「去英伟达化」的运动。

但如果只看到这一层,就太浅了。

真正的问题是:自动驾驶模型本身,已经开始变了。

从 CNN,到 Transformer,再到 DiT 与世界模型,模型范式在切换,而旧时代的芯片逻辑,未必还能接住下一代自动驾驶。

这才是车企重新造芯片的真正原因。

01、不是省钱,是抢控制权

自研还是外采,表面是商业决策,骨子里是对技术路线的判断。

自研或外采取决于车厂对自动驾驶路线的判断,芯片研发周期比较长。

从完整定义设计目标到芯片上量产车型,中间需要 2-4 年。海外厂家更长,可能是 3-5 年。

这意味着芯片厂家在今天落笔,押注的其实是 5-8 年后的技术走向。

预测错了,要么芯片生命周期大幅缩短,要么干脆没人用。

做汽车数字类芯片,赌性确实很大。

车企自研芯片,某种意义上是在说:我比供应商更清楚自己五年后要跑什么模型。

5 纳米甚至 3 纳米,一次性工程费用加对外采购 IP 高达数亿人民币。一次性工程费用加 IP 授权,动辄数亿人民币。

出货量不够,账面上一定是亏的。但这笔钱可以进整体研发成本,还能拉高市值、强化科技品牌。

账算到最后,商业逻辑是通的。

技术门槛方面,随着 IP 生态成熟、EDA 工具链完善,以及索喜这类专门服务车厂定制芯片的中间商涌现,工程难度正在快速下降。

真正难的部分,已经转移到软件栈、编译器和长期模型适配上,这恰恰是芯片供应商最难替你定制的部分。

02、模型变了,芯片的逻辑也得变

先搞清楚现在的自动驾驶,在跑什么模型。

目前自动驾驶路线有三条。

一是分段端到端,大多数厂家的选择,典型代表是 Uni-AD,总参数一般不超过 5 亿。

二是VLA 路线,视觉 - 语言 - 行动模型,加扩散动作专家或 MLP,融合世界模型提高推理效率,VLA 通常是 MoE 架构,参数一般在 20 — 70 亿。

三是世界模型加扩散动作专家,目前还没有量产上车的案例,要等的时间可能比想象中更长。

这三条路线对芯片的需求截然不同。

而且没有哪家厂家只押一条路。

三条线都在做,都在看,没人敢掉队。

这里有一个流传很广的误区:只要 TOPS 数值够大,就能应对所有模型。

CNN 时代确实如此,算力堆上去,性能就上去。但今天是 CNN+Transformer 的混合时代,明天可能是 Transformer+DiT 的时代。

5000TOPS 的芯片,跑 DiT 架构,很可能打不过 300TOPS 的对手。

决定胜负的,是存储带宽、编排能力、紧耦合分级内存、SFU、可编程向量算力。哪一个,都比 TOPS 数字重要。

TOPS 崇拜,正在失效。

世界模型的核心是 DiT 架构

03、世界模型带来的新麻烦

第三条路线是去年才真正成形的。它的核心架构,叫DiT

世界模型的典型架构,上图来自论文 Fast-WAM: Do World Action Models Need Test-time Future Imagination?

世界模型为什么特殊?

因为 DiT 对时序信息有天然的亲和力。它不只是个「更好的图像生成器」,而是为视频、动画乃至自动驾驶和具身智能量身打造的架构。

无论联合建模、先想象后执行,还是「训练时建模、推理时直出动作」,无论哪一种世界模型范式,DiT 都是核心。

问题在于:市面上根本没有为 DiT 推理专门设计的芯片。

扩散模型推理流程

扩散模型的推理流程异常复杂。

传统高算力芯片只能应对稠密张量矩阵乘法,也就是去噪循环内部的计算。

其余的不规则计算、向量编码、内存敏感的激活,要么依赖标量 CPU,要么靠向量算法,对芯片设计构成严峻考验。

如果一家车企决心沿世界模型路线走,又不想等市场上出现合适的芯片,大概率只有一条路:自研。

04、存储带宽,才是真正的命门

有一个细节值得单独拿出来说。

无论哪条技术路线,存储带宽都是越宽越好。

VLM(视觉语言模型)最为典型——解码阶段是 VLM 的主要耗时,而解码速度完全由存储带宽决定。

换句话说,VLM 的整体性能,本质上是存储带宽的性能。

这也是为什么特斯拉 AI4/AI5 不惜血本拓宽存储带宽。他们很清楚,真正的瓶颈在哪里。

自回归(AR)架构的解码阶段是内存绑定的。算力再高,也无法加速。系统性能完全取决于存储带宽和调度延迟,这个阶段甚至有些小模型在 CPU 上跑比 GPU 还快。

扩散模型则是另一种困境:它高度依赖 Batch size(并发批处理数量)。Batch 越大,矩阵乘法单元利用率越高。但 Batch 一大,去噪循环外的不规则运算和调度消耗就会暴涨,整体延迟大幅增加。

对延迟敏感的自动驾驶场景,Batch 通常只能设 1-4,很少超过 8。结果是:GPU 账面算力惊人,实际大量空转。

05、大核、中核、小核:三种计算哲学

自动驾驶芯片的核心是 AI 加速器。而 AI 加速器的路线之争,本质上是三种计算哲学的对撞。

按照单个矩阵乘 ALU 的 M × N × K 维度,目前分三个流派:大核心、中核心、小核心。

(1)大核心:极致效率主义

大核心的典型是脉动阵列架构。

谷歌 TPU v5/v6,256 × 256,每个核心有 65536 个 MAC 阵列。数据只流入一次,沿脉冲向前传,SRAM 读取压力远低于小核方案。跑 LLM/VLM 这种形状高度规整、batch 极大的模型,能效比和性价比遥遥领先。

典型代表:谷歌 TPU、AWS Trainium、Groq LPU、英特尔 Gaudi、特斯拉 HW3.0、蔚来神玑、小鹏图灵、芯擎、高通 AI100。

TPU v5 每阵列频率 1.5GHz,单核算力约 197TOPS;v6 升级为 Tile 脉动,同频率下单核算力达 918TOPS。每条指令驱动 65536 次 MAC,稠密矩阵乘法上的效率压倒性领先。

代价也很明显。大核心更像一条超大型流水线——数据形状足够规整时效率极高,一旦模型结构变得稀疏、动态或非规则,流水线就开始空转。

大核心的缺点也很明显,首先是对数据流形状或者说矩阵形状高度敏感,256*256 的阵列要求 MNK 都必须是 256 的整数倍,如果不是整数倍,就需要 tile 切分、padding、layout 变换、双缓冲、collective。

256 × 256 的阵列要求 M/N/K 都必须是 256 的整数倍,稍有偏差就需要大量预处理工序。

编译器做得差,计算利用率低到 10% 甚至 1% 不罕见;做得好,也很难超过 40%。跑一个百亿参数的模型和一个千万参数的模型,用时可能一样。软

件团队规模是硬件的十倍以上——这条路,养人成本极高,亏损几乎不可避免。

另一个硬伤:

非结构化稀疏完全无效。自动驾驶视觉模型是典型的稀疏模型,而大核心是典型的稠密引擎。

谷歌 TPU v6e 为此单独增加了稀疏张量核心,但这必然增加软件复杂度和调度时间。

(2)小核心:极致灵活主义

小核心实际就是多核 CPU。

小核心的极端代表是特斯拉 Dojo ——实质上是 384 核心 CPU 的集合体,每核有独立分支、循环、PC 和本地 SRAM。

它的天然优势:对任何形状的数据都能轻松处理。

batch=1 也能保持很高的利用率;天然适配 decode、MoE expert 路由、可变长 KV cache;原生支持非结构化细粒度稀疏。

Cerebras 的报告显示,75% 稀疏度下相对稠密基线可达约 2.5 倍实际加速——这在大核心架构上根本做不到。

代价同样明显。每个小核都要付出独立取指 / 译码 / 寄存器堆 / 控制逻辑的开销。同样工艺同样算力下,纯小核设计比脉动阵列多付 2 — 5 倍面积,也就是同样算力,成本要贵 2 — 5 倍。

这个数字,足以让大多数厂家望而却步。所以真正走小核路线的,凤毛麟角。

(3)中核心:平衡主义

英伟达选择了第三条路——既不极致,但也从不死路。

GPU 把矩阵单元做在 16 × 16,数量比大核多、远少于 CUDA core,一颗 H100 上中核 Tensor Core 负责稠密算力、CUDA 小核负责控制流和稀疏两套并存。warp 调度隐藏 shape 敏感性,不对齐的部分交给 CUDA core 补齐。

这正是英伟达真正强的地方,从来不是算力本身,而是在效率、灵活性与生态之间找到了某种平衡。

这也是为什么,即使所有车企都在喊「去英伟达化」,真正完全脱离英伟达的公司依旧极少。

典型代表:英伟达、AMD、华为(910/810/610 从一开始就是 16 × 16 × 16)、理想、Momenta。特斯拉 AI5 大概率也走中核路线。

高通的 NPU 是这套逻辑的另一个注脚。

从 SA8155 的 8TOPS 到 SA8397P/SA8797 的 80TOPS,矩阵单元数量一直没有变化,标量和矢量线程数量却在持续增加——应对越来越复杂的推理场景,高通选择的是往小核方向加筹码。

06、没有完美的芯片,只有押注

三条路线,各有死穴。

对于 VLM 这种大模型,GEMM 密度很高,矩阵尺寸大,大核心几乎完美,模型越大越完美。

但对于 DiT 和扩散模型,串行属性明显,某些部分 GEMM 密度很高,其余都是低密度,更适合小核心。而小核心的性价比,很难让商业决策者满意。

英伟达的中核心,在 GEMM 和非规则计算之间走钢丝,但应对 DiT 和扩散模型时,依然有力不从心的地方。

车载场景的特殊性还在于:不大可能跑百亿参数以上的大模型,存储成本撑不住。中核心加小核心的组合,或许是比较务实的应对方式。

小米的玄戒做汽车座舱芯片,技术上没有障碍;吉利、比亚迪、Momenta 的自研芯片项目,大概率也在推进中。

唯有传统车厂,依然秉持能外采绝不自研的逻辑。

这无可厚非,只是在模型范式加速切换的当下,这个原则面临越来越大的压力。

自动驾驶芯片真正难的,从来不是把芯片造出来。

而是今天就要押中,五年后 AI 会长成什么样子。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 第五代 芯片 供应商 cnn
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论