[ 首发于智驾最前沿微信公众号 ] 在自动驾驶的技术路径中,纯视觉一直是非常重要的方向,在之前的内容中,我们探讨过小鹏汽车转向纯视觉的技术底气,还聊过特斯拉 FSD V14.3 的升级。同样作为纯视觉智驾,小鹏和特斯拉在技术上有区别吗?
端到端是唯一解吗?
纯视觉方案需要解决的,是如何从二维图像中还原三维世界的信息,再据此做出驾驶决策。传统做法是把任务拆成感知、预测、规划、控制等多个独立模块,各模块之间会传递处理好的数据。这种方式结构清晰、便于调试,但每个环节都不可避免地会丢失一些原始信息,而且需要工程师为各种场景逐一编写规则,面对数不清的异常路况,规则是永远写不完的。随着技术提升,端到端方案得到了应用,在特斯拉和小鹏的纯视觉方案中,都不约而同地使用了端到端。

图片源自:网络
特斯拉在 FSD V12 上就率先做了减法,它把感知到控制的整个流程整合进一个统一的神经网络,从摄像头画面输入到方向盘、刹车指令输出,全部由一个模型完成。这相当于跳过了所有中间环节,让模型直接从海量驾驶视频中学习看到什么该怎么开。V13 之后,特斯拉又在模型中引入了时序处理能力,让车辆能记住过去十几秒内周围物体的运动轨迹,即便行人暂时被遮挡,系统也能根据消失前的速度和方向推断其当前位置和意图。
小鹏则走了一条不同的路,它的端到端方案由三个独立训练的神经网络协同工作,即 XNet 负责视觉感知,XPlanner 负责轨迹规划,大语言模型 XBrain 负责场景理解与决策,三者各有分工,通过内部接口串联在一起。这种设计的优势在于每个模块可以独立优化,排错更简单,而且 XBrain 能利用语言模型的泛化能力来处理潮汐车道、ETC 车道、路牌文字等不常见的场景。
到了 2025 年底,小鹏又向前迈了一步,它发布的第二代 VLA(视觉 - 语言 - 动作)大模型放弃了此前多模块串联的中间环节,直接让视觉信号生成驾驶动作指令,从架构形式上向特斯拉的一段式端到端靠拢。不过,两者在世界模型这个核心概念上的理解仍然不同,这是下一个要讨论的问题。

同一个词,两种理解
世界模型是当前自动驾驶领域的重要技术方向,所谓世界模型,指的是系统在做出驾驶决策前,先在内部构建一个对道路环境的理解。特斯拉和小鹏都在做这件事,但实现方式有明显区别。
特斯拉的方式更隐式,在 FSD 的内部,占用网络(Occupancy Network)将车身周围的三维空间切成无数细小的立方体,神经网络逐一判断每个立方体是否被物体占据、是否在移动、属于哪一类物体。这套方法最核心的优势是不依赖物体识别,无论前方是标准车辆还是侧翻的货车、散落的货物,只要是空间中的实体,都会被标记出来。

2025 年特斯拉又申请了更高精度的占用网络专利,把空间划分从约 30 厘米一格细化到约 10 厘米一格,在停车场等低速场景能对地面标记、车位线等细节做更精确的重建。这些空间信息直接参与端到端模型的决策过程,对驾驶员来说是不可见的中间状态。
小鹏则提出了物理世界大模型的概念,它的第二代 VLA 不仅能输出驾驶动作,还能对环境进行显式建模,生成世界模型表征。小鹏强调这是一套原生多模态的大模型,能同时处理视觉、听觉和文字信息,跨域应用于汽车、机器人和飞行汽车。在性能指标上,该模型参数达 720 亿,训练数据接近 1 亿个视频片段,每 5 天完成一次全链路迭代。配合自研的图灵 AI 芯片和定制化编译器,模型在车端的推理效率提升了 12 倍。
简单理解,特斯拉的世界模型更像神经网络的内部状态,是决策的中间产物;而小鹏则试图把世界模型变成一个可以跨任务复用的通用底层能力。
看得更远,还是看得更细
感知是纯视觉方案的基础,小鹏和特斯拉在技术架构上都采用了 BEV(鸟瞰视角)+Transformer 的方案,即先把多路摄像头的画面融合成一个从俯视角度理解的三维空间,再在此基础上做决策,不过两者在细节实现上存在差异。
特斯拉长期使用 8 颗摄像头实现车身 360 度覆盖,输入分辨率在 AI4 硬件上达 36Hz 全分辨率。占用网络的体素判断让系统不依赖事先定义的白名单来辨认障碍物,通用性很强。
小鹏在感知精度上则做了有针对性的强化,其 AI 鹰眼视觉方案采用 Lofic 技术摄像头,能在暗光、逆光等场景获得更清晰的成像。它量产的 2K 纯视觉占用网络用超过 200 万个网格重构三维空间,建模精度达 5 立方厘米 / 体素。相比特斯拉当前约 30 厘米的体素分辨率,小鹏在感知细节上更加精细,可以区分道路上的裂缝和坑洼。

此外,小鹏的 XNet 架构整合了动态 BEV、静态 BEV 和占用网络三套体系,在统一的框架下同时处理运动物体的预测、静态环境的结构理解和空间的占位判断。相比之下,特斯拉的动态物体预测和静态占用判断分别由占用网络内部的不同输出维度承担,并非三套独立网络,但在功能覆盖面上大致对应。
数据驱动的两种策略
数据和算力是纯视觉方案的生命线,所有技术架构的差异最终都要靠数据来体现效果。
特斯拉的优势在于数据规模,截至 2024 年底,FSD 累计行驶里程已超过 20 亿公里,远高于同类系统。它的车队在全球多个地区行驶,能接触到差异化的交通环境和边缘场景。
在训练策略上,特斯拉近年做了重要调整,它构建了一个云端世界模型来批量生成合成驾驶数据,再将合成数据与一定比例的真实道路数据混合,用于训练新的 FSD 模型。这种做法能快速覆盖现实中难以遇到的极端天气、罕见事故形态等长尾场景,也为后续 AI5/AI6 芯片实现训练与推理一体化的分布式计算平台提供了支撑。

小鹏的累积里程则相对较少,但迭代速度很快,依赖折算超过 10 亿公里的视频训练数据,它的端到端模型能做到约 2 天迭代一次。第二代 VLA 的视觉数据总量约 50PB,每秒处理约 53 亿字节的信息。
有一点需要提一下的是,小鹏的模型专注于中国道路场景,对人车混行、非机动车穿行、狭窄街道等复杂路况有更深度的训练覆盖。实际路测显示,第二代 VLA 在窄路、复杂博弈等中国特有场景下的稳定性和处理能力已展现出局部优势。
相比之下,特斯拉尽管在上海建有数据中心,但核心算法仍由北美团队主导,在中国开放的实际迭代速度落后于北美版本,在面对外卖骑手穿行、复杂混合车道等场景时还存在适应性不足的问题。
最后的话
概括下这两家纯视觉方案的区别,特斯拉是一个高度一体化的神经网络,用海量的全球化数据和极简的架构来让模型自己学会驾驶,世界模型内嵌于神经网络的权重之中;小鹏则是从模块化出发逐步收敛到更统一的架构,在感知精度上做得更精细,并以中国道路的复杂场景为核心进行深度优化,同时试图把世界模型打造成一个可复用的通用能力层。两条路线在技术底层上正在趋近,但架构上仍然各具特色。


登录后才可以发布评论哦
打开小程序可以发布评论哦