【CNMO 科技消息】11 月 5 日,小鹏 " 科技日 " 正式举行。本届科技日以 " 涌现(Emergence)" 为主题正式发布了第二代 VLA 视觉语言动作大模型。该系统以视觉为核心,融合语言理解与动作生成,不仅能大幅提升感知与推理效率,更能实现从 " 感知智能 " 到 " 决策智能 " 的跨越,被小鹏定义为 " 不仅是 VLA 大模型,更是世界模型 "。
何小鹏称,第二代 VLA 以视觉信号为主要输入,通过近 1 亿段视频片段进行训练,数据量相当于一个人驾驶 65000 年所经历的极端场景总和。该系统通过 " 理解 - 推演 - 生成 " 的闭环机制,显著降低信息传递中的损耗,实现更高效率的推理与更快的响应速度。小鹏强调,VLA 2.0 的突破在于其 " 世界模型 " 属性,能够模拟物理世界的运行规律,从而在面对复杂路况时做出更接近人类驾驶员的判断与决策。
在此处添加图片标题
在硬件与算法层面,小鹏完成了从芯片、算子到模型的全栈自研与协同优化。其中,图灵 AI 芯片能实现 3 至 22 倍的性能提升;针对性优化算子效率提升 12 倍;VLA 2.0 模型训练与推理效率提升 10 倍。
除了基础驾驶决策,VLA 2.0 还展现出 " 智能涌现 " 的新功能,例如手势识别。车辆可识别用户手势指令,实现 " 招手即停 " 等互动操作,显示出 AI 在理解非结构化指令方面的进步。
何小鹏还在科技日上宣布基于 VLA 2.0 的 " 小路 NGP"(Narrow Road NGP)即将上线,实现从高速、城市道路到园区小路的全程无缝衔接。系统在复杂小路场景下的平均接管里程提升 13 倍,用户将有望实现 " 每月仅 1 次接管 " 的高阶智驾体验,真正接近 " 车位到车位 " 的全场景贯通。
此外,小鹏在科技日上提出 " 物理 AI" 概念,强调人工智能不仅限于数字世界,更应具备与物理世界实时交互的能力。VLA 2.0 正是这一理念的落地体现,它通过视觉与语言的联合建模,让机器具备了对真实环境的 " 认知 - 预测 - 生成 " 能力。
值得一提的是,何小鹏宣布,第二代 VLA 面向全球商业伙伴进行开源。


登录后才可以发布评论哦
打开小程序可以发布评论哦