雷锋网新智驾 03-27
vivo胡柏山:在焦虑的AI时代,交一份最“冷静”的答案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

从 2023 年开始,三年时间,中国科技产业开启了所谓的 " 大模型狂飙时代 "。

自 ChatGPT 引爆全球 AI 热潮以来,中国科技行业迅速陷入了一场前所未有的集体焦虑。从互联网巨头到传统制造业,从手机厂商到汽车新势力,都试图与 " 大模型 " 或 " 生成式 AI" 概念建立关联,参数规模从千亿跃升至万亿,战略合作的签署仪式频繁见报。

DeepSeek 的爆火恰好再次印证了这一观点,在行业落地方向尚未明确时,各行各业均选择了 " 先上车后补票 " 的方式乘上这趟 " 快车 "。

不可否认的是,AI 是现今科技产业最重要的发展方向之一,但在这场集体性的非理性繁荣中,冷静思考变成了一件奢侈的事,毕竟没有人愿意被贴上 " 错过 AI 时代 " 的标签,哪怕这种焦虑的来源本身就是对技术变革的过度反应。

今年春节开始,OpenClaw 又掀起了一阵 AI 热潮,只是在短暂的繁荣后,热度又开始悄然退下。这是每一个新技术的终局,同样也是对技术浮躁、焦虑的代价。如何让 AI 理解世界、理解用户、理解任务,这些基础问题仍没有人做出回答。

这是一个需要长期投入、难以短期变现、无法靠发布会解决的问题。正因如此,大多数企业选择回避,转而将资源投入到更具传播效应的 " 追热点 " 策略中。

vivo 是少数选择正面回答这个问题的企业。

2026 年 3 月,博鳌亚洲论坛。vivo 总裁、首席运营官胡柏山在演讲中明确表示:" 我们把核心资源聚焦在端侧 AI 和产业链协同,思考用户在 AI 时代真正需要什么样的体验。"

这番表述可以视为一家成熟企业对技术趋势的理性判断。

如果我们仔细审视 vivo 过去五年的技术布局和战略选择,会发现这家企业正在下一盘远比 " 发布大模型 " 更为深远的大棋:感知能力赛道。

感知能力,是 vivo 对 "AI 时代竞争核心 " 这个问题的回答。

感知能力为什么是 AI 时代的竞争核心?

" 在未来 AI 时代,算力、模型能力不具备差异化 "。胡柏山的判断,也是 vivo 感知战略的决策基础。

在 vivo 看来,随着芯片工艺持续进步和模型架构不断优化,算力和模型能力将会供应链化,每个手机厂商都有更多选择权,不再构成竞争壁垒,而这一点也正在被行业验证。

2024 年至 2026 年间,联发科、高通、苹果、三星等主流芯片厂商的旗舰 SoC 在 AI 算力上持续快速提升。与此同时,高通骁龙系列、苹果 A 系列的自研神经网络引擎也在同步演进。这意味着,端侧 AI 的算力基础正在快速走向同质化。

在模型层面,开源社区的贡献同样不可忽视。Meta 的 Llama 系列、Google 的 Gemma 系列、阿里云的 Qwen 系列等开源大模型,已经能够提供接近闭源模型的性能表现,且授权费用极低。对于手机厂商而言,基于开源模型进行微调,正在成为一条可行的技术路径。

一个逻辑是,当算力和模型都不再是稀缺资源,企业就必须寻找新的差异化方向。vivo 给出的答案是:以影像为基础,构建 AI 落地物理世界的视觉感知中枢。

今年开始,vivo 内部就已经对感知赛道进行立项,核心是把视觉、听觉、触觉等感知,通过传感器加以感知大模型,转化成 AI 想要得到的物理世界的信息。

所谓 " 数字世界连接物理世界 ",指的便是 AI 理解、分析、处理物理世界信息的能力。一张图片中的光影关系、一段视频里的空间结构、用户脸上的情绪变化。这些物理世界的感知信息,需要被 AI" 翻译 " 成可理解、可分析、可决策的数字信号。

胡柏山的看法是:真正的差异化,在于谁数字世界连接物理世界的能力越强,谁就越 ' 聪明 '。而这恰巧是 vivo 的强项所在,过去十年,vivo 在影像上做了巨大投入,除了让照片变得更好看,同样也是在建立一套完整的物理世界感知系统。

这套感知系统的技术架构,包含三层架构:

第一层是光学系统——镜头光学设计、镀膜工艺、光学防抖等技术,决定了 " 看得到 " 的边界。vivo 与蔡司的深度合作,正是这一层的战略投资,双方持续在光学设计、镀膜工艺、色彩科学等领域深化合作。

第二层是成像处理—— ISP 算法、HDR 融合、多帧降噪、色彩科学等技术,决定了 " 看得清 " 的能力。vivo 自研的 V3 影像芯片,专门针对这一层进行了算力优化。V3 采用了先进的 6nm 制程工艺,AI 算力相比前代提升 40%,能够支持 4K 级别的实时画面增强。

第三层是感知理解——场景识别、语义分割、空间建模、情绪感知等 AI 能力,决定了 " 看得懂 " 的深度。这是 vivo 感知战略的核心差异化所在。在这一层,vivo 的蓝心大模型矩阵发挥着关键作用。蓝心大模型是 vivo 自主研发的多模态 AI 模型系列,能够对图像和视频内容进行深度理解,识别物体、场景、关系、情绪等多维信息。

三层能力的叠加,使 vivo 的手机成为一台真正意义上的 " 物理世界感知终端 "。当用户举起手机拍照时,不仅在记录一个瞬间,更是在让 AI" 观察 " 和 " 理解 " 当前的物理场景。

这种感知能力的长期价值,远超一款手机的功能升级。vivo 认为,当未来 AI 真正深入到千行百业时,具备强大感知能力的终端将成为最重要的数据入口,这也意味着感知能力赛道的竞争,已经悄然开始。(雷峰网)

vivo 的 Agent Phone 蓝图

在博鳌亚洲论坛,胡柏山指出—— Smart Phone 将进化成 Agent Phone。

什么是 Agent Phone?用 vivo 的理解,这是一种能够主动理解用户需求、自动完成任务、智能调度服务的下一代智能手机。

这与 " 智能手机 " 有着本质区别。智能手机的核心是 " 工具 ":人使用手机来处理任务、获取信息,手机始终处于 " 被动响应 " 的状态。但 Agent Phone 的核心是 " 伙伴 ":手机主动感知环境、理解需求、预判行动,成为真正懂你的智能代理。

这个转变的关键驱动力,依然是感知能力。

当前智能手机的交互逻辑,本质上是 " 输入 - 反馈 " 模式:用户发出指令,手机执行并返回结果。整条交互链路是离散的、事件驱动的。但 Agent Phone 的交互逻辑将是 " 感知 - 理解 - 行动 ":手机持续感知环境和用户状态,在后台构建对当前场景的深度理解,然后主动提供最合适的响应和服务。

vivo 对于 Agent Phone 有着超前的理解,但距离落地仍有许多现实问题需要解决。

首先是意图理解,手机需要从用户的模糊表述甚至无表述行为中,准确推断用户的真实意图。这要求端侧 AI 具备强大的上下文理解能力和长程记忆能力,能够综合用户的历史行为、当前位置、时间状态、日程安排等多维信息进行综合判断。

其次是任务规划能力,当确认用户意图后,手机需要自动拆解任务步骤、调用相关 App 和数据、在后台完成复杂操作流程,并在必要时向用户确认关键决策。这需要手机具备跨 App、跨服务的任务编排能力。

最后是隐私边界问题,在 vivo 看来这是不可逾越的底座。主动服务意味着手机需要持续感知和分析用户状态,Agent Phone 需要在隐私保护和服务能力之间找到平衡点,做到既能提供足够智能的服务,又要确保用户对数据的控制权。

vivo 的解法是将感知和推理过程尽可能保留在端侧。胡柏山透露,vivo 正在与芯片厂商、算法公司、学术机构深度合作,共同定义面向端侧 AI 的新一代算力架构。" 单靠手机厂商自己做不了端侧 AI,必须拉着产业链一起做。"

与 Arm 建立联合实验室,与联发科从底层硬件到软件的多层面联合研发 , 包括性能、AI、影像、游戏、通讯还有多媒体等各个领域;而在学术层面,vivo 与清华大学、北京大学、上海交通大学等高校建立了深度合作关系,在端侧 AI 的基础研究上持续投入。

Agent Phone 的底层支撑,是端侧 AI 的意图理解能力和感知系统对环境的实时建模。两者的结合,使手机能够在本地完成对用户需求的理解、规划和执行,既保证了响应速度,又保护了用户隐私。

vivo 在博鳌论坛上宣布,搭载相机 Agent 能力的新一代旗舰机型 X300 Ultra 与 X300s 即将发布。除了专业的影像能力进一步提升,从某种程度来说,这也是 Agent Phone 的阶段性成果展示。

但胡柏山明确表示,Agent Phone 只是起点,不是终点。

"X300 Ultra 会展示 Agent Phone 的核心能力,但它还不是终极形态。" 他在专访中透露," 真正的 Agent Phone 需要感知能力、端侧 AI、IoT 生态的完整配合,这需要一个更长的建设周期。"

在 vivo 的战略蓝图里,感知能力的价值远不止于手机。

用感知,成为 IoT 生态的 " 眼睛 "

在 vivo 的生态蓝图里,手机不是终点,而是起点。用胡柏山的话:" 以影像 +AI 构建的视觉感知中枢,可以升级为 IoT 生态的视觉感知中枢。"

在 vivo 看来,IoT 行业有着难以解决的问题,单个智能化设备的感知过于片面,最终导致这些设备都缺乏一个共同的 " 感知中枢 " 来整合多维信息、构建统一理解。vivo 认为,手机可以承担这个角色。

当手机具备强大的视觉感知能力,它可以成为 IoT 生态的 " 眼睛 " ——通过与各类 IoT 设备的互联互通,汇聚来自不同维度、不同位置、不同视角的感知信息,形成对用户生活场景的完整理解。

" 你的手机看到你在客厅,它就知道你的电视、音箱、空调应该怎么调整。" 胡柏山举例道," 但这只是第一步。未来,手机的感知能力会延伸到更多品类,让更多设备 ' 看见 ' 这个世界。"

这种 " 感知延伸 " 的战略,需要新的产品形态作为载体。

去年,vivo 成立了机器人 Lab,其成员来自无人机、计算机视觉、自动控制、机械工程等多个领域,研究包括室内环境的三维重建、动态障碍物的识别与规避、人体姿态的精细感知等核心技术。

而这个机器人实验室的首要目标并非打造一款面向 C 端的消费级机器人,而是专注于感知能力的技术突破,

"vivo 做机器人,核心还是围绕感知能力。" 胡柏山表示,手机积累的影像技术、AI 算法、人机交互理解,都会成为机器人的基础。但更重要的是,机器人会成为 vivo 感知生态的延伸,让 vivo 在更多场景、更大范围内建立感知优势。

这种感知能力的生态外溢,最终将超出消费电子的边界。

" 感知能力的价值,在于它能为多少行业创造多少价值。" 胡柏山说到," 这是 vivo 作为一家中国科技企业,应该承担的产业责任。"

这种产业责任的承担,需要长期投入和战略定力作为支撑,而 vivo 的感知战略,本质上就是一场关于 " 长期主义 " 的实践。

这条路线的代价是沉重的。感知能力的构建需要五年、十年的持续投入,短期内难以看到显著回报。当竞争对手靠 " 追热点 " 收割流量和资本时,vivo 必须承受战略定力带来的寂寞。当友商不断发布 " 震撼业界 " 的新产品时,vivo 只能埋头做技术攻关。

但 vivo 选择相信:时间会犒赏那些愿意下笨功夫的企业。在博鳌论坛上,胡柏山引用了老子《道德经》中的一句话:" 企者不立,跨者不行 ",vivo 的每一步,都走得扎实。

在行业普遍焦虑的时代,保持战略定力本身就是一种稀缺能力。当 AI 时代真正进入深水区,vivo 在感知能力上的长期积累,将成为它最坚实的壁垒。

这是 vivo 的押注,也是它的底牌。(雷峰网)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

vivo ai时代 ai 胡柏山 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论