vivo胡柏山：在焦虑的AI时代，交一份最“冷静”的答案

从 2023 年开始，三年时间，中国科技产业开启了所谓的 " 大模型狂飙时代 "。

自 ChatGPT 引爆全球 AI 热潮以来，中国科技行业迅速陷入了一场前所未有的集体焦虑。从互联网巨头到传统制造业，从手机厂商到汽车新势力，都试图与 " 大模型 " 或 " 生成式 AI" 概念建立关联，参数规模从千亿跃升至万亿，战略合作的签署仪式频繁见报。

DeepSeek 的爆火恰好再次印证了这一观点，在行业落地方向尚未明确时，各行各业均选择了 " 先上车后补票 " 的方式乘上这趟 " 快车 "。

不可否认的是，AI 是现今科技产业最重要的发展方向之一，但在这场集体性的非理性繁荣中，冷静思考变成了一件奢侈的事，毕竟没有人愿意被贴上 " 错过 AI 时代 " 的标签，哪怕这种焦虑的来源本身就是对技术变革的过度反应。

今年春节开始，OpenClaw 又掀起了一阵 AI 热潮，只是在短暂的繁荣后，热度又开始悄然退下。这是每一个新技术的终局，同样也是对技术浮躁、焦虑的代价。如何让 AI 理解世界、理解用户、理解任务，这些基础问题仍没有人做出回答。

这是一个需要长期投入、难以短期变现、无法靠发布会解决的问题。正因如此，大多数企业选择回避，转而将资源投入到更具传播效应的 " 追热点 " 策略中。

vivo 是少数选择正面回答这个问题的企业。

2026 年 3 月，博鳌亚洲论坛。vivo 总裁、首席运营官胡柏山在演讲中明确表示：" 我们把核心资源聚焦在端侧 AI 和产业链协同，思考用户在 AI 时代真正需要什么样的体验。"

这番表述可以视为一家成熟企业对技术趋势的理性判断。

如果我们仔细审视 vivo 过去五年的技术布局和战略选择，会发现这家企业正在下一盘远比 " 发布大模型 " 更为深远的大棋：感知能力赛道。

感知能力，是 vivo 对 "AI 时代竞争核心 " 这个问题的回答。

感知能力为什么是 AI 时代的竞争核心？

" 在未来 AI 时代，算力、模型能力不具备差异化 "。胡柏山的判断，也是 vivo 感知战略的决策基础。

在 vivo 看来，随着芯片工艺持续进步和模型架构不断优化，算力和模型能力将会供应链化，每个手机厂商都有更多选择权，不再构成竞争壁垒，而这一点也正在被行业验证。

2024 年至 2026 年间，联发科、高通、苹果、三星等主流芯片厂商的旗舰 SoC 在 AI 算力上持续快速提升。与此同时，高通骁龙系列、苹果 A 系列的自研神经网络引擎也在同步演进。这意味着，端侧 AI 的算力基础正在快速走向同质化。

在模型层面，开源社区的贡献同样不可忽视。Meta 的 Llama 系列、Google 的 Gemma 系列、阿里云的 Qwen 系列等开源大模型，已经能够提供接近闭源模型的性能表现，且授权费用极低。对于手机厂商而言，基于开源模型进行微调，正在成为一条可行的技术路径。

一个逻辑是，当算力和模型都不再是稀缺资源，企业就必须寻找新的差异化方向。vivo 给出的答案是：以影像为基础，构建 AI 落地物理世界的视觉感知中枢。

今年开始，vivo 内部就已经对感知赛道进行立项，核心是把视觉、听觉、触觉等感知，通过传感器加以感知大模型，转化成 AI 想要得到的物理世界的信息。

所谓 " 数字世界连接物理世界 "，指的便是 AI 理解、分析、处理物理世界信息的能力。一张图片中的光影关系、一段视频里的空间结构、用户脸上的情绪变化。这些物理世界的感知信息，需要被 AI" 翻译 " 成可理解、可分析、可决策的数字信号。

胡柏山的看法是：真正的差异化，在于谁数字世界连接物理世界的能力越强，谁就越 ' 聪明 '。而这恰巧是 vivo 的强项所在，过去十年，vivo 在影像上做了巨大投入，除了让照片变得更好看，同样也是在建立一套完整的物理世界感知系统。

这套感知系统的技术架构，包含三层架构：

第一层是光学系统——镜头光学设计、镀膜工艺、光学防抖等技术，决定了 " 看得到 " 的边界。vivo 与蔡司的深度合作，正是这一层的战略投资，双方持续在光学设计、镀膜工艺、色彩科学等领域深化合作。

第二层是成像处理—— ISP 算法、HDR 融合、多帧降噪、色彩科学等技术，决定了 " 看得清 " 的能力。vivo 自研的 V3 影像芯片，专门针对这一层进行了算力优化。V3 采用了先进的 6nm 制程工艺，AI 算力相比前代提升 40%，能够支持 4K 级别的实时画面增强。

第三层是感知理解——场景识别、语义分割、空间建模、情绪感知等 AI 能力，决定了 " 看得懂 " 的深度。这是 vivo 感知战略的核心差异化所在。在这一层，vivo 的蓝心大模型矩阵发挥着关键作用。蓝心大模型是 vivo 自主研发的多模态 AI 模型系列，能够对图像和视频内容进行深度理解，识别物体、场景、关系、情绪等多维信息。

三层能力的叠加，使 vivo 的手机成为一台真正意义上的 " 物理世界感知终端 "。当用户举起手机拍照时，不仅在记录一个瞬间，更是在让 AI" 观察 " 和 " 理解 " 当前的物理场景。

这种感知能力的长期价值，远超一款手机的功能升级。vivo 认为，当未来 AI 真正深入到千行百业时，具备强大感知能力的终端将成为最重要的数据入口，这也意味着感知能力赛道的竞争，已经悄然开始。（雷峰网）

vivo 的 Agent Phone 蓝图

在博鳌亚洲论坛，胡柏山指出—— Smart Phone 将进化成 Agent Phone。

什么是 Agent Phone？用 vivo 的理解，这是一种能够主动理解用户需求、自动完成任务、智能调度服务的下一代智能手机。

这与 " 智能手机 " 有着本质区别。智能手机的核心是 " 工具 "：人使用手机来处理任务、获取信息，手机始终处于 " 被动响应 " 的状态。但 Agent Phone 的核心是 " 伙伴 "：手机主动感知环境、理解需求、预判行动，成为真正懂你的智能代理。

这个转变的关键驱动力，依然是感知能力。

当前智能手机的交互逻辑，本质上是 " 输入 - 反馈 " 模式：用户发出指令，手机执行并返回结果。整条交互链路是离散的、事件驱动的。但 Agent Phone 的交互逻辑将是 " 感知 - 理解 - 行动 "：手机持续感知环境和用户状态，在后台构建对当前场景的深度理解，然后主动提供最合适的响应和服务。

vivo 对于 Agent Phone 有着超前的理解，但距离落地仍有许多现实问题需要解决。

首先是意图理解，手机需要从用户的模糊表述甚至无表述行为中，准确推断用户的真实意图。这要求端侧 AI 具备强大的上下文理解能力和长程记忆能力，能够综合用户的历史行为、当前位置、时间状态、日程安排等多维信息进行综合判断。

其次是任务规划能力，当确认用户意图后，手机需要自动拆解任务步骤、调用相关 App 和数据、在后台完成复杂操作流程，并在必要时向用户确认关键决策。这需要手机具备跨 App、跨服务的任务编排能力。

最后是隐私边界问题，在 vivo 看来这是不可逾越的底座。主动服务意味着手机需要持续感知和分析用户状态，Agent Phone 需要在隐私保护和服务能力之间找到平衡点，做到既能提供足够智能的服务，又要确保用户对数据的控制权。

vivo 的解法是将感知和推理过程尽可能保留在端侧。胡柏山透露，vivo 正在与芯片厂商、算法公司、学术机构深度合作，共同定义面向端侧 AI 的新一代算力架构。" 单靠手机厂商自己做不了端侧 AI，必须拉着产业链一起做。"

与 Arm 建立联合实验室，与联发科从底层硬件到软件的多层面联合研发 , 包括性能、AI、影像、游戏、通讯还有多媒体等各个领域；而在学术层面，vivo 与清华大学、北京大学、上海交通大学等高校建立了深度合作关系，在端侧 AI 的基础研究上持续投入。

Agent Phone 的底层支撑，是端侧 AI 的意图理解能力和感知系统对环境的实时建模。两者的结合，使手机能够在本地完成对用户需求的理解、规划和执行，既保证了响应速度，又保护了用户隐私。

vivo 在博鳌论坛上宣布，搭载相机 Agent 能力的新一代旗舰机型 X300 Ultra 与 X300s 即将发布。除了专业的影像能力进一步提升，从某种程度来说，这也是 Agent Phone 的阶段性成果展示。

但胡柏山明确表示，Agent Phone 只是起点，不是终点。

"X300 Ultra 会展示 Agent Phone 的核心能力，但它还不是终极形态。" 他在专访中透露，" 真正的 Agent Phone 需要感知能力、端侧 AI、IoT 生态的完整配合，这需要一个更长的建设周期。"

在 vivo 的战略蓝图里，感知能力的价值远不止于手机。

用感知，成为 IoT 生态的 " 眼睛 "

在 vivo 的生态蓝图里，手机不是终点，而是起点。用胡柏山的话：" 以影像 +AI 构建的视觉感知中枢，可以升级为 IoT 生态的视觉感知中枢。"

在 vivo 看来，IoT 行业有着难以解决的问题，单个智能化设备的感知过于片面，最终导致这些设备都缺乏一个共同的 " 感知中枢 " 来整合多维信息、构建统一理解。vivo 认为，手机可以承担这个角色。

当手机具备强大的视觉感知能力，它可以成为 IoT 生态的 " 眼睛 " ——通过与各类 IoT 设备的互联互通，汇聚来自不同维度、不同位置、不同视角的感知信息，形成对用户生活场景的完整理解。

" 你的手机看到你在客厅，它就知道你的电视、音箱、空调应该怎么调整。" 胡柏山举例道，" 但这只是第一步。未来，手机的感知能力会延伸到更多品类，让更多设备 ' 看见 ' 这个世界。"

这种 " 感知延伸 " 的战略，需要新的产品形态作为载体。

去年，vivo 成立了机器人 Lab，其成员来自无人机、计算机视觉、自动控制、机械工程等多个领域，研究包括室内环境的三维重建、动态障碍物的识别与规避、人体姿态的精细感知等核心技术。

而这个机器人实验室的首要目标并非打造一款面向 C 端的消费级机器人，而是专注于感知能力的技术突破，

"vivo 做机器人，核心还是围绕感知能力。" 胡柏山表示，手机积累的影像技术、AI 算法、人机交互理解，都会成为机器人的基础。但更重要的是，机器人会成为 vivo 感知生态的延伸，让 vivo 在更多场景、更大范围内建立感知优势。

这种感知能力的生态外溢，最终将超出消费电子的边界。

" 感知能力的价值，在于它能为多少行业创造多少价值。" 胡柏山说到，" 这是 vivo 作为一家中国科技企业，应该承担的产业责任。"

这种产业责任的承担，需要长期投入和战略定力作为支撑，而 vivo 的感知战略，本质上就是一场关于 " 长期主义 " 的实践。

这条路线的代价是沉重的。感知能力的构建需要五年、十年的持续投入，短期内难以看到显著回报。当竞争对手靠 " 追热点 " 收割流量和资本时，vivo 必须承受战略定力带来的寂寞。当友商不断发布 " 震撼业界 " 的新产品时，vivo 只能埋头做技术攻关。

但 vivo 选择相信：时间会犒赏那些愿意下笨功夫的企业。在博鳌论坛上，胡柏山引用了老子《道德经》中的一句话：" 企者不立，跨者不行 "，vivo 的每一步，都走得扎实。

在行业普遍焦虑的时代，保持战略定力本身就是一种稀缺能力。当 AI 时代真正进入深水区，vivo 在感知能力上的长期积累，将成为它最坚实的壁垒。

这是 vivo 的押注，也是它的底牌。（雷峰网）

宙世代

一起剪

相关标签