本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议
过去一周,中国 AI 领域接连发生的两件事,形成了一组微妙的对应:字节跳动率先推出可实际体验的 " 豆包 AI 手机 ",让人工智能大模型得以直接操控设备;紧接着,智谱宣布开源 AutoGLM,相当于把 " 用 AI 操作手机 " 这项能力向所有人开放。
然而,新技术的亮相,迅速演变为一场远超预期的争议。
风暴的中心,正是那台 " 豆包 AI 手机 " ——这款将大模型能力深植于操作系统底层的工程样机 " 努比亚 M153",甫一问世,便遭遇微信、淘宝、美团等超级应用,以及多家高敏感度银行应用的联手抵制:或被拒绝登录,或被持续弹出安全警告。
争议的焦点,也随之从对 AI 功能的惊叹,迅速转向其依赖的高系统权限(INJECT_EVENTS)所引发的隐私安全忧虑,乃至更深层的商业模式冲击。一场关于技术边界、数据主权与商业利益的激烈辩论,就此爆发。
相较于此前被舆论放大的商业竞争叙事,我更愿意从程序员的视角,探寻这场交锋背后的深层逻辑与潜在含义。
这让我想起了 "Python"
谈到 "AI 手机 "(或称 AI 手机助手),我第一个联想到的,就是Python。
提起 Python,许多人都不会陌生。1989 年圣诞节,荷兰程序员 Guido van Rossum 因不满 C 语言之繁琐、Shell 脚本之简陋,在闲暇之余创制了这门兼具功能完整与语法简洁的新脚本语言。
此后,Python 并未选择与 C++ 竞逐性能,而是独辟蹊径,将 " 开发效率 " 奉为核心。在摩尔定律持续生效的年代,程序员的时间成本逐渐超越机器时间,Python 恰好押中了未来:让人更好用,比让机器好用更有价值。
当然,C++ 作为经典编程语言并未因此失色。本质上,Python 作为解释型语言运行效率并不高,但其最擅长的,正是调用 C/C++ 编写的库。面对高性能任务时,用 C++ 完成底层实现,再封装为 Python 接口,便能以一行 Python 代码调动数千行 C++ 逻辑。
随着近年人工智能的兴起,Python 更成为深度学习框架 TensorFlow 与 PyTorch 的首选接口——想做 AI,几乎绕不开 Python。
回看 AI 手机所做之事,与 Python 的思路高度相似:
Python 的逻辑是:C++ 写起来太麻烦,我用简单的 API 在底层调用它。
AI 手机的逻辑则是:App 操作太繁琐,我用自然语言在底层模拟点击、串联服务。
对普通用户而言,AI 手机的核心价值在于省时与提效——这与 Python 的定位高度契合。Python 不与 C++ 比拼性能,而是通过简洁的接口调用底层复杂功能,最终成为连接人类逻辑与机器算力的桥梁。
但两者的生态命运却截然不同:Python 与 C++ 形成了经典的共生关系:C++ 开发者乐于让自己的库被 Python 调用,从而扩大影响力;豆包手机助手面临的,却是 " 生态抵抗 " ——微信、淘宝等应用不愿被 AI 直接调用,如同要求用户 " 必须亲手写 C++",手动点击、观看广告。
当深度学习的需求从服务器蔓延至手机,即便是 C++、Java 这样的语言,也不得不为 Python 的易用性让路。
AI 手机未必能成为移动领域的 Python,但 "Python 式 " 的演进方向——让人更便捷地调动底层能力——已是清晰可见的趋势。编程语言的演进早已揭示方向:技术的终极善意,是让人做得更少,而非更多。
我们眼前正在发生的,不仅是一款新工具的出现,也不仅是字节与腾讯们的商业博弈,而是从 " 打开一个个 App" 到 "AI 串联生成所有功能 " 的移动互联网范式迁移。
因此,这场争议远不止于技术或商业竞争,本质上是 "AI 代理 " 新范式与 "App 中心化 " 旧秩序之间的激烈碰撞。我们目睹的,正是从 " 打开应用 " 到 "AI 生成服务 " 的范式转移前夜。
AI 手机的 "Python 之困 "
如果说 Python 的成功源于与底层生态(C++ 库)的和谐共生,那么豆包手机助手眼下正深陷 "Python 之困 " ——它急需调用的 " 库 "(各类 App)并不愿被轻易 " 导入 "。
实现跨应用自动化的核心技术之一,是获取 Android 系统的 INJECT_EVENTS
(注入事件)权限。这一权限允许应用模拟用户的触摸与点击,堪称系统级的 " 上帝之手 ",也随即引发了用户对隐私与资金安全的强烈担忧:一个拥有如此高阶权限的 AI,是否可能失控?
尽管豆包官方多次声明所有操作需经用户明确授权,敏感环节(如支付)会暂停并交由用户手动完成,且承诺数据不用于训练,但疑虑并未全然消散——用户未必总是在充分理解后果的情况下授权,也难以实时监控 AI 的每一步行动。
更深层的阻力,源自商业利益的根本冲突。
互联网平台的 " 护城河 ",正是建立在用户必须打开 App 这一行为之上。AI 助手绕过应用界面、直接调用服务,无异于架空应用的流量入口与交互价值。这已不是简单的功能竞争,而是 " 入口控制权 " 与 " 数据主权 " 的争夺。
一言以蔽之,AI 手机助手触动的,是互联网商业模式的根基。因此,各大应用的 " 封堵 " 绝非偶然。
作为对排山倒海而来的阻力的应对,豆包已于 12 月 5 日宣布对 AI 操作能力进行规范化调整,暂时下线金融、支付类应用的操作能力,并限制刷分、刷激励及部分游戏场景。这既是对安全关切的回应,也是在生态摩擦下的阶段性妥协。
更大可能的演进逻辑
如果说字节发布的 " 豆包手机助手 " 是对 App 城墙发起的一次 " 奇袭 ",那么智谱开源 AutoGLM,则无异于在关键时刻,向战场投下了一把更具普惠性的 " 攻城锤 "。
事实上,智谱此举并非首次尝试。AutoGLM 项目已持续演进一年有余,其早期形态依赖 " 云手机 " 环境,功能已与豆包助手相似。
此次开源虽未引发同等规模的商业震动,但从技术演进的角度看,其意义或许更为深远。
字节的路径是 " 单点突破 ",而豆包手机助手所遭遇的封禁,也印证了这种路径在当下生态中的局限——超级应用能够通过点对点的防御轻易化解。但开源,却可能发挥出 " 分布式 " 的力量。
一个有技术能力的学生,即可下载代码、进行微调并部署于自己的设备中;更不必说大量开发者与公司,正等待在城墙松动时分得一杯羹。这不再是单次进攻,而是一场可能多点开花的 " 渗透战 "。
技术史上不乏相似的情节。2001 年,微软时任 CEO 史蒂夫 · 鲍尔默曾将 Linux 称为 " 癌症 ",并试图遏制其发展。然而,抵抗的结果并非开源技术的消亡,而是微软最终全面拥抱 Linux。当一项技术摆脱单一产品的形态,成为一种开放、普适的生态基础时,封闭体系便难以仅靠 " 封杀 " 来固守。
如今的 AI 手机助手,正面临相似的关口。一旦它从某个公司的 " 功能 " 进化为开发者皆可参与建设的 " 通用能力 ",现有应用生态将面临根本性的挑战。尽管 " 安全性 " 始终是合理的质疑焦点,但其作为防御理由的边际效应可能递减——进入互联网时代以来,人们早已在诸多场景中,为便利而让渡了部分隐私。
短期内,视觉识别(CV)与多模态模型的持续进化,仍将为 AI 助手提供绕过 API 封锁的技术路径。长期看,更优雅的解决方案或许是走向类似 MCP 的标准化接口,让 App 将核心功能封装为安全的 " 能力组件 " 供 AI 调用。然而,让各大平台自愿开放接口,注定是一场漫长的博弈。
因此,最具可行性的 " 下一代 Python",或许将内生于操作系统本身。无论是 iOS、Android 还是 HarmonyOS,由系统提供原生的 AI 代理服务,在权限管理与生态协调上具备天然优势。
主流手机厂商也早已将自研 AI 助手定为核心战略,系统层的 AI 主导权之争,实则早已悄然展开。
终局胜利属于谁?
Python 没有取代 C++,App 也不会被 AI 助手完全取代。
短期来看,博弈仍将继续。腾讯、阿里等巨头完全有能力——且正在推进——开发各自的 " 微信助手 "、" 淘宝助手 ",在生态内部提升自动化体验。然而,这类 " 各扫门前雪 " 的策略,难以孕育出那个能够连接一切的 "Python"。
技术演进的常见结局,是能力的下沉与融合:复杂功能被封装成简洁接口,从而催生新的产业层级与协作规则。
真正的 "Python",将是那个在技术可能性、商业利益与用户权益之间找到最佳平衡的 " 连接器 "。它可能源自开源社区的集体智慧,也可能诞生于操作系统厂商的顶层设计,但必然建立在行业广泛接受的协议与标准之上。
据称,相关行业机构已开始探讨制定相关标准,强调 " 双重授权 " 等原则,这预示着 AI Agent 的发展正从 " 野蛮生长 " 转向 " 规范发展 "。我们正站在交互范式切换的隘口,争议、冲突与妥协,都是必经之路。
历史不会重复,却常押着相似的韵脚。
豆包手机助手与 AutoGLM 开源所引发的这场风波,或许正是这个时代更为复杂的 "Python 故事 " 跌宕起伏的开篇。最终,胜利不会归于任何单一公司,而将属于那个能让技术善意、商业理性与用户价值协同演进的新规则。
转载开白 | 商务合作 | 内容交流
请添加微信:jinduan008
添加微信请备注姓名公司与来意


登录后才可以发布评论哦
打开小程序可以发布评论哦