传说中的 " 豆包手机 " 终于来了,只不过它并非字节跳动自研的 AI 手机。近日,字节跳动旗下 AI 助手豆包和中兴通讯方面先后宣布,搭载豆包手机助手技术预览版的工程样机努比亚 M153 正式发售。

如果只看努比亚 M153,那么这款手机用平平无奇来形容也不为过。其搭载高通骁龙 8 至尊版主控、采用了 6.78 英寸的 LTPO 屏幕,提供 6000mAh 电池,支持 90W 有线充电和 15W 无线充电,配备 1/1.3 英寸 5000 万像素主摄 +5000 万像素超广角 +5000 万像素长焦组成的后置三摄模组,俨然就是一款国产次旗舰手机。
如果没有搭载豆包手机助手,售价 3499 元的努比亚 M153 或许很难让消费者提起兴趣,那么豆包手机助手能化腐朽为神奇吗?单看字节跳动方面公布的 DEMO,豆包手机助手无疑是一个很有野心的产品,它不是 AI Agent、而是 GUI Agent(图形界面智能体),核心能力是通过视觉理解与自然语言交互来实现自动化操作。

比如,用户只需要通过系统级语音唤醒、机身侧边 AI 键、耳机对话等方式唤醒豆包手机助手,就可以实现全平台比价下单,能够自动遍历淘宝、京东等购物软件,并筛选出最低价格,以及预订餐厅、购买高铁票等操作。
只需动动嘴就能驱使 AI 替自己干活,豆包手机助手描绘的这一幅蓝图确实很有想象空间。乍一看,相比目前友商手机上的 AI,豆包手机助手能做的事情更多。
当下 "AI 手机 " 之所以不太受待见,主要是因为它并没有太多用处,功能也只局限于 AI 生成文案、AI 识图、AIGC 消除、AI 通话摘要、AI 相册整理,相当于只是手机里多了几个 App 而已。

而豆包手机助手想要告诉大众的,是它不止是一个 App,而是整合到了操作系统层级,用户只用说出需求,它就会调度多个 App 解决问题。
但需要注意的是,豆包手机助手的跨应用调度也是有局限性的,它还只能算是一个半成品状态的 GUI Agent。
底层权限无疑是 AI 时代最坚固的护城河,这就使得现阶段的豆包手机助手还只是半成品,它的运行模式与 Anthropic 在去年秋季发布的 "Computer Use" 如出一辙。只不过 Anthropic 选择让 AI 观看屏幕截图来实现移动光标、点击按钮、输入文本等操作,而豆包手机助手则是借助 Android 系统的无障碍服务来实现持续读屏。

豆包手机助手要实现跨应用的连贯操作,就必然需要突破 App 的权限限制。而在 Android 系统中,为残障人士服务的无障碍功能就是少数能实现跨应用界面识别、模拟用户操作的权限。比如过滤开屏广告的 " 李跳跳 ",就正是借助无障碍服务来检索手机 App 的窗口,并模拟用户点击屏幕上的 " 跳过 " 按钮来实现自动跳过广告。
有了 " 李跳跳 " 的前车之鉴,手机厂商对于无障碍服务的权限管控就极为严格,通常的 App 很难获得。因此豆包手机助手与努比亚合作,直接从系统底层开放权限,不再需要走其他 App" 从申请到授权 " 的模式。可是借助无障碍服务实现的跨应用调度,其实是有缺陷的。

众所周知,AI 业界定义的智能体指的是能够自主感知环境,并采取行动实现目标的智能实体,为实现这一目标,智能体底层的 AI 模型就需要能像人类一样自如、灵活地操作所有软件。可当下的现实,却是 AI 模型还只能在自己的一亩三分地里做到如臂指使,难以调动第三方的软件或服务。
简单来说,智能体其实是遇到了 " 语言不通 " 的问题,因为第三方软件听不懂智能体的话,自然也就无法接受指令。为了让智能体具备主观能动性,Anthropic 拿出了 "Computer Use" 作为解决方案。而它则是基于视觉模型解析屏幕上的元素,再用前台模拟人工操作的方式让 AI 来操控设备。

"Computer Use" 是让 AI 去模仿人类与数字世界的交互方式,而非用更类似于计算机 " 母语 " 的二进制代码,就使得其从一开始就是个过渡性质突出的 " 曲线救国 " 方案。其所代表的纯视觉路线是模仿人类与计算机的交互,就必然会带来更长的任务执行时间,而这就代表更多 token 的消耗,也就是成本高昂。
因此 Anthropic 提出了 MCP 协议,后者就相当于是 AI 模型的 USB 接口,使得 AI 模型可以使用通用协议来调用不同的服务和工具。开发者只需搭建一个 MCP 服务器,就可以让智能体访问所有支持 MCP 协议的数据源或工具。

但遗憾的是,如今软件开发者对于 MCP 协议兴趣缺缺。但这背后的原因也很简单,毕竟自家产品上的开屏广告、信息流广告并不是给 AI 看的,一旦接入 MCP 就等于主动将自己的产品管道化,这种为他人做嫁衣的事情,开发者自然不愿意去做。君不见,不仅淘宝、微信没有向豆包手机助手开放,甚至就连字节跳动自家的抖音、飞书也没有给权限。
当然,软件开发者不配合还可以慢慢磨,但用户隐私问题可就不那么好解决了。要知道,如今智能手机毫无疑问已经是用户最重要的随身设备,作为 GUI Agent 的豆包手机助手想要工作,就需要用户给予它读取屏幕内容的权限。换而言之,你能从自己手机的屏幕上看到什么,豆包手机助手同样也能一览无余,也就是说你的购买记录、浏览偏好都得向豆包敞开大门。

尽管隐私问题可以用端侧 AI 来解决,但 GUI Agent 能否成为一个权利主体,则暂时还是一个无解的难题。比如在点外卖这件事上,用户亲自下单时,自己可以作为主体来承担决策后果,可要是豆包手机助手替代用户做了决策,万一出现食品安全问题,该由谁来负责呢?
【本文图片来自网络】


登录后才可以发布评论哦
打开小程序可以发布评论哦