《科创板日报》11 月 2 日讯(编辑 宋子乔) " 你好,贾维斯。"" 随时为您效劳,先生。"
漫威电影《复仇者联盟》中,钢铁侠与 AI 智能管家贾维斯的亲密互动,呈现了一个高级智能体该有的模样。
当下,大模型对复杂任务的推理能力增强、视觉处理能力提高、计算机控制能力展现,加之更流畅的人机交互,为高级智能体的发展提供了更好的基础。
智谱 AutoGLM 为代表 AI 助理工具,只需接收文字 / 语音指令,就可以模拟人类操作手机、解决日常琐事,目前可支持微信、淘宝、美团、大众点评、小红书、高德地图、12306、携程等 App 的常规跨页面操作,在订票、点外卖等日常场景中充分解放用户双手,这在资本市场掀起一阵硬件智能化风潮。
微软、谷歌等科技巨头同样在畅想科幻电影照进现实的画面,致力于开发 AI 助理(AI Agent),让 AI 能自主操作手机、像人一样完成复杂的推理任务——
微软近期低调开源了 AI 工具 OmniParser,其可帮助用户创建个性化智能体,以操作个人计算机;10 月 22 日,微软宣布在 Dynamics 365 中集成 10 个自主 AI Agent,支持 OpenAI 最新模型 o1,具备自主学习能力,可自动执行跨平台复杂业务;9 月,微软推出了一款名为 Windows Agent Arena 的基准框架,同样属于 AI 助理开发范畴。
据 The Information 报道,谷歌计划在 12 月预览其大型动作模型 "Project Jarvis",该项目将帮助用户执行诸如 " 收集研究、购买产品或预订航班 " 等任务。
10 月 22 日,Anthropic为大模型 Claude 迭代了新功能—— Computer Use,让 AI 可以像人一样操控电脑。Claude3.5 Sonnet 是首个支持计算机控制的模型,能够模拟人类操作计算机,包括移动光标、点击按钮和输入文本。
苹果选择将 Siri 与 ChatGPT 集成,实现更智能的人机交互,另有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本(分别基于 Gemma 2B 和 Llama 8B),这是苹果今年 5 月发布的一个可让 AI 理解手机屏幕的技术。
华为则公布了一项可让 AI 像人类一样操作手机的新研究成果,相关团队提出了一个手机控制架构:Lightweight Multi-modal App Control(轻量级多模态应用控制,简称 LiMAC)。
OpenAI也开源了多功能协同 AI Agent —— Swarm,可创建多个智能体协同工作,以更高效地完成任务。其 GPT o1 模型增强了推理能力,使其在复杂问题的解决和用户交互的自然性方面均有显著进步,亦使其更加适用于 AI Agent 场景。
值得注意的是,近日,OpenAI CEO 阿尔特曼在一次互动访谈中分享了自己对 AI 助理的看法。他认为,AI 助理能够像一个聪明的同事一样,与用户一起合作完成项目。阿尔特曼同时提及 AI 助理的定价——该服务不是按接入 AI 助理的个数付费,而是根据回答问题所需的计算量定价。
巨大商业空间酝酿中
AI 助理的应用场景涵盖 B 端和 C 端,可扮演智囊、管家、代理人等多重角色。
作为个人助理,它可以进行日程管理、信息查询、任务自动化;在制造业、物流、医疗、教育等领域,通过自主学习和优化,AI 助理可实现智能监控、数据分析、流程优化、决策支持、互动交流等高级功能。
对于使用者而言,企业可用它实现降本增效,个人可用它提高工作、生活效率。
随着应用场景落地,更大的商业空间正在酝酿中。对于 AI 助理服务的提供方、搭载 AI 助理的硬件生产商、连接 AI 助理的应用方,新的盈利模式有望从中孕育——
接入 AI 助理的手机会不会销量更好?手机厂商是选择自研 AI 助理还是接入第三方服务?与第三方开展合作的模式是什么?将如何分成?当你需要买东西,AI 助理会打开哪个电商平台?引流依据是什么?
产业端,苹果、荣耀、三星等终端厂商近期开始发力、落地基于 AI 助理技术的边端 AI 功能。其中,近日上线的荣耀 Magic7 系列首发 YOYO 智能体,荣耀 CEO 赵明对 YOYO 助理说了一句话,便成功下单 2000 杯咖啡。据介绍,Magic 7 系列搭载的 AI 助理,其智能水平达到 L3 等级,不仅可完成帮忙发文件、智能填表、购物比价等基础操作,并且可根据用户指令完成关闭自动续费、购买饮品、规划旅行路线及订票等多项跨应用操作。
在硬件厂商言必称 AI 的时代,AI 助理或成为终端智能化的突破口。
中信证券表示,AutoGLM 等终端 AI 助理技术将带来更短路径的交互形式,接受语音指令并自动完成复杂操作的能力将为消费者带来极大便利,其有望成为 AI 终端的亮点功能并吸引消费者升级换代。
华泰证券也表示,AI 助理是通往 AGI 的核心基础,AI 助理落地带来多个层次的产业机遇,其中,Agent+ 终端有望推动人机交互变革,除了在终端销售量价方面的变化外,可能对终端应用的商业模式产生更加深远的影响。
另外,AI 助理与具身智能 / 人形机器人、区块链、5G 等技术将碰撞出怎样的火花?将如何帮助构建智能体社会与群体智能?这些问题一同成为了描绘产业蓝图的画笔。
沉浸于未来构想之时,更冰冷的问题立于当下:AI 助理到底有多少用处?
AI 助理还没有那么 " 聪明 "
与 Siri、小爱助理、天猫精灵、小度等 " 前辈 " 相比,AutoGLM 等 AI 助理的确更加人性 ¬¬¬¬ 化、响应更精准、能处理更复杂的任务、学习能力更强。
其中,交互性、自主操作这两大亮点让 AI 助理出圈,比如 AutoGLM 只需用户一个吩咐就能网购、点外卖、订高铁票,甚至发微信、抢红包、评论朋友圈、整理笔记并生成攻略、总结论文。
但与人们期待的 " 贾维斯 " 相比,这些 AI 助理们的脑子还远远不够用。以智谱 AI 为例,尝鲜者反映的典型问题包括:
需要更加精细化的指令,不会比价,AutoGLM 为你买的东西可能不是最优价格;无法很好地应对突发情况,如广告弹窗等;能打开的 App 有限,据了解,目前 AutoGLM 可适配微信、淘宝、美团、小红书、大众点评、12306、携程、高德地图共 8 款应用。
Claude 的 Computer Use 存在类似的问题。一个有意思的案例是,某工程师使用该工具给整个团队点外卖,未指定具体要吃什么,接到任务的 Claude 仅用 1 分钟就下单了披萨,3 个披萨共花掉 95 美元,一则网友吐槽被推上首条评论位:3 个披萨 95 美元是犯罪。
这意味着,尽管 AI 助理可以为你省去操作步骤(打开 App,点选页面),但它并不能完全自主地、" 完美地 " 解决问题,用户依然需要做思考、参与决策。
结语:我们和高级智能体之间仍有很远的距离
技术上的问题需要时间解决,围绕 AI 助理落地,还有一系列非技术因素,比如数据隐私与安全问题、自主决策的伦理困境、责任归属问题、算法偏见与歧视等。
安全是一个重要议题。为了实现更深度的操作,AI 助理需要获取用户手机的无障碍权限、与企业其他系统(如 ERP、CRM)集成,实现信息共享和协作。
隐私泄露的情形如何避免?拥有高自由度的 AI 如果做出了错误判断,问题的责任方是谁?
如何在便利与安全之间找到平衡,将是未来 AI 助理发展必须面对的挑战。
登录后才可以发布评论哦
打开小程序可以发布评论哦