量子位 昨天
智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能于现实世界中可实际部署的高效工具,成为了业界关注的焦点。

近期,由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面(GUI)任务自动化智能体——V-Droid

凭借其全新 " 验证器驱动 " 架构,V-Droid 不仅在任务成功率上刷新记录,同时在决策响应速度上实现了接近实时的表现,为移动端自动化控制开辟了全新局面。

演示视频 1:

" 请从 Broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治 ",V-Droid 约使用 20 步操作完成此任务。视频无加速处理。

演示视频 2:

" 发送短信息 ",V-Droid 约使用 8 步操作完成此任务。视频无加速处理。

V-Droid 与其他移动 GUI 智能体在 AndroidWorld 上的任务成功率与决策响应时间对比如下:

对于 V-Droid 以及其他 7B,8B 基准模型,决策时间在双卡 4090 上测试得出;对于 72B 基准模型,决策时间在四卡 A100 上测试得出。

长期以来,移动设备上的任务自动化一直面临两大难题:一是如何在复杂、多变的 GUI 环境中准确识别和操作界面元素 , 并以多步骤成功完成任务;二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠 LLM 直接生成操作指令的方法,由于生成过程往往需要连续输出大量信息,导致在实际应用中既不够高效,又容易出现决策偏差。

在决策过程中,将 LLM 用作生成器与用作验证器的智能体架构的关键区别在于:验证器驱动的智能体不会直接根据任务状态直接生成动作,而是在作出最终决策之前,明确地对每个候选都动作进行评估。

V-Droid 创新性地提出 " 验证器驱动 " 的思路。该方法不再直接依赖大语言模型生成最终操作,而是首先通过对 UI 界面的深入解析构建出详尽的动作集合,再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估,最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦:一方面,与从零开始直接生成所需操作相比,该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证,从而大大降低了决策的复杂度;同时,由于每次验证仅输出极简的信息(仅一个 Token),并且可以对多个候选动作实现并行验证,从而显著缩短了每一步决策所需的时间。

V-Droid 在多个公共移动任务自动化基准上均取得了显著提升,例如在 AndroidWorld 基准上任务成功率达 59.5%,比现有智能体提高了近 10 个百分点,而决策延迟在消费级硬件上(如 4090)则降至仅 0.7 秒左右

V-Droid 的工作流程:① 从用户界面中提取动作并补充默认动作;② 针对每个候选动作使用模板构建验证提示;③ 利用前缀缓存对候选动作进行批量打分;④ 完成并执行所选动作;⑤ 更新工作记忆。

V-Droid 的核心突破主要体现在以下几个方面:

动作空间离散化与构建

由于移动设备屏幕尺寸有限,每个界面上可交互的元素数量本就较少,V-Droid 充分利用这一特性,从当前界面的 XML 描述中提取所有可点击、长按、滚动、文本输入等基本操作,将它们映射到一个有限的动作空间中。

同时,为了应对界面上未直接呈现的操作(例如返回首页或模拟系统操作),系统还预置了一系列默认动作。通过这种方式,原本无限的操作可能性被精细划分为一个可枚举的集合,在这个集合上进行验证,大大降低了决策难度。

验证器驱动的决策机制与流程

不同于传统依赖生成式模型直接输出操作指令的方案,V-Droid 将 LLM 的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表,并为每个候选动作生成一个预定义格式的验证提示(Prompt),其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。

经过预先微调的验证器(基于 Llama-3.1-8B 等小语言模型)会对每个候选动作进行评分,最终系统选择评分最高的动作执行。由于验证过程只需要生成 "Yes" 或 "No" 这类简短回复。更重要是的,多组候选验证可被高效并行,且此过程中只涉及 Prefilling 阶段,从而极大地减少了计算时间,实现了近实时的决策响应。

对比式过程偏好(P3)训练

为了提升 LLM 作为验证器的决策能力,V-Droid 提出 P3 训练策略:对比式过程偏好训练策略(Pairwise Process Preference)。在每个任务步骤中,通过构建正负操作对(即标记正确操作为正样本,其他操作为负样本),系统能够利用大量细粒度的训练数据对验证器进行优化,使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力,也在一定程度上增强了系统的容错与自我修正能力。

人机联合标注的数据采集策略

由于针对移动 GUI 任务的细粒度标注数据极为稀缺,V-Droid 设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注,随后利用经过初步训练的验证器自动生成操作标注,再由人工审核与修正。随着迭代训练的进行,验证器的准确性不断提升,人工介入比例逐渐下降,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大规模训练提供了坚实基础。

V-Droid 的任务成功率与单步决策响应时间

V-Droid 在多个移动任务自动化基准测试中均表现出色。

例如,在 AndroidWorld 基准上,V-Droid 的任务成功率达到 59.5%,相比传统代理有明显优势;在 AndroidLab 和 MobileAgentBench 上,其任务成功率分别为 38.3% 和 49%,均超过先前系统约 2% 至 9% 的绝对提升。此外,决策响应时间仅为 0.7 秒,使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

V-Droid 所采用的验证器驱动架构为移动端自动化任务带来全新思路。

通过将智能体的动作生成过程解耦为动作空间构建与验证,该系统不仅在任务成功率上取得了显著提升,还在决策延迟方面实现突破。未来,这一技术有望推广至更多实际应用中,如自动化测试等领域。随着大语言模型技术的不断进步,以及高效训练与数据采集策略的成熟,验证器驱动的移动 GUI 智能体或将成为智能交互领域的突破口。

论文标题:Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

论文作者:Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

链接:https://arxiv.org/abs/2503.15937

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动化 界面 准确 南洋理工大学 意大利
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论