苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的 Benchmark。
这套 Benchmark 创新性地采用了场景化测评方法,可以更好体现模型在真实环境中的水平。
而且还引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。
这套测试基准名叫 ToolSandbox,苹果基础模型团队负责人庞若鸣也参与了研究工作。
ToolSandbox 弥补了现有测试标准缺乏场景化评估的不足,缩小了测试条件与实际应用之间的差距。
而且在交互上,作者让 GPT-4o 扮演用户和被测模型进行对话,从而模拟真实世界中的场景。
比如告诉 GPT-4o 你不再是一个助理,而是要扮演正在和用户 B 对话的用户 A,然后提出一系列具体要求。
另外,作者也利用 ToolSandbox 对一些主流模型进行了测试,结果整体上看闭源比开源模型分数更高,其中最强的是 GPT-4o。
iOS 应用开发者 Nick Dobos 表示,苹果的这套标准简洁明了。
同时他指出,现在 ChatGPT 面对三个工具就已经有些捉襟见肘,Siri 要想管理好手机中几十上百个应用,也需要提高工具调用能力。
言外之意,ToolSandbox 的研究,或许是为了给 Siri 之后的研发探明方向。
在场景中测试模型
如前文所述,ToolSandbox 采用了场景化、交互式的测试方法。
具体来说,ToolSandbox 中一共包括了单 / 多工具调用、单 / 多轮对话、状态依赖、标准化和信息不足等七种类型的近 2000 个场景。
前面的相对比较好理解,这里针对后面的三种场景类型这里做一下解释:
状态依赖:工具的执行依赖于某些全局状态,需要先通过其他工具对该状态进行修改;
规范化:将自然语言表达转换为工具需要的标准形式,过程中可能需要借助其他工具;
信息不足:故意缺失完成任务所需的关键工具,考察模型能否识别无法完成的情况。
在这些场景下,ToolSandbox 会关注模型的三个指标:
整体表现,即各类场景下的与预设答案的平均相似度
鲁棒性,用多种方式对工具进行魔改、干扰,观察模型在这种环境下的表现
效率,也就是平均任务完成轮次
工具方面,作者选用了 34 个可组合的 Python 函数作为工具,与真实场景的复杂性相当。
其中既有原生 Python 工具,也集成了部分 RapidAPI 工具,功能覆盖搜索、对话、导航、天气、图像处理等多个常见领域。
流程上,首先是准备测试场景,研究人员会定义初始世界状态并存储,同时使用经过校准的 GPT-4o 模型生成初始用户消息。
然后进入交互式执行阶段,系统首先初始化 Message Bus 作为角色间的通信渠道,并配置好扮演用户的模型以及被测模型。
对话循环开始后,模拟用户的模型发送初始消息,被测模型接收这条消息并决定下一步行动——直接回复用户,或调用工具与环境交互。
如果模型选择调用工具,它会以 JSON 格式提供必要的参数,执行环境随后解释并执行这个调用,可能会更新世界状态,并处理潜在的并行调用条件。
执行结果返回给被测模型后,被测模型再次决定下一步行动,这个过程持续进行,直到用户模拟器认为任务完成(或无法完成),此时它会调用 end_conversation 工具结束对话。
在整个交互过程中,系统记录所有的消息和状态变化,形成一个完整的 " 对话轨迹 ",这个 " 轨迹 " 随后进入评估阶段。
评估则使用预定义的 " 里程碑 " 和 " 雷区 " 来衡量代理模型的表现。
里程碑定义了完成任务的关键事件,形成一个有向无环图来反映时间依赖关系。
系统会寻找轨迹中事件与里程碑之间的最佳匹配,同时保持里程碑的拓扑顺序。
雷区则定义了禁止发生的事件,主要用于检测模型是否在信息不足的情况下产生幻觉。
举个例子,下图展示了 " 不充分信息 " 场景下一个地雷场(Minefield)评估的例子。
在这个任务中,由于当前时间戳不可用,模型不应该调用 timestamp_diff 工具,但模型错误地猜测了当前时间戳并调用了工具,导致这一轮得分为 0。
最终,系统计算出一个综合得分,这个得分是平均里程碑匹配分数与雷区惩罚的乘积。
此外,系统还会统计完成任务所需的平均轮次,作为评估模型效率的补充指标。
复杂交互场景仍然是挑战
从整体上看,闭源模型在工具调用上的表现要好于开源模型。
平均分最高的是 GPT-4o,成绩是 73.0,唯一一个超过了 70,且在作者设置的七个场景中的四个里都取得了最高成绩。
而且 GPT-4o 鲁棒性也极强,作者用了 8 种方法对工具进行魔改,GPT-4o 对其中的其中都有最高的鲁棒性评分。
紧随其后的是 Claude 3-Opus,平均分为 69.2,在信息不足 的场景当中表现还超过了 GPT-4o,再然后就是 GPT 和 Claude 的一些其他版本。
谷歌的 Gemini 则相对落后,1.5 Pro 的成绩为 60.4,刚刚及格,还不如 GPT-3.5,不过在信息不足这个单项上表现不错。
开源模型的最高平均分就只有 31.4 了,其中比较有名的 Mistral-7B 得分是 29.8,但在信息不足这个单项上取得了 76.8 的最好成绩。
甚至其中的 Gorilla、Command-R 等部分开源模型根本无法处理工具响应,或者只能勉强完成单轮工具调用。
进一步分析表明,开源模型在识别何时该调用工具方面表现不佳,更倾向于将问题当作纯文本生成任务。
从任务维度上看,大模型在单 / 多工具调用和单轮用户请求上表现优异,但在多轮对话和状态依赖任务上优势减弱。
在 GPT、Claude、Gemini 等家族中,更大的模型在多工具调用和多轮对话任务上的优势更明显;但在状态依赖任务上,中小模型(如 GPT-3.5、Claude-3-Sonnet)反而比大模型(GPT-4、Claude-3-Opus)表现更好。
另外,规范化是所有模型的一大挑战,尤其是需要借助工具进行规范化的场景,以及时间相关参数的规范化也十分困难。
针对鲁棒性的研究表明,模型对工具描述、参数信息等变化的敏感程度差异较大,没有发现明显的规律。
效率上,更强的模型通常更高效,但也有例外,比如 Claude 系列模型的效率普遍优于 GPT。
总之,大模型在工具使用方面,应对现实世界的复杂交互场景时仍面临诸多挑战。
作者简介
ToolSandbox 团队成员来自苹果公司的机器学习、数据科学、基础大模型等多个团队。
第一作者是华人机器学习工程师Jiarui Lu,本科毕业于清华大学,就读期间还在朱军教授实验室中担任研究助理。
随后,Lu 在卡内基梅隆大学取得了机器学习硕士学位,毕业后于 2020 年加入苹果公司。
包括 Lu 在内,署名的12 位作者当中有 10 位都是华人,而且都有名校背景。
其中也包括基础大模型团队负责人庞若鸣(Ruoming Pang)。
另外,在苹果工作了 8 年的工程主管Bernhard Aumayer也参与了这一项目。
论文地址:
https://arxiv.org/abs/2408.04682
登录后才可以发布评论哦
打开小程序可以发布评论哦