钛媒体 App 4 月 10 日消息,字节跳动豆包大模型团队正式开源首个多语言类 SWE 数据集—— Multi-SWE-bench,可用于评估和提升大模型 " 自动修 Bug" 能力。在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向 " 全栈工程 " 的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
钛媒体 App 4 月 10 日消息,字节跳动豆包大模型团队正式开源首个多语言类 SWE 数据集—— Multi-SWE-bench,可用于评估和提升大模型 " 自动修 Bug" 能力。在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向 " 全栈工程 " 的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
登录后才可以发布评论哦
打开小程序可以发布评论哦