太平洋电脑网 09-02
阿里通义千问开源第二代视觉语言模型 支持超20分钟长视频问答与内容创作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【太平洋科技快讯】阿里云通义千问最近宣布开源了第二代视觉语言模型 Qwen2-VL。与上一代模型相比,Qwen2-VL 在多个方面实现了性能的全面提升。它能够读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试中取得了全球领先的表现。此外,它还能理解超过 20 分钟的长视频,支持基于视频的问答、对话和内容创作等应用。

Qwen2-VL 推出了 2B、7B 两个尺寸的模型及其量化版本。此外,旗舰模型 Qwen2-VL-72B 的 API 已经上线阿里云百炼平台,用户可以直接调用。

此外,Qwen2-VL 还具备强大的视觉智能体能力,可以自主操作手机和机器人。它能够集成到手机、机器人等设备中,根据视觉环境和文字指令进行自动操作。

该模型能够理解图像和视频中的多语言文本,包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。为了更清楚地感知视觉信息和理解视频,团队在架构上进行了一些升级,包括实现了对原生动态分辨率的全面支持和多模态旋转位置嵌入 ( M-ROPE ) 方法。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

通义千问 开源 分辨率 阿里云 机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论