智东西 09-13
欧洲版OpenAI,法国独角兽推多模态大模型Pixtral 12B,源代码已开放下载
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编译 | 杨蕊伃

编辑 | 漠影

智东西 9 月 12 日消息,据 VentureBeat 报道,法国大模型独角兽 Mistral AI 昨日正式发布 Pixtral 12B,这是该公司首个能够同时处理文本和图像的多模态大模型。

Pixtral 12B 拥有 120 亿参数,大小约为 24GB,该模型允许用户上传图像或提供图像链接,并能针对图像内容提出问题。

Mistral 直接提供了一个磁力链接,用于下载新模型文件。目前 Pixtral 12B 模型尚未对公众开放网络使用,但其源代码已经可以在 Hugging Face 和 GitHub 上下载,方便用户在本地实例上进行测试。

磁力链接:Release v1.4.0 – Mistral common goes · mistralai/mistral-common · GitHub

此外,Mistral 开发者关系负责人 Sophia Yang 在社交平台 X 上发文透露,该模型将很快在 Mistral 的聊天机器人 Le Chat 和 API 平台 Le platform 上提供。

Mistral AI 由前 DeepMind 研究员 Arthur Mensch、前 Meta 员工 Timothée Lacroix 和前 Meta 员工 Guillaume Lample 于 2023 年 4 月共同创立。

据悉,Mistral 在 6 月份筹集了 6.45 亿美元的资金,将其估值推高至 60 亿美元。

▲ Mistral 开发者关系负责人 Sophia Yang 在社交平台 X 上透露,Pixtral 12B 将很快在 Mistral 的聊天机器人 Le Chat 和 API 平台 Le platform 上提供(图源:X 截图)

一、Pixtral 12B 模型能够原生支持任意图像:40 层架构、14336 个隐藏维度、32 个注意力头

Pixtral 12B 模型是 Mistral AI 的 Nemo 12B 文本模型的延伸,具备处理通过 URL 链接或 base64 编码提供的图像的能力。无论图像的数量或尺寸如何,Pixtral 12B 都能够回答相关问题。

据悉,Pixtral 12B 大小约为 24GB,其架构包含 40 层、有 14336 个隐藏维度和 32 个注意力头,能够执行广泛的计算处理。

据 TechCrunch 报道,大多数生成式 AI 模型,包括 Mistral 的其他模型,都是基于来自网络的大量公共数据进行训练的,这些数据通常受版权保护。

尽管 Pixtral 12B 模型的官方细节和训练数据目前仍然保密,但其核心功能是允许用户分析图片,并将文本提示与图片结合起来进行综合处理。

这意味着用户可以上传图像或提供图像链接,并针对图像内容提出问题,Pixtral 12B 将能够理解和回答这些问题。

发布 Pixtral 12B 对 Mistral 来说是首次尝试,但需要注意的是,其他竞争对手,如 OpenAI 和 Anthropic,已经推出了具备图像处理功能的模型。

在 X 平台上,当被问及 Pixtral 12B 模型的120 亿参数有何独特之处时,Mistral AI 的开发者关系负责人 Sophia Yang 回答说:"该模型的特别之处在于它能够原生支持任意数量和任意尺寸的图像。"

据外媒 NewsBytes 报道,该模型有望执行诸如为图像添加标题和计算照片中的对象等任务,类似于 Anthropic 的 Claude 家族和 OpenAI 的 GPT-4o 等其他多模态模型。

在视觉处理方面,该模型配备了一个专用的视觉编码器,不仅能处理 1024×1024 分辨率的图像,还具备24 个隐藏层以支持高级图像处理功能。

二、Mistral被誉为 " 欧洲版 OpenAI",其 Large 2 模型支持 80 多种编程语言

Mistral AI 成立仅一年多,就因为其在 AI 技术上的影响力,被业界称为 " 欧洲版 OpenAI"。

目前,Mistral 已经与 Microsoft、AWS 和 Snowflake 等行业巨头建立了合作关系,以扩大其技术的覆盖范围。

Mistral 开发者关系主管 Sophia Yang 称,Pixtral 12B 将很快在 Le Chat 和 Le Platforme 上推出

La Platforme 是 Mistral AI 提供的一个服务平台,它提供三个聊天端点,mistral-tiny、mistral-small 和 mistral-medium,这些端点能够根据文本说明生成文本。

除聊天端点外,该平台还提供了一个嵌入端点Mistral-embed。该端点具有 1024 维度的嵌入模型,专为检索功能设计,在 MTEB 上达到了 55.26 的检索得分,适合需要进行文本相似性分析和数据检索的应用场景。

此外,在 Pixtral 12B 发布的几个月前,Mistral 就已经推出了Mistral Large 2模型。

Mistral Large 2 具有 1230 亿参数和 128k 的上下文窗口,支持包括中文、英语、法语、德语、西班牙语、意大利语、俄语、日语和韩语在内的多种语言,以及80 多种编程语言

这款 GPT-4 级别的模型不仅具备先进的多语言处理能力,还在推理、代码生成和数学性能方面实现了显著提升。

此外,该公司还推出了多个先进模型,包括具有专家混合架构的Mixtral 8x22B、开放权重编码模型Codestral(参数规模达 22B),以及专为数学推理和科学发现设计的专用模型。

结语:Pixtral 12B 输出不受限制,确切性能有待考究

随着 Pixtral 12B 的推出,Mistral 将进一步拓展视觉应用程序的访问渠道。

虽然该开放模型的确切性能尚待验证,但这一举措延续了 Mistral 在 AI 领域所采取的积极策略。

TechCrunch 援引知情人士称,Pixtral 12B 模型可以在 Apache 2.0 许可下进行微调和使用。这意味着该模型的输出可以不受限制地用于个人或商业用途。

作为欧洲 AI 领域的新星,Mistral AI 正以其独特的商业模式和开放策略,迅速崛起为全球 AI 竞赛中的重要参与者,其未来发展值得我们持续关注。

来源:VentureBeat、TechCrunch、NewsBytes

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

独角兽 源代码 社交平台 聊天机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论