微软与谷歌周四同步发布新一代 AI 模型,进一步加码多模态能力布局。微软推出自研 MAI 系列基础模型,覆盖语音转写、语音生成和图像生成,并加速融入自家产品体系;谷歌则发布 Gemma 4 开源模型,主打本地运行和多模态能力,并将许可切换至更开放的 Apache 2.0 协议。
微软:三款 MAI 模型覆盖语音与图像能力
微软推出的 " 世界级 " 自研 MAI 模型,一共包括三款:
首先是 MAI-Transcribe-1,这是一款 " 最先进 " 的语音转文本模型,能够理解全球使用最广泛的 25 种语言,其批量转录速度相比微软现有的 Azure Fast 方案提升了 2.5 倍。MAI-Transcribe-1 的起步价格为每小时 0.36 美元。
其次是 MAI-Voice-1,这是一款新的语音生成模型,只需 1 秒即可生成 60 秒的音频。同时,它还支持在 Microsoft Foundry 中通过短音频样本创建定制语音。MAI-Voice-1 的起步价格为每 100 万个字符 22 美元。
最后是 MAI-Image-2,这是一款更快的文生图模型,目前已经开始在 Copilot 中上线,接下来将陆续应用于 Bing 和 PowerPoint。MAI-Image-2 的价格为文本输入每 100 万个词元(Token)收费 5 美元,图像输出每 100 万个词元收费 33 美元。
如今,这三款模型已全部在 Microsoft Foundry 上线,其中语音转写和语音生成模型也可在 MAI Playground 中使用。这些模型由微软的 MAI 超级智能团队开发,该团队由 Microsoft AI 首席执行官穆斯塔法 · 苏莱曼(Mustafa Suleyman)领导,于 2025 年 11 月成立并对外公布。
微软表示:
" 我们正在快速部署这些顶级模型,用于支持自家的消费者和商业产品。很快你将会在 Foundry 以及微软各类产品和体验中看到更多模型。"
媒体分析称,这一发布表明,尽管微软仍与 OpenAI 保持紧密合作,但公司正持续推进构建自有多模态 AI 模型体系,并与其他 AI 研究机构展开竞争。
不过,苏莱曼在接受媒体采访时重申,微软仍将继续与 OpenAI 保持合作关系。但他也向媒体表示,近期对双方合作关系的重新谈判,使微软能够真正推进其超级智能研究。
微软已向 OpenAI 投资超过 130 亿美元,并通过一项多年期合作,将其模型部署在自家多款产品中。微软在芯片领域也采取类似策略:既自主研发,也同时采购外部供应商的产品。
谷歌:Gemma 4 开源模型主打本地运行与多模态能力
谷歌推出的 Gemma 4 开源模型采用 Apache 2.0 许可,而不再使用此前自定义的 Gemma 许可协议。谷歌表示,这些模型具备高级推理能力、代理式工作流、代码生成,以及视觉和音频生成能力,并提供四种不同版本,针对本地运行进行了优化,甚至可以运行在 " 数十亿台安卓设备 " 上。
谷歌表示:
"Gemma 4 基于与 Gemini 3 相同的世界级研究和技术,是目前你可以在本地硬件上运行的能力最强的一系列模型。它们与我们的 Gemini 模型形成互补,为开发者提供业内最强大的开源与专有工具组合。"
" 这种开源许可为开发者提供了完整的灵活性和数字主权基础,让你可以完全掌控数据、基础设施和模型。你可以在任何环境中自由构建并安全部署,无论是在本地还是云端。"
四种不同版本主要区别在于参数规模。针对边缘设备(包括智能手机),公司推出了 20 亿和 40 亿参数的 "Effective" 模型,更注重多模态能力和低延迟处理,适用于移动设备和物联网设备。针对更强大的设备,则提供了 260 亿参数的 "Mixture of Experts"(专家混合)模型,以及 310 亿参数的 "Dense"(稠密)模型,旨在运行于消费级 GPU 上,可用于驱动 IDE、编程助手以及代理式工作流。这些模型还支持完全离线运行。

谷歌表示,在 Gemma 4 上实现了 " 前所未有的单位参数智能水平 "。为佐证这一说法,公司指出,Gemma 4 中 310 亿和 260 亿参数版本在 Arena AI 文本排行榜上分别位列第三和第六,击败了规模是其 20 倍的模型。

所有这些模型都可以处理视频和图像,因此非常适合用于光学字符识别等任务。较小的两个模型还支持处理音频输入并理解语音。此外,谷歌表示,Gemma 4 系列支持离线代码生成,这意味着用户可以在没有互联网连接的情况下进行编程(例如进行 "vibe coding")。这些模型还支持超过 140 种语言。
谷歌的 Gemma 4 开源模型可以在多个平台下载,包括 Hugging Face、Kaggle 和 Ollama。谷歌强调:
" 这些模型在基础设施安全方面,遵循与我们专有模型相同的严格安全协议。"


登录后才可以发布评论哦
打开小程序可以发布评论哦