智东西 9小时前
MiniMax发布MMX-CLI,两行代码安装调用,“龙虾”多模态能力大涨
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 佳扬

编辑 | 云鹏

智东西 4 月 9 日消息,今日 MiniMax 稀宇科技发布 MMX-CLI,这是一款面向 AI Agent 的命令行工具。

官方称,MMX-CLI 支持在 Claude Code、OpenClaw 等环境中原生调用其全模态模型,涵盖编程、视频生成、语音合成和音乐创作等功能,无需额外编写 MCP Server 或适配复杂接口。仅需两行代码,即可完成 MMX-CLI 的安装和调用。

MMX-CLI 提供全面的多模态能力,包括多回合文本对话和流媒体输出、可调整尺寸和批量生成的图像、支持异步处理和进度跟踪的视频生成、多语音文本转语音和流媒体播放、带歌词的音乐创作,以及图像理解和描述功能,帮助 AI Agent 高效完成创作和分析任务。

目前,MMX-CLI 需要购买 Token plan 才能使用。Token Plan 价格根据不同的套餐和使用量而有所不同。官方提供了多档订阅方案,用户可以按月或按年支付,每个套餐对应不同的 Token 额度和调用上限。其中标准版 Starter 套餐每月 29 元,Plus 套餐每月 49 元,Max 套餐每月 119 元;极速版 Plus- 极速版每月 98 元,Max- 极速版每月 199 元,Ultra- 极速版每月 899 元。

Token plan

一、两行命令完成安装和调用

MMX-CLI 将 MiniMax 的多模态能力通过统一命令行接口开放给 Agent,涵盖文本、图像、视频、语音、音乐等核心能力。

· 文本处理:支持多回合对话、流式输出、系统提示词和 JSON 格式,使 Agent 可直接解析和调用生成内容。

· 图像生成:文本转图像功能支持宽高比调整和批量生成。

· 视频生成:提供异步处理和进度跟踪。

· 语音合成:多语音文本转语音和流媒体播放能力,拥有 30 多种音色。

· 音乐创作:基于文本生成音乐,可自定义歌词,实现自动化音乐制作与内容丰富化。

· 图片理解:图像描述与识别。

主要功能

官方称,Agent 可通过两行命令完成安装和调用,实现从文案生成到图像、语音和视频输出的完整自动化工作流,大幅提升多模态任务效率。

官方安装代码

官方文本、图片、音频生成代码

二、针对 Agent 的专门优化

传统命令行工具主要面向人工用户,直接让 AI Agent 使用往往会遇到问题,例如输出信息夹杂干扰内容、错误信息需要人工阅读判断、参数缺失会导致任务停滞,以及长时间运行的任务无法高效管理等。

对此,MMX-CLI 针对 Agent 在非交互式环境下的使用特点进行了底层优化:

· 纯数据输出与隔离:stdout 仅输出文件路径或 JSON 数据,进度条和状态提示被划归 stderr,保证 Agent 解析结果干净准确。

· 语义化状态码:不同错误类型对应独立 Exit Code,Agent 无需解析文本即可判断失败原因并决定是否重试,包括鉴权、参数缺失、超时和网络异常。

· 异步与非阻塞设计:任务参数缺失时直接退出,长耗时任务可通过提交后台执行,使 Agent 能并行处理多个任务。

· 无缝接入 Token Plan:每次生成可直接计入订阅配额,方便使用和管理,同时避免额外付费或复杂授权流程。

MiniMax 官方提供了完整文档和源码,开发者和企业可在 GitHub 获取。

完整文档与源码:

github.com/MiniMax-AI/cliToken Plan 订阅:platform.minimaxi.com/subscribe/token-plan

结语:MiniMax 全模态能力的拓展

MMX-CLI 的推出为开发者提供了一个轻量入口,让 MiniMax 的全模态能力更容易嵌入现有 AI Agent 工具链中。对于终端重度用户和需要快速调用图像、视频、语音的场景,它简化了流程。

目前工具仍处于早期阶段,功能覆盖全面但缺乏大规模公开性能数据。未来随着迭代,其在 Agent 生态中的实用性值得持续观察。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 流媒体 音乐 自动化
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论