MiniMax发布MMX-CLI，两行代码安装调用，“龙虾”多模态能力大涨

智东西

作者 | 佳扬

编辑 | 云鹏

智东西 4 月 9 日消息，今日 MiniMax 稀宇科技发布 MMX-CLI，这是一款面向 AI Agent 的命令行工具。

官方称，MMX-CLI 支持在 Claude Code、OpenClaw 等环境中原生调用其全模态模型，涵盖编程、视频生成、语音合成和音乐创作等功能，无需额外编写 MCP Server 或适配复杂接口。仅需两行代码，即可完成 MMX-CLI 的安装和调用。

MMX-CLI 提供全面的多模态能力，包括多回合文本对话和流媒体输出、可调整尺寸和批量生成的图像、支持异步处理和进度跟踪的视频生成、多语音文本转语音和流媒体播放、带歌词的音乐创作，以及图像理解和描述功能，帮助 AI Agent 高效完成创作和分析任务。

目前，MMX-CLI 需要购买 Token plan 才能使用。Token Plan 价格根据不同的套餐和使用量而有所不同。官方提供了多档订阅方案，用户可以按月或按年支付，每个套餐对应不同的 Token 额度和调用上限。其中标准版 Starter 套餐每月 29 元，Plus 套餐每月 49 元，Max 套餐每月 119 元；极速版 Plus- 极速版每月 98 元，Max- 极速版每月 199 元，Ultra- 极速版每月 899 元。

Token plan

一、两行命令完成安装和调用

MMX-CLI 将 MiniMax 的多模态能力通过统一命令行接口开放给 Agent，涵盖文本、图像、视频、语音、音乐等核心能力。

· 文本处理：支持多回合对话、流式输出、系统提示词和 JSON 格式，使 Agent 可直接解析和调用生成内容。

· 图像生成：文本转图像功能支持宽高比调整和批量生成。

· 视频生成：提供异步处理和进度跟踪。

· 语音合成：多语音文本转语音和流媒体播放能力，拥有 30 多种音色。

· 音乐创作：基于文本生成音乐，可自定义歌词，实现自动化音乐制作与内容丰富化。

· 图片理解：图像描述与识别。

主要功能

官方称，Agent 可通过两行命令完成安装和调用，实现从文案生成到图像、语音和视频输出的完整自动化工作流，大幅提升多模态任务效率。

官方安装代码

官方文本、图片、音频生成代码

二、针对 Agent 的专门优化

传统命令行工具主要面向人工用户，直接让 AI Agent 使用往往会遇到问题，例如输出信息夹杂干扰内容、错误信息需要人工阅读判断、参数缺失会导致任务停滞，以及长时间运行的任务无法高效管理等。

对此，MMX-CLI 针对 Agent 在非交互式环境下的使用特点进行了底层优化：

· 纯数据输出与隔离：stdout 仅输出文件路径或 JSON 数据，进度条和状态提示被划归 stderr，保证 Agent 解析结果干净准确。

· 语义化状态码：不同错误类型对应独立 Exit Code，Agent 无需解析文本即可判断失败原因并决定是否重试，包括鉴权、参数缺失、超时和网络异常。

· 异步与非阻塞设计：任务参数缺失时直接退出，长耗时任务可通过提交后台执行，使 Agent 能并行处理多个任务。

· 无缝接入 Token Plan：每次生成可直接计入订阅配额，方便使用和管理，同时避免额外付费或复杂授权流程。

MiniMax 官方提供了完整文档和源码，开发者和企业可在 GitHub 获取。

完整文档与源码：

github.com/MiniMax-AI/cliToken Plan 订阅：platform.minimaxi.com/subscribe/token-plan

结语：MiniMax 全模态能力的拓展

MMX-CLI 的推出为开发者提供了一个轻量入口，让 MiniMax 的全模态能力更容易嵌入现有 AI Agent 工具链中。对于终端重度用户和需要快速调用图像、视频、语音的场景，它简化了流程。

目前工具仍处于早期阶段，功能覆盖全面但缺乏大规模公开性能数据。未来随着迭代，其在 Agent 生态中的实用性值得持续观察。

宙世代

一起剪

相关标签