AI输入法已经进化到用“嘴”写稿了，我用小凹“说”完了一整篇

AI 应用风向标（公众号：ZhidxcomAI）

作者｜江宇

编辑｜漠影

智东西 12 月 10 日报道，今日，智谱正式发布并开源 GLM-ASR 系列语音识别模型，并同步上线了基于该模型打造的桌面端智谱 AI 输入法 " 小凹 "。

相比传统语音输入只能 " 把话变成字 "，小凹在输入框中即可完成翻译、改写、计算、规划等指令操作。

我们在实际体验中发现，小凹不仅能在实现相对稳定的语音转写，还能顺着用户的口语进行内容整理、风格转换或直接完成小任务。

例如随口报账、算工资、安排旅行、甚至解一道数学证明题，它都能跟上。而对于碎碎念、自我修正和中英混说等复杂口语，小凹也能给出相应结果，但整体稳定性仍有提升空间。

与此同时，智谱此次还开源了 1.5B 参数量的端侧模型 GLM-ASR-Nano-2512，重点面向本地低延迟与隐私场景，在部分公开测试集上达到开源 SOTA 表现。

GLM-ASR-2512 使用指南：

https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512

体验中心：

https://bigmodel.cn/trialcenter/modeltrial/voice

接口文档：

https://docs.bigmodel.cn/api-reference/ 模型 -api/ 语音转文本

GLM-ASR-Nano-2512 开源地址：

Hugging Face：https://huggingface.co/zai-org/GLM-ASR-Nano-2512

魔搭社区：

https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512

一、从云侧到端侧，语音识别被直接塞进输入法

这次同步发布的 GLM-ASR-2512 是一款云端语音识别模型，支持实时语音转文字，在多语种、多口音与复杂环境下进行过稳定性测试，其字符错误率（CER）仅为 0.0717。

同时开源的 GLM-ASR-Nano-2512 则是一款约 1.5B 参数规模的端侧模型，主打本地运行，在延迟和隐私层面更友好。它在开源语音识别方向已达到 SOTA 水平，在部分测试中甚至超过了若干闭源模型。

GLM-ASR-Nano 与多款主流语音识别模型在多个公开数据集上的识别错误率对比

围绕这套模型能力，智谱将语音识别直接嵌入桌面端输入法中，使语音可以直接驱动翻译、改写、扩写、情绪表达转换与计算等一系列后续操作，用户在输入框中即可完成从语音到结果的完整流程，不需要再切换窗口，也不需要复制粘贴，光标在哪，说完就能直接替换。

二、语音不只转文字，还能顺着你的话去改、去算、去规划

在实际体验中，首次使用需要跳转浏览器完成手机号登录，并进行麦克风和 " 允许粘贴文字 " 基础权限授权。

使用浏览器登录以使用小凹语言服务

麦克风和 " 允许粘贴文字 " 基础权限授权

完成授权后，输入法会自动跳转到一个体验界面，主要用于语音调试和熟悉核心功能。随后，进入输入法主页，整体界面分成 " 首页 "" 词典 " 和 " 人设 " 三个主要区域。

首页更像是一个 " 使用仪表盘 "，会把近期的语音输入时长、生成文字数量以及按打字速度粗略计算的节省时间都展示出来，底部还会自动记录用户一天内的输入内容，方便回看。

智谱 AI 输入法主页

" 词典 " 是一个用于维护专有名词和口头表达的小工具栏。它会自动学习用户经常说的词，但也允许用户手动添加项目名、人名、行业术语等，避免转写时出现错误。

词典页面

再往下是 " 人设 " 页面，可以说是输入法里 AI 化最明显的部分。这里不仅能看到多个预置的人设，如 " 默认风格 "" 自动翻译 "" 命令行大神 "" 面对老板 "" 面对伴侣 "" 面对同事 " 等，每一个都带着对应的表达语气。同时也支持用户自己新建人设，调整语气、表达方式或行为偏好。点开任意人设，右侧会显示可编辑的描述区域。

人设页面

进入正式体验后，我先从最基础、也是最贴近日常使用的场景开始试起。

看到案例里它能把说错的日期和时间自动整理成最终确认的结果，我也顺手用了一种接近真实口头表达的方式来测试。

我像平时说话一样随口讲：" 呃呃我打算九点召开一个会议，嗯 …… 算了，还是十一点吧。"

在多轮尝试后，最终才得到的预期结果 " 我打算在十一点召开一个会议 "。可见，它对口语中自我修正和停顿词的自动处理，目前还谈不上完全稳定。

在更为复杂的一轮测试中，我直接口语输入了一整段中英文混杂的工作沟通内容：" 这次 Q3 的 marketing campaign involves our research team，leverage on 他们新出的报告吧，然后费用的话 charge Joanna 部门，问一下他明天有没有时间一起过一下 budget，上周五你 present 的 deck 等会可以发我一下吗？也 cc 一下 Jennifer 吧。"

在这一轮中英混说的测试中，系统虽然能基本还原语句结构，但英文部分的识别准确性一般，连续表达时容易出现偏差。

随后我测试了人设表达功能，分别选择了 " 面对老板 " 和 " 面对伴侣 "，输入同一条 " 抱歉，我临时有事，下午去不了了 "，两种人设在语气上整体差异并不大。

" 面对老板 " 这一人设的输出结果

" 面对伴侣 " 这一人设的输出结果

如果希望达到展示案例中的明显风格切换效果，或仍需要在自定义人设中补充更明确的提示语。

人设功能的官方案例展示

而面对开发者，" 命令行大神 " 这一人设则具备一定的实用性，我语音输入 " 显示当前所有 python 进程的进程号 " 后，系统功能直接给出标准命令结果。

" 命令行大神 " 这一人设的输出结果

随后我又连续语音提问 " 小凹，智谱 AI 输入法的优势在哪里 " 和 " 为什么语音输入比键盘输入更友好 "，感觉更像是在输入法里直接 " 召唤 " 了一个 AI 助手，答案不是弹窗形式出现，而是直接生成在光标位置，这两次提问都能正常给出解释性回复。

解释性回答

此外，在选中文本后，说出 " 翻译成英文 "、" 翻译成日文 " 和 " 翻译成四川话 "，结果均可即时替换，光标所选即所改的模式在编辑过程中比较高效。

在更偏向生活类的小任务里，我先试了一个随口报账的场景：" 嘿小凹，帮我记一下今天的账单，我早上吃饭花了六块五，中午快餐二十五，晚上看电影三十九，晚饭一百。" 输入法能把这些数字正确记录下来，自动汇总结算。

记账

随后，我又试了试计算工资的场景：" 嘿小凹，计算一下年薪有多少？月工资三十 k，签字费五万，十万期权分两年发放。" 系统能把这些条件拆开并算出一个明确的结果，用语音完成这种小型算式比预想中顺滑。

算工资

再往后我测试了一个规划任务，比如 " 嘿小凹，我想去上海玩两天，从北京出发，帮我制定一个旅行计划。" 它也能给出一个结构化的行程建议。

行程规划

此外，我还抛了一道数学证明题进去，系统不仅给了过程，还在听到有歧义的部分时主动提示：" 题目中的‘ 1+x 分之 x ’我理解为‘ 1+x/x ’。" 这种在语音表达容易含糊时给出的额外说明，对纯语音输入来说还是挺关键的。

此外，在完成全部功能测试后，我又把 " 小凹 " 放进了真正的写作流程中。这篇稿子里，约有 90% 的内容，是通过语音直接生成在输入框里的，很多段落几乎是 " 边想边说 " 就成型了。我也第一次明显感觉到，输入方式正在反过来影响写作思路。

结语：输入法很可能会成为 AI 下一个高频入口

从这次整体体验来看，小凹的变化在于它开始接管一部分原本需要人手完成的小任务：一句话可以记账、算清一笔收入、改一句表达、顺手做一个行程规划。

输入法这个原本最基础、最熟悉的工具，正在被重新定义成一个 " 随叫随用 " 的 AI 入口。

更重要的是，这种变化发生在桌面端，AI 能力能够被直接嵌进日常最频繁使用的输入场景里，慢慢变成工作流的一部分。

当然，从碎碎念整理、中英混说到人设表达的稳定性来看，小凹仍然处在不断打磨的过程中，但方向已经很清楚，AI 已经开始更具体地参与到用户每天的工作中。

宙世代

一起剪

相关标签