
AI 应用风向标(公众号:ZhidxcomAI)
作者|江宇
编辑|漠影
智东西 12 月 10 日报道,今日,智谱正式发布并开源 GLM-ASR 系列语音识别模型,并同步上线了基于该模型打造的桌面端智谱 AI 输入法 " 小凹 "。
相比传统语音输入只能 " 把话变成字 ",小凹在输入框中即可完成翻译、改写、计算、规划等指令操作。
我们在实际体验中发现,小凹不仅能在实现相对稳定的语音转写,还能顺着用户的口语进行内容整理、风格转换或直接完成小任务。
例如随口报账、算工资、安排旅行、甚至解一道数学证明题,它都能跟上。而对于碎碎念、自我修正和中英混说等复杂口语,小凹也能给出相应结果,但整体稳定性仍有提升空间。
与此同时,智谱此次还开源了 1.5B 参数量的端侧模型 GLM-ASR-Nano-2512,重点面向本地低延迟与隐私场景,在部分公开测试集上达到开源 SOTA 表现。
GLM-ASR-2512 使用指南:
https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
体验中心:
https://bigmodel.cn/trialcenter/modeltrial/voice
接口文档:
https://docs.bigmodel.cn/api-reference/ 模型 -api/ 语音转文本
GLM-ASR-Nano-2512 开源地址:
Hugging Face:https://huggingface.co/zai-org/GLM-ASR-Nano-2512
魔搭社区:
https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512
一、从云侧到端侧,语音识别被直接塞进输入法
这次同步发布的 GLM-ASR-2512 是一款云端语音识别模型,支持实时语音转文字,在多语种、多口音与复杂环境下进行过稳定性测试,其字符错误率(CER)仅为 0.0717。
同时开源的 GLM-ASR-Nano-2512 则是一款约 1.5B 参数规模的端侧模型,主打本地运行,在延迟和隐私层面更友好。它在开源语音识别方向已达到 SOTA 水平,在部分测试中甚至超过了若干闭源模型。

GLM-ASR-Nano 与多款主流语音识别模型在多个公开数据集上的识别错误率对比
围绕这套模型能力,智谱将语音识别直接嵌入桌面端输入法中,使语音可以直接驱动翻译、改写、扩写、情绪表达转换与计算等一系列后续操作,用户在输入框中即可完成从语音到结果的完整流程,不需要再切换窗口,也不需要复制粘贴,光标在哪,说完就能直接替换。
二、语音不只转文字,还能顺着你的话去改、去算、去规划
在实际体验中,首次使用需要跳转浏览器完成手机号登录,并进行麦克风和 " 允许粘贴文字 " 基础权限授权。

使用浏览器登录以使用小凹语言服务

麦克风和 " 允许粘贴文字 " 基础权限授权
完成授权后,输入法会自动跳转到一个体验界面,主要用于语音调试和熟悉核心功能。随后,进入输入法主页,整体界面分成 " 首页 "" 词典 " 和 " 人设 " 三个主要区域。
首页更像是一个 " 使用仪表盘 ",会把近期的语音输入时长、生成文字数量以及按打字速度粗略计算的节省时间都展示出来,底部还会自动记录用户一天内的输入内容,方便回看。

智谱 AI 输入法主页
" 词典 " 是一个用于维护专有名词和口头表达的小工具栏。它会自动学习用户经常说的词,但也允许用户手动添加项目名、人名、行业术语等,避免转写时出现错误。

词典页面
再往下是 " 人设 " 页面,可以说是输入法里 AI 化最明显的部分。这里不仅能看到多个预置的人设,如 " 默认风格 "" 自动翻译 "" 命令行大神 "" 面对老板 "" 面对伴侣 "" 面对同事 " 等,每一个都带着对应的表达语气。同时也支持用户自己新建人设,调整语气、表达方式或行为偏好。点开任意人设,右侧会显示可编辑的描述区域。

人设页面
进入正式体验后,我先从最基础、也是最贴近日常使用的场景开始试起。
看到案例里它能把说错的日期和时间自动整理成最终确认的结果,我也顺手用了一种接近真实口头表达的方式来测试。

我像平时说话一样随口讲:" 呃呃我打算九点召开一个会议,嗯 …… 算了,还是十一点吧。"
在多轮尝试后,最终才得到的预期结果 " 我打算在十一点召开一个会议 "。可见,它对口语中自我修正和停顿词的自动处理,目前还谈不上完全稳定。

在更为复杂的一轮测试中,我直接口语输入了一整段中英文混杂的工作沟通内容:" 这次 Q3 的 marketing campaign involves our research team,leverage on 他们新出的报告吧,然后费用的话 charge Joanna 部门,问一下他明天有没有时间一起过一下 budget,上周五你 present 的 deck 等会可以发我一下吗?也 cc 一下 Jennifer 吧。"
在这一轮中英混说的测试中,系统虽然能基本还原语句结构,但英文部分的识别准确性一般,连续表达时容易出现偏差。
随后我测试了人设表达功能,分别选择了 " 面对老板 " 和 " 面对伴侣 ",输入同一条 " 抱歉,我临时有事,下午去不了了 ",两种人设在语气上整体差异并不大。

" 面对老板 " 这一人设的输出结果

" 面对伴侣 " 这一人设的输出结果
如果希望达到展示案例中的明显风格切换效果,或仍需要在自定义人设中补充更明确的提示语。

人设功能的官方案例展示
而面对开发者," 命令行大神 " 这一人设则具备一定的实用性,我语音输入 " 显示当前所有 python 进程的进程号 " 后,系统功能直接给出标准命令结果。

" 命令行大神 " 这一人设的输出结果
随后我又连续语音提问 " 小凹,智谱 AI 输入法的优势在哪里 " 和 " 为什么语音输入比键盘输入更友好 ",感觉更像是在输入法里直接 " 召唤 " 了一个 AI 助手,答案不是弹窗形式出现,而是直接生成在光标位置,这两次提问都能正常给出解释性回复。

解释性回答
此外,在选中文本后,说出 " 翻译成英文 "、" 翻译成日文 " 和 " 翻译成四川话 ",结果均可即时替换,光标所选即所改的模式在编辑过程中比较高效。

在更偏向生活类的小任务里,我先试了一个随口报账的场景:" 嘿小凹,帮我记一下今天的账单,我早上吃饭花了六块五,中午快餐二十五,晚上看电影三十九,晚饭一百。" 输入法能把这些数字正确记录下来,自动汇总结算。

记账
随后,我又试了试计算工资的场景:" 嘿小凹,计算一下年薪有多少?月工资三十 k,签字费五万,十万期权分两年发放。" 系统能把这些条件拆开并算出一个明确的结果,用语音完成这种小型算式比预想中顺滑。

算工资
再往后我测试了一个规划任务,比如 " 嘿小凹,我想去上海玩两天,从北京出发,帮我制定一个旅行计划。" 它也能给出一个结构化的行程建议。

行程规划
此外,我还抛了一道数学证明题进去,系统不仅给了过程,还在听到有歧义的部分时主动提示:" 题目中的‘ 1+x 分之 x ’我理解为‘ 1+x/x ’。" 这种在语音表达容易含糊时给出的额外说明,对纯语音输入来说还是挺关键的。

此外,在完成全部功能测试后,我又把 " 小凹 " 放进了真正的写作流程中。这篇稿子里,约有 90% 的内容,是通过语音直接生成在输入框里的,很多段落几乎是 " 边想边说 " 就成型了。我也第一次明显感觉到,输入方式正在反过来影响写作思路。
结语:输入法很可能会成为 AI 下一个高频入口
从这次整体体验来看,小凹的变化在于它开始接管一部分原本需要人手完成的小任务:一句话可以记账、算清一笔收入、改一句表达、顺手做一个行程规划。
输入法这个原本最基础、最熟悉的工具,正在被重新定义成一个 " 随叫随用 " 的 AI 入口。
更重要的是,这种变化发生在桌面端,AI 能力能够被直接嵌进日常最频繁使用的输入场景里,慢慢变成工作流的一部分。
当然,从碎碎念整理、中英混说到人设表达的稳定性来看,小凹仍然处在不断打磨的过程中,但方向已经很清楚,AI 已经开始更具体地参与到用户每天的工作中。


登录后才可以发布评论哦
打开小程序可以发布评论哦