36氪 08-30
智谱AI的“类GPT-4o”,让我看到了作业帮、小红书、下厨房的影子
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文|周鑫雨

编辑|苏建勋

卷出第一个国产版 GPT-4o 的,是智谱 AI。

智谱 AI 的 2024 年主题,一定是在多模态赛道上狂奔。先是 2024 年 7 月 26 日,智谱 AI 上线了类 Sora 的视频生成模型 " 智谱清影 "。团队邀请大家使用和反馈的诚意也很足——比起发布半年多了还没开放的 Sora," 清影 " 上来就是免费不限量。

一个月后的 8 月 29 日,在国际数据挖掘与知识发现大会(KDD)上,智谱 AI 带着国产版《Her》、类 GPT-4o 炸了一波场——在 C 端产品 " 智谱清言 " 中,智谱 AI 首次上线了 " 视频通话 " 功能

这意味着,当 " 懂王 "AI 长了眼睛、有了情绪,人与 AI 的交互方式,离人与人更近了一步。

比如 AI 也跟上了潮流。最近刷屏游戏圈的《黑神话:悟空》,智谱清言看到后 " 秒懂 ",还能和你唠两句。

同时,智谱 AI 还放出了最新版的 " 多模态模型全家桶 ",比如能看懂视频和网页的视觉模型 GLM-4V-Plus,支持图片编辑的文生图模型 CogView-3-Plus。

语言基座模型 GLM,也迭代到了 GLM-4-Plus 版本,更能玩转长文本,也更会做数学题。

智谱版 GPT-4o 的玩法:辅导作业、口语教练、厨房管家

曾经,GPT-4o 的 " 三段感情迭代 ",惊艳了一大批用户。但智谱清言像是个大直男,当要求它 " 更有感情一点 ",它会理性地朝你 " 泼冷水 ":作为一个人工智能,无法表达感情。

不过,智谱清言的视频通话功能,有更适合中国人 " 活到老学到老 " 体质的玩法。

比如,它可以是你的随身英语教师。打开摄像头后,你也能体验一把 " 走到哪,问到哪,学到哪 " 的高浓度英语学习。

 

△询问番茄的英文。来源:智谱 AI

当然,它也可以是 " 哪里不懂拍哪里 " 的数学老师。智谱清言的讲解,质量甚至和真人教师有的一拼,不仅循循善诱,还有问答互动。家长再也不用为辅导作业而烦恼!

 

△解答混合运算选择题。来源:智谱 AI

平时在家,智谱清言也揽下了生活管家的活。

比如,它能一眼认出瑞幸的包装袋,立马给你来了一段瑞幸历史的科普。不过,智谱清言最后开了小差,将本意为咖啡该怎么储存的问题,理解成了包装袋该怎么储存……

 

△识别瑞幸包装袋。来源:智谱 AI

目前,视频通话的过程还无法储存在历史记录中。不过,有了 " 长了眼 " 的智谱清言,就仿佛同时下载了作业帮、小红书和下厨房。

新视觉模型上线,看得懂视频,也看得透网页源代码

对于智谱 AI 而言,2024 年绝对是在多模态上狂飙的一年。

在 KDD 上,智谱 AI 更新了 " 模型全家桶 ",既发布了新一代的语言基座模型,也发布了升级后的多模态家族:图像 / 视频理解模型 GLM-4V-Plus、文生图模型 CogView-3-Plus。

先来看语言基座模型 GLM-4-Plus。

有意思的是,GLM-4-Plus 的训练,大量采用了高质量模型合成数据。事实证明,AI 合成数据已经可以有效运用于模型训练,降低训练数据的获取成本。

从结果来看,GLM-4-Plus 的语言理解能力,与 GPT-4o 和 Llama3.1-405B 不相上下。

△综合能力 benchmark。图源:智谱 AI

而在长文本能力的表现上,GLM-4-Plus 和 GPT-4o、Claude 3.5 Sonnet 两个顶尖模型也并驾齐驱。在清华大学刘知远团队做的长文本测试集 InfiniteBench 上,GLM-4-Plus 甚至略优于两个国外天花板模型。

△长文本能力 benchmark。图源:智谱 AI

同时,通过采取近端策略优化 ( PPO,一种提升复杂任务决策能力的训练方法 ) ,GLM-4-Plus 的数据、代码算法等推理能力有了明显提升,并且能够更好反映人类偏好。

目前,GLM-4-Plus 百万 Tokens 的处理价格为 50 元,与百度最新的大模型 ERNIE 4.0 Turbo 差不多持平(百万 Tokens 输入 30 元、输出 60 元)。

△ GLM-4-Plus 定价。

多模态能力的更新,是最精彩的部分。

相较于上一代 GLM-4V,视觉大模型 GLM-4V-Plus 增加了视频和网页理解能力。

△视觉能力 benchmark。图源:智谱 AI

比如,只要输入智谱 AI 官网的截图,GLM-4V-Plus 立刻就能转化成 html 代码,帮助你快速复刻网站。

△ GLM-4V-Plus 能力测试。图源:作者测试

与一般视频理解模型不同,GLM-4V-Plus 不仅看得懂复杂视频,还具备时间感知能力。这意味着你问模型视频第 xx 秒的内容,它也能给出答案。不过截至发稿前,智谱 AI 开放平台的模型体验区还不支持上传视频。

美中不足的是,相较于逆天的视觉多模态理解能力,GLM-4V-Plus 的多轮对话和文本理解能力显得有些 " 拉垮 "。看来,GLM-4V-Plus 离成为 GPT-4o,还有相当距离。

△ GLM-4V-Plus 视频理解能力。图源:智谱 AI

在 KDD 上,智谱 AI 还发布了新一代的文生图模型 CogView-3-Plus。与近期文生图界的 " 当红炸子鸡 "FLUX 相比,CogView-3-Plus 20s 版本的各项能力基本能打平。

△文生图能力 benchmark。图源:智谱 AI

输入提示词:桌子上有一台笔记本电脑,电脑旁边放着一个透明玻璃杯,这是一个圆柱形的杯子,半杯水还冒着热气,杯身折射了些许阳光。

△ CogView-3-Plus 能力测试。图源:作者测试

同时,CogView-3-Plus 也支持图片编辑功能,比如改变图中物体的颜色、替换物品等等。

△ CogView-3-Plus 图片编辑。图源:智谱 AI

给 2024 年 1 月发布的几款模型,加上 "Plus" 的后缀,智谱 AI 花了超过 7 个月——这也是 2023 年以来,智谱 AI 发布模型的最长周期。

可见的是,GPT-4o,对于 AI 大模型企业而言,是一道能力的分水岭。随着多模态能力的融合,语言理解的 " 黑箱 " 刚被打开,又很快被 GPT-4o 合上了。

多数国内模型厂商的策略是:分而治之,先增强不同模态的单模态模型能力,再攻克融合的难题。

智谱 AI 的模型矩阵,目前仍然在各自迭代能力的 " 分治 " 阶段,而视频通话功能的上线,让用户已经看到了初步多模融合的影子。

欢迎交流

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 作业帮 瑞幸 小红书
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论