作者|宋婉心
编辑|郑怀舟
进入 2024 年,国内大模型开始走入不同于海外同行的发展路线——从投入底层模型转向探索应用层。
在 C 端,普通用户对于大模型到底存在怎样的真实需求,是厂商们实现 AI 落地的关键。
前段时间在迪拜举办的 GITEX GLOBAL 大会上,Soul 展示了其在大模型落地社交场景的最新进展,比如最新自研的 3D 虚拟人多模态 AI 交互体验。会上,36 氪和 Soul CTO 陶明进行了交流。
从以语音语义理解为基础的大模型横空出世以来," 聊天 " 就是刻在大模型骨子里的应用场景,如今诸多大模型厂商的产品,也是以聊天为场景来做搜索及互动。
但进一步的问题也随之浮出水面,用户为什么要和机器人聊天?这样的一对一聊天能持续多久?这一需求量有多少?
陶明向 36 氪表示,从 Soul 的实践来看,如果人和 AI 不在场景里面," 持续地聊天 " 有很大门槛。这也是当下 AI 聊天产品共同面临的难点。
"AI 只具备认知能力并不够人格化,还必须要有感知和长记忆能力,才能给用户带来更多的体验。"
2020 年时,Soul 就已正式启动对 AIGC 的技术研发工作。目前,Soul 已先后上线了自研语言大模型 Soul X,以及语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。
而如果从更早先的基因来看,在 2016 年创立之初,Soul 就是一款基于 AI 推荐技术的陌生人社交产品。
当时 Soul 没有采用导入通讯录现实关系或者 LBS 的模式,而是采用了 AI 的解决方案,通过基于 AI 算法的灵犀引擎,对用户在平台上的内容及行为进行分析,并推荐存在社交可能性的其他用户。
到了大模型时代,Soul 拥有了更好的 AI 工具后,如何革新社交场景?以下是 36 氪和 Soul CTO 陶明的对谈精编:
01 关于 AI 在 Soul 的应用
36 氪:看到 Soul 在 Gitex 主要展示的还是国内版本,海外的还没上,原因是什么?
陶明:我们在海外有产品,但体验层面其实以及说给用户端创造的这种粘性还不太够,所以没有把海外的产品给放出来。
但不管是海外产品还是主产品,只是面向不同的市场,有不同的产品表现形式、功能以及场景,但底层希望把它打通,所以展示的基础技术能力是一样的。
36 氪:Soul 的两个 AI 模型在降本增效上有怎样的体现?
陶明:一个(模型)是基于形象层面的 3D 大模型。Soul 从 2020 年就开始探索,希望用户在空间中打造另一个人设,同时一键生成自己的形象;另外一个是多模态大模型,希望用户在 Soul 里面不仅能跟真人进行对话,还能跟 AI 进行对话。这两条线并行往前走,AI 大模型感知层面已经蛮成熟。
组织层面来讲,原来的各个职能进行了重组,分 NLP、3D、CV、语音等,团队把面向单模态模型的所有工作全部 close 掉,打造一个融合团队来构建多模态模型。
技术层面,组织一定会带来技术方向的改变,所以现在整个技术上只有两条线,一条线是围绕类似 GPU 融合去打造 3D、CV、语音的多模态模型;另外一条线是围绕最近 OpenAI 发布的 o1 模型这个思路去尝试。
我们现在已经非常聚焦,不会在其他的技术分支上再投入资源。这样的话其实就相对降本了。
36 氪:从用户本身来说,和一个数字人进行交流,是否是一个真实需求?
陶明:人机对话是产品基础的原子能力,但不能直接把原子能力推向用户,而要构建一个 AI being 和 Human being 共存的社区。这个社区其实并不是单点聊天就能够维持住的,需要更多 AI 与人共处的场景。
另外在单聊这一块,包括大模型六小虎在内,他们做的一些 AI 聊天产品,都有能力单独聊,但难的是 " 持续地聊 ",人和 AI 不在场景里面,单聊是有蛮大门槛的。
所以为什么我们要坚持 GPT-4o 这个方向,AI 只具备认知能力并不够人格化,还必须要有感知能力,才能给用户带来更多的体验。
36 氪:按照那些交互场景的方向往下发展,它跟奇迹暖暖这样的陪伴式游戏有什么区别?
陶明:恋与制作人这种,聊天互动是一次性的,但 Soul 的不同是,比如今天你感冒了,它可能第三天还会记得并问你感冒好了没有,这个感受是完全不一样的,这和 " 你说一句他回一句的 " 机械式沟通完全不一样。
所以一定要加强 AI 的感知和记忆能力,这是最重要的事情,
36 氪:如何实现 AI 的长记忆能力?
陶明:最开始是搜索思路,回答之前搜机库把答案存下来;后来做了个 AI 小模型,在进入对话大模型之前,小模型会帮用户提炼记忆点,可能有数百个记忆点,时间越长记忆点所涉及范围会越广。
现在设想的是对长记忆数据直接输入进去,但这是一个大的技术方向,里面还有很多细节,比如记忆不能说完全是持续的,比如整个记忆里面某个点重复多次,不同时间点感冒应该取哪一次?不同场景是不一样的,这需要人工去做一些标注辅助,不是一个模型就能解决的。
所以,端到端去解决用户体验还有改进空间,抛开产品、运营,很难纯技术解决端到端。
36 氪:目前 soul 更看重的指标什么,是用户的时长还是用户的单人资产成本等?
陶明:现在还是更关注活跃用户,因为时长并不能代表全面的活跃概念,所以还要看全盘的活跃。因为 AI 本身是一个普惠的工具,不能只是去服务某一群人,而是 Soul 里面任何一个用户都能够受益。
02 关于大模型应用前景
36 氪:你们训练是租赁芯片吗?
陶明:有两种类型,我们自身没有 ABC 类机房,一方面我们在各个云平台买了独占的卡,另外一方面买了一些弹性的卡。
这也是从成本的角度去考虑,如果去年买了几千张卡,到今年卡的价值就已经下降了 60% 了。我们现在在整合资源的层面,尽量把固定成本转变为可变成本。
36 氪:现在行业内大模型研发难点在哪?
陶明:没卡。我之前在美国,跟 Llama 的人聊过这个事情,因为 Llama 的一些技术文档其实非常详细,我就问,这么详细不怕你的竞争对手或者海外的一些客户会追上你吗?
他们说,释放这种技术文档,其实很多人看到了,但是他没法去做,原因就是没有卡。此外还有时间问题,每个技术细节去跑训练需要大量时间。
36 氪:六小虎里有的公司预训练节奏开始收缩了。
陶明:因为在预训练层面的概念,大家已经看到天花板在哪里了,所以是当前立马达到天花板、还是短期达到、还是未来长期达到,都是一样的,已经没有意义了。当面对一个确定性的东西,知道每个玩家最后的底牌是什么,大家的心态就变得没有那么焦虑了。
36 氪:所以你觉得瓶颈在哪?英伟达吗?
陶明:最终是在英伟达,但现在看来 OpenAI 还在引领。
36 氪:大模型更新的主要瓶颈是因为 B200 还没上市么?
陶明:对,它是一个很重要的因素。但对国内来讲,现在其实不是资源的问题,国内资源没有那么缺乏,尤其是从去年下半年开始,原来很多囤卡的卡商现在都在抛货,只要想去拿都能拿得到,就看愿不愿意投资做这么大的投入。
但海外确实是卡资源的问题,国内短期不是算力的问题,是每家公司短期怎么干的问题,相当于六小虎搞预训练,比如要达到 GPT 的水平,但达到之后又能做什么,下一步怎么办?其实还想不到。
36 氪:这一轮 AI 技术浪潮,你们是产品推着技术往前走还是技术研发推着产品发展?
陶明:原来的逻辑是产品出需求,然后技术实现,现在情况会有一些不同。
现在 Soul 内部有一个群,这个群里产品和 AI 算法工程师,都可以提需求,其实换句话来讲已经不分产品和工程师了,从现阶段来看,工程师提的需求反而会更多一点。
技术工程师更知道 AI 现在能做什么,不能做什么,所以他们提的很多需求是具有确定性的,但这种情况是当下技术阶段决定的,关于 AI 的边界,最终产品和工程师的认知会拉平。
36 氪:现在技术团队大概有多少人?
陶明:技术团队不到三四百人的规模,但是 AI 这块占了将近一半。
36 氪:AI 的人是新增的还是以前的人转的?
陶明:原来就有这块职能的人,现在又扩充了。
关注获取更多资讯
登录后才可以发布评论哦
打开小程序可以发布评论哦