
内容来源:张小珺(张小珺商业访谈录)对小米AI大模型负责人罗福莉采访的内容整理。
责编 | 柒 排版 | 沐言
第 9612篇深度好文:10104 | 25分钟阅读
商业思维
笔记君说:
技术,已经"变天"了。
过去我们总以为,大模型拼的是参数、是算力、是预训练。但就在看完张小珺对罗福莉的访谈后,我们可以发现竞争的"第二幕"已经拉开,赛点变了,游戏规则也变了。
Open Claw一个开源的Agent框架,居然能让一个表现平平的"中层模型",激发出顶尖模型的上限。一群没有大模型经验的人,居然能在三四周内,干完以前三四十周才能干完的事。
这背后,不仅是技术的突变,更是组织和人的范式转移。
罗福莉在这篇访谈里,聊了很多:为什么她让团队"不用AI就辞职"?为什么她觉得"规范和约束是压制创造力的"?又为什么她判定,AGI(通用人工智能)两年内就会实现?
读完之后,你可能也会有一种"坐不住"的感觉。这个时代变化太快了,快到只争朝夕。
但她也给了我们一种力量。那就是,在巨变面前,最好的应对方式,不是焦虑,而是"把每天的研究都做好"。
以下为张小珺商业访谈对话罗福莉的精编内容整理版,希望对你有所帮助。
一、OpenClaw时刻:
我被一个开源框架彻底震撼
1. 三天,我经历了认知的三级跳
我把OpenClaw当做一个"划时代的Agent(智能体)框架"去定义。
第一次看到这个东西是1月份,我很排斥。
觉得它就是Claude Code(Anthropic推出的AI编程工具)加一个IM(即时通信)、更有利于交互的UI(用户界面)设计。
加上创始人很会做一些玄幻的运营动作,什么Skillhub(技能中心)之类的,让你更排斥。它所谓的本地化、24小时,在我看来都是产品定义而已。
真正转变发生在春节的一天深夜。
我想搞明白这东西为什么那么火,尝试装了它,折腾两个小时装上了。第一次跟它对话,从凌晨2点持续到6点天亮。那一晚我脑内的多巴胺还是内啡肽,持续在分泌,兴奋到完全睡不着觉。
第一个感受是它非常有自主性,非常有灵魂。
聊到很晚,它会老提醒我:现在已经很晚,你要不早点去睡觉。这样的温度和关怀,是所有人用OpenClaw第一个感受到的。但你深究原因,是有很多机制保证的。
比如它怎么感知时间?就在每轮对话的Context(上下文)前面拼上当前时间。
我把它叫做"精细编排的Context",它在大家没关注的角度,把Context编排得非常好。产品设计做到了一种超乎想象的地步,让所有人觉得这个框架有灵魂。

但第二天晚上,我开始把觉得框架做不成的日常生活中的事交给它做,发现它全部都做出来了。
我跟它聊了第二个话题:怎么去激发一个团队的好奇心?怎么筛选具有好奇心的人?深入探讨了一个小时,它的很多哲思远超我的想象。
接着我们聊怎么构建一个更好的大模型团队,从人员筛选到组织架构,到面临范式转变时该做什么。它完全能get我的点,最后形成一套体系化的东西,并且变成一套Skills(技能)。在这个事情上,它变成了我的数字分身。

真正超乎意料是第三天。我尝试把研究任务交给它。Agent框架里最关键的事是进行多轮交互,那就必须模拟User Agent(用户代理)进行多轮交互。我跟它沟通一两个小时,这个事基本就做出来了,已经诞生了一个很好的User Agent。
我可以用这个跟我的Post-train(后训练)框架构造更丰富的Agent场景数据,不管是做SFT(Supervised Fine-Tuning,监督微调)还是RL(Reinforcement Learning,强化学习),这个User Agent都非常关键。
从一个有灵魂、有温度的产品,到帮我替代生活或工作的一部分,到最后能促进我的研究,三天发生的。它每天都能给我额外的更多惊喜。
2.这个框架到底好在哪?
后边我深入去看,这些所谓好在哪,单独拎出来讲都有点boring(无聊),没有很酷,这也是大家觉得OpenClaw有很多槽点的原因。但把它整合在一起,完成度非常高。
它有更持久的memory(记忆)体系,对memory有分层和分级,我在Claude Code里完全没有这样的感受。
在对多个模型联合利用上也非常超乎我的想象。我直接发给它一段视频,它会自己想办法找一个视频理解能力好的模型做。
这种自主去面对模型缺点、在框架上补齐的能力,很超乎我意料。OpenClaw的框架设计之初,就是想尽量通过Agent的整套编排去弥补模型短板。
我们把没做针对性训练的MiMo-V2-Flash(我们的小米多模态模型)接进去,甚至把最近训的一个很小的端侧3B(30亿参数)模型放进去,发现这一套复杂的Agent框架下,它依然能做我认为不可能是一个非常小的模型能做出来的事。
我第一次感受到:原来一套非常复杂的Agent框架设计,是能弥补非常多模型能力的短板的。

紧接着第二个问题就来了:现在市场上Agent框架非常丰富,你怎么让你的模型在不同框架上都有一个稳定和超预期的表现?怎么让你的后训练范式做适配和迁移?所以,我们整个后训练范式,有了从Chat到Agent的迁移。
3.一个好的框架,应该弥补行动的缺陷
一个非常好的框架,应该尽量去弥补行动上的缺陷。
很好的memory系统是弥补行动缺陷,接入更广泛的message channel(消息通道)是弥补行动缺陷,更主动的定时任务和自更新迭代,都是在弥补行动上的缺陷。
大模型是你给它越好的Context,执行效果越好。你能把这些它获取不到的、行动上的Context都给它,它肯定会完成得更好。
还有很关键的一环是评估。现在已有的评估体系都非常简单,只防止不出致命性错误。怎么有更有泛化力的评估体系来促进框架自迭代?现在是把最高阶那群人当评估。
你交给它更难、更高价值场景的任务,完成不了就给它补充信息,指出错在哪,push它经过更多轮交互完成。这个评估会慢慢被框架吸收,也会被模型能力吸收。
但Agent框架跟产品差异蛮大。产品是你直接人交互能感受的那一层东西,Agent框架同时在定义你怎么跟模型沟通那一层,它甚至知道模型能力的长板短板,知道怎么做调度。
这个中间层可以做得非常厚重,前端UI展示反而是最薄的一层。OpenClaw展示了Agent框架可以怎么做,想象空间非常大。
Claude Code一直是一套很复杂的Agent框架,但它是黑盒。OpenClaw是开源的,你知道它怎么设计的,你可以去改它。改它,是非常非常激发人的创造力的。
从二点几版本不好用,到三点几版本非常易用,因为整个Agent的架构被一堆人,开发者也好,像我这种使用者也好,大家都可以改进它。在我看来,这是开源Agent框架本身的价值和意义。

4.顶尖模型+顶尖框架:自学习的发生
如果追求最顶尖的编程体验,哪怕当下也是Claude Code加Claude Opus 4.6(Anthropic的最强模型)最好。
但Code(代码)是一个泛化性非常强的场景,不代表你能在非Code场景也做到很高的准确率和完成度。我用OpenClaw不用考虑这些,框架本身就弥补了很多模型短板。
同时它在很多设计逻辑上,比如更多message channel、定时任务、心跳任务,更适合日常场景。但它没有丢弃好Agent框架的基本特点,比如持久化记忆,这些后被Claude Code吸纳进去了,这是双向触动。
因为这些设计,它激发了中层模型的上限。借助这套框架,一个中层模型(85%任务达到Claude Sonnet水准)能应付绝大部分场景。
当然上限一定是靠Claude Opus4.6带来的。我和它高强度合作一周,只用Opus,因为只有它能带来惊艳感。
但我让Opus帮我改好框架,再切换到Sonnet(Claude的中档模型),甚至切换到我们当时正在训的MiMo-V2-Pro,就觉得很强大。顶尖的模型,应该跟顶尖的Agent框架,共同往前去进步。

"自学习"大概率发生的途径,是你需要这个模型跟Agent的架构本身同步往前走。
模型在进步时,也改变你的Agent框架,包含静态信息如Memory、Skill Fold(技能文件夹),还有动态信息如整个Agent架构设计。这些让我第一次感受到,"Agent的自学习"到底是怎么发生的。
5.被开源框架激活的群体智能
高强度交互第一周,第一天快花了1000美金。后面人的适应性非常强,第一天很惊艳的东西,第二天就不惊艳了。
Opus帮我把框架打造好后,让我惊艳的事情越来越少。现在缺乏的是想象力和成本速度的优化。一个人通常是薄弱的,会有认知坍缩。
春节那几天高度兴奋,我在群里强烈推荐大家使用,但没人搭理我。大家觉得过于玄幻的东西太不真实了,我也是这个感觉。
第二天我觉得不行了,必须让大家去用。我给大家下了一个指令:第二天OpenClaw对话次数不超过100轮的人,可以直接quit(辞职)。
我不会最终去考核,只是想表达一种态度:你不用,你可能真的要落后了。
春节回来过后两天,整个团队在群里躁动。你看别人能完成这个事,你也很想玩。群消息10分钟不看就999+,非常happy(开心)。
玩了两天,大家发现这么好玩,那搞啊!马上进入研究范式:怎么借助Agent框架提升模型能力,同时让模型改变Agent框架。我们三四周做完了以前三四十周才能做到的事。
最有冲击的是大家一块改框架本身。在一个近100人的群里,它的memory做得非常智能,对每个人画像把控都没有串得太厉害。100多个人疯狂改它,没有把框架改坏,它还变得更智能。
这是我第一次感受到,怎么用一群人的智慧去提升一个事情。如果我自己单一去改,进步速度非常慢。一群人去改进,几小时就迭代一轮。

这个事给我们带来一个冲击:利用群体智能去提升Agent框架非常重要。
我非常欣喜看到OpenClaw star量(GitHub收藏数)飞升,这是AGI(Artificial General Intelligence,通用人工智能)到来前兆必须要有的事情。
它卖给OpenAI后,开源没变,还是可以在这套框架基础上大家一块设计更好的Agent架构,这种群体演变的可能和基因火种是保留的,挺好的。
二、巨变的2026:
生产力爆发的Agent时代
1.Code为什么有泛化力?
接下来我就去搞明白,为什么Code是一个非常有泛化力的事情,以及怎么把Code的泛化力外延到其他领域。
Code有泛化力的最本质原因:Agent是一个非常长程和多轮的任务。回到预训练,你很难找到一兆上下文(1M token context)的数据,能达到128K(12.8万)到一兆长度的数据,极大概率只有Code数据和书籍。
书籍信号太发散,Code文件之间关联更强,在一个长上下文依赖更密集的数据集上训练,模型自然对长上下文建模更好。
基座本身为长上下文的能力和效率做了准备,春节后就是激发它从Code出发外延到其他场景。Code是拉它的上限,训其他领域是保它的下限。

软件开发是一个非常长程的任务,把它做好了,很多模型通用特质就好了,Agent框架本身也迭代好了。这些框架都有泛化性,能泛化到更难的长程任务里。
我们做了两件事:
一是在Agent场景里构造真的长程任务训练进去,在上面scaling(扩展)大量SFT和RL训练;
二是靠群体智慧覆盖更多领域,发掘更广泛场景来合成更多数据。
一兆上下文基本很少是做单一任务,通常在做复杂任务。
训练一兆的trajectory(轨迹)非常慢,即使TPS(Transactions Per Second,每秒事务处理量)做到80到100,也要一两个小时。真实训练不会在这么长程的任务上训。
但当你有在一兆Context预训练过,后训练有对应任务激活一下,通常就能具备一兆的能力。现在一兆上下文能力稳定度上,只有Claude Opus 4.6和Sonnet领先,其他像Gemini(谷歌的大模型)都不行。
2.为什么OpenClaw在中国更火?
我看到"西虾东养"的说法。可能一个原因是中国的开发者更多,效率提升是我们血液里边的东西。OpenClaw能把效率提升拉到极致。
还有一个原因跟国内大模型发展密切相关。绝大部分效率提升场景,85%不需要最顶尖的模型。
我们有很多便宜好用的模型,花10块钱的API(应用程序接口)就能帮你干完1000块钱的事,你当然愿意用。国内大部分模型可能刚靠近Claude Sonnet和Opus水平,反而在这握手了。
我一开始也以为不难,后面发现它整个Agent设计非常巧妙,弥补了很多模型短板。我怀疑它最开始是基于Claude上一代模型做的,所以必须在框架设计上更精细。现在模型能力继续提升,精巧编排还是需要的,出于成本考量。
不可能所有场景都用最顶尖模型,太贵了。
Agent在进化,模型在进化,可能现在10B(100亿参数)模型过一年就能做到Opus水平,一两块钱百万token(词元),反应更快更灵敏。它让不那么好的模型,有了更好的发挥空间。
3.Skills提供了一种交互方式,让人主动贡献数据
之前讲的Agent,在我的定义不算Agent,只是上下文稍复杂一点的Chat。
不管是BrowseComp(谷歌的浏览器理解基准),还是SWE-bench(软件工程基准),Agent框架太简洁,不通用,只能for特定任务设定。
很多看似for Agent的模型,只是换了更复杂的System prompts(系统提示词),稍微带点环境反馈,根本没达到工业级可用。
什么叫工业级可用?接到Claude Code或OpenClaw里能用,才叫可用。

人跟它交互范式的最大变化是:人不再去修改代码,不再说"这一行出错了帮我改一下"。人只会提更高阶的东西:增加限制、澄清需求、架构设计、辅助理解业务逻辑。
业务逻辑是模型本身不具备的,因为很多是企业内部真实环境沉淀下来的,你必须跟它很多轮交互才会沉淀下来。这就是Skills的价值。
当你面临很大范式变化,只要路径走对了,可以短暂忽略评估,体感就能测出质的差异。但进入深水区,还是需要精细评估。
Skills定义了一套执行规范,这些规范很难在预训练数据里具备,因为预训练数据里没有企业内部的这些信息。但可以由人教Agent,跟它多轮交互,把这套规范让Agent学会。大量Skills其实是Agent自己写的。
确实是OpenClaw把Skills给带火的,让更多人去贡献Skills社区,这非常关键,这就是人跟Agent需要共创的地方。
预训练大部分依赖的知识是互联网可访问的,但很多智能我们在互联网上访问不到。Skills提供了一种交互的方式,让人主动贡献数据,贡献让模型执行任务成功率更高的方式。
4.今年生产力会爆发
今年生产力会爆发,大家会觉得很多工作不需要自己做了。不仅是写代码的人,只要你接触到,就会发现好多工作会被替代。这时候人更应该去思考,到底自己的意义和价值是什么?
国内也出现了各种Claw,但真正让框架自迭代、强调自进化的,还没有大规模出现。框架本身的自进化,Agent本身的自进化,Agent跟人之间的自进化,我还没看到。
我们现在做的是train(训练)更好的model for Agent,让Agent适应model,在做Agent跟model之间双向流动。未来需要做的是怎么让框架自己进化,以及框架跟人互相进化。
现在拥有Long Context(长上下文)、高效模型架构、Code能力好的厂商,参数1T(1万亿参数)以上,基本都在同一水平线。Anthropic走前面了,但上一个时代的成功并不意味着下一个时代的领先。
5.它先吸收所有人的智能,再靠自己产生更强的智能
之前做研究从想到写代码到设计评估,至少要一两周。在Agent辅助下,真的一两小时就做完。我一直把研究效率看得很关键,Agent加速了这个效率。
你的taste(品位)准,就一做一个准。十个idea(想法)可以并行,交给不同subagent(子智能体)同时做,还能交叉验证,最多一天就能验证研究想法OK不OK。
关键是你愿意长期培养它,它可以自迭代。就训模型这个事,以前我觉得很难,不太可能。
最近发现它聪明到只要你把近期Context告诉它,它甚至能帮你复原科研成长路径。这时再跟它讨论同样topic(话题),发现它跟你一样聪明。这个事很残酷。
我原来觉得我们做的工作足够有创造力、不会被Skill化、Workflow(工作流)化。
现在发现它竟然也能!可能过一段时间我们能训出来的模型它也能训出来,那它能不能训出更强的模型?自己左脚踩右脚就提升了?它先吸收所有人的智能,再靠自己产生更强的智能。这是这一两年会发生的事情。

从提升顶尖模型能力的角度,让Agent替代更高价值的任务是重要的,更高价值意味着更长Context、更多token消耗量,替代到最顶尖那一群人的智能就够了。
另一个角度是要做一个对全社会有益的模型,普适度更高的任务更好,就更需要多模态和注重成本。你怎么做更低成本、更高效率、更高速度的Agent框架和对应结合的模型,就很关键。
小尺寸端侧模型趋势会发生,但不是26年主旋律,是支线。26年主旋律是生产力的变革,高生产力场景的持续突破。要做更长程任务,更强调多Agent协作。
但市场上看到的Multi Agent(多智能体)都有点"伪",真的依赖于Multi Agent实现更好任务完成率上有点"伪",它能提升效率和节省成本,但我还没看到能实现更高上限的东西。
这也是为什么我要说开源。人的大部分简单任务,跟隐私相关的可以完全放本地化做。你自己有一块芯片,所有数据在本地,涉及隐私的在本地推理,高难度、高复杂度的再去云端推理。
一个好的Agent框架,借助一个很小的3B模型,能做的任务复杂度都超乎我的想象,这激发了我对端云混合、隐私本地化的思考。需要更多人一块做,不是某个公司就能做好。
我这两个月的生活就是工作还有工作,亢奋还有亢奋。你每天都会发现,Agent框架本身或模型本身又进步了。
三、大模型竞争路线图:
从Chat到Agent的历史跃迁
1. 回顾过去三年
ChatGPT是第一个发挥模型在4K预训练场景里的智能水平。预训练长度很关键,Chat是很关键的交互方式,激发了大家感知到模型智能。
23年是开源界追上闭源模型。
Llama(Meta的开源模型)披露了大规模预训练范式,告诉你这么训能成功。
Qwen(阿里的通义千问)借助LLaMA架构,做更好的预训练数据、更大规模compute scaling(算力扩展),做全尺寸模型,对社区非常有利。
DeepSeek同期更在乎看到LLaMA架构的问题,提出MoE(Mixture of Experts,混合专家)for高效训练、MLA for更低推理成本,在更差芯片上做更好的研究来scaling。
一个在研究上做到绝对高度,一个在生态价值上做到高度,彼此促进。这是23、24年的事。
24年发生在意料之外的,是o1跟R1。R1在DeepSeek内部,也算是一次"奇袭",诞生非常偶然。
当预训练范式变到后训练,组织和团队怎么重组?很多团队对预训练和后训练的人物画像很刻板,天然导致做预训练人做不了后训练。
我没有意识到的是它是一个范式的转变,Reasoning(推理)可以通过Code Math(代码数学)这个高泛化场景放到通用以外。这导致我后面再看新的东西,会先思考它是不是真的能泛化?是不是我把它想小了?
25年是很交错的一年。你可以选择在Chat范式下把Reasoning做到极致,继续深耕SWE-Bench这些Benchmark。你也可以选择忽略,去拥抱新的Agent架构。
MiniMax是国内转得最早的。比较聪明的团队,25年年中就会全面拥抱Agent架构。
从模型发版速度能看出谁拥抱得快。那些所谓Agent的Benchmark非常离谱,BrowseComp上训的模型只能在这种数据集上测,泛化不出去。这半年做Agent的人,大部分是走到歧途上。
我们也走了一小阵,但Flash还是想做很好的Chat,要先打好基础做到七八十分,让大家有个历练。进化的关键是不能给太细的监督信号,否则团队会失去原创能力。
2.现在是大模型竞争的第二幕
这算是模型竞争的第二幕。所有人都开始在同一个起跑线上。Claude两年前就在这个路径上了,大部分人没意识到。什么是正确的事?
在一套非常复杂或多样的Agent框架,去端到端完成更高复杂度的任务,以此为目标作为后训练范式。而不是在一个很局限的场景里定制简洁架构。
MiniMax用一个10B激活模型做到目前Agent能力,后训练敏捷程度惊艳。入场券是要做到对标Opus的水平,需要1T基座加敏捷性。中国公司还没有同时具备的,看一看DeepSeek吧。
Anthropic的路径是正确的,这算是当下共识。 国内大模型团队进入加速追赶状态。
Pre-train代差基本没有,国内在Pre-train结构上甚至是有优势的。赛点在于:在Agent上怎么做好RL的scaling,这是非常清晰和准确的方向。

我从一开始就觉得Coding泛化性强。每个范式上都戳中那个点,你可以在Code上自闭环,并且很容易scaling到更广领域的通用数据上。做Code这事,在范式转变时是非常优雅的路径。
竞争维度和速度都变多了。预训练不可能一个月出模型,后训练可以。Agent这事还要看对整个推理侧结构、硬件芯片的认知,会影响最基本决策。10兆Context什么时候做?怎么scaling?需要更长的决策链路。
创业公司的团队规模会越来越小。就几个人甚至一个人都可以成为公司,只要你学会充分借助Agent。Multi Agent每个环节都差一点,需要足够便宜的模型,架构还有空间。

模型借助Agent架构本身,就变成一套新的产品。模型即产品变得更突出,产品力反而更强了,其它所有东西都很简单。
3.两年内实现AGI
大模型演变逻辑跟人不一样。人演变是为了生存,大模型没有生存危机,反而进化得更自由、更有创造力。它基础条件太好了,那么多算力、人类宝贵的知识起点、那么多人帮它提升。
Coding主旋律是做复杂的软件工程、一步直达的开发,替代程序员越多就是主旋律。再外延到更广泛生产力场景,需要更强交互方式。
机器人是会涌现的方式,会从屏幕上跃出来到真实空间。但机器人本身瓶颈可能在硬件和电池上,比Agent在语言空间的进化要慢。
感觉AGI历程已经到了20%。今年至少到60%、70%,两年内应该能实现。之后大部分人会抛弃原来工作模式。先颠覆工作,再颠覆生活,生活需要更多机器人。

AI训练AI确实是标志节点。它可以自提升,达到最巅峰一群人的智能,能创造新研究,是自迭代的巅峰,这会是核心竞争点。
开源是加速AGI的。
假设AGI爆发替代绝大部分生产力,芯片会分散,推理有不同厂商做,模型一定是不一样的。从终局倒推,开源有利于推进这个事。开源对Agent框架、芯片、能源都有促进。
国内有1T以上基座的公司有好几家,距离Claude Opus 4.6如果反应够快,应该只有两三个月的代差,是追上当代Claude,概率蛮高。接下来两三个月会非常精彩。Agent框架进步非常快,推理需求会爆发。
需要做更好更低成本的推理。还要寻求更大规模scaling,参数量还是什么?在什么芯片上?这决定半年后谁更领先。
按照我们目前前沿研究、模型水平、AGI框架、芯片能源多方面合起来,中国非常可能领先。
四、范式巨变下的组织:
如何驱动一群没有经验的人训出顶尖模型
1.规范和约束是压制创造力的
做好大模型本身就是Benchmark,但这个"好"是我们自己定义的。雷总同意就行了,他是一个非常好的老板。一开始就高度统一,按我们的判断和直觉做,做了老板说"做的好"。
大部分招的人都没有做过大模型。
刚毕业,之前甚至不是做大模型的。大概1/3到1/4稍微有一点点训练经验,也只训过7B、14B。不要告诉大家1、2、3、4步做什么,就推着大家一起来重新做一遍,大家就会往前走。
不太存在管理,大家一块解决问题就好了。管理团队的难度是一样的,每个人有不同解决问题思路,一起来解决。解决问题的以身示范能力,是很好的文化和导向。
训1T模型团队很小,训练本身加上数据几个人,基建团队需要有点经验的人。本质上没觉得需要非常大团队协作,深入排查解决那种问题,很大团队反而是劣势。
为什么让做预训练的人去做后训练?首先是数据直觉很重要。其次基于个人爱好兴趣自然发生。
做后训练需要diversity(多样性)视野,做预训练的人天然更在乎多样性,是很好补充。我们对人的界定不清晰,大部分人自由选择下一个阶段,做更有想象空间的事。
100人包含所有链路,实习生比例很高。真正投入一代模型迭代的人很少,可能二三十、三四十个人。没有组,我差不多1对100。
组划分太清晰固定,是在扼杀创造力。平权本身有价值,有利于所有人平等贡献创造力和智慧。
任何层级一定程度上都是在规范和约束,而规范和约束本身是压制创造力的。最重要是leader不要有"没了我就不行"的想法。

2.环境比经验更重要
靠热爱驱动管理,是最行之有效的方式。选择激发大家的热情,围绕信仰自驱做事。
让大家去体验,是驱动热情的重要方式。OpenClaw就是一种体验。那个极端方式只是表达态度,不关键。筛选人靠热爱驱动的特质,聊天能感受出来。
这些能力都可以被快速习得,只要放在好的环境里,围绕更高标准目标驱动。最多一两个月。所以环境比经验更重要。这个环境让大家互相MOPD(多教师在线策略蒸馏),互相蒸馏长处,快速提升。

只在乎初始化checkpoint(检查点)的上限高不高,不在乎已经被supervised learning(监督学习)过后的状态高不高。
现在也招很多本科生,大二大三的。他们对Agent新范式的理解上,想象力反而更高。灵活性没有被污染,天然更接纳这个事情会产生巨大价值。
构建环境要有同样特质的人,强调热爱和使命感。基础要好,光想法多但做不成不行。多样性非常重要,太同质化容易miss(错过)掉噪音中真正对研究有价值的信息。
上班群叽叽喳喳,吵得不行,沟通环境非常好。激励不能太围绕确定清晰的目标,钱是重要baseline(基线)但不是唯一。价值感、意义感,很多人更在乎这些东西。
3.后训练需要容忍模糊性
预训练需要战略定性,这一代模型结构为未来什么做准备,至少半年,甚至一年前就想清楚。Agent出现正在加速整个过程。一个平庸的模型结构不一定带来平庸效果,但一定带来成本和效率劣势。
后训练阶段,和Agent耦合迭代,很多事情没办法提前规划清楚。更考验怎么基于当前模型能力和Agent范式产生化学反应,怎么快速设计新的RL Infra架构。

系统从"以Rollout(推理推演)推理引擎为核心",转变为"以Agent为核心"的更复杂系统。这是完全不同的一类问题。对团队的敏捷性、Infra与研究的协同配合要求非常高。
通常两类人适应得好:
第一类是更注重跟模型玩的人。他才知道每个模型能力边界在哪,想找到可scaling方式补充回来。维护自己私有测试库、疯狂测不同模型边界、分享独特体验的人,很适合这个范式。
第二类是能做RL Infra的人。RL Infra更在乎模糊程度。Pre-train Infra不能容错,loss spike要解决掉。
但RL Infra要允许容错,模型在Agent框架里Rollout到一半就断了,原因很多种,根本找不到。训练和推理的不一致性,在以前Reasoning范式不能容忍,现在必须要容忍。
还要做异构资源调度,GPU(图形处理器)、CPU(中央处理器)、存储都要管。对灵活性和敏捷性都提出了新要求。
4.把每天的研究都做好
感觉每天可能都在否定昨天的自己。在否定当中、自我内省和反省当中成长。脑子里这套系统悄悄在进化。
以前做量化(量化投资)时学到一句话:"总有方式去建模价格",价格就是reward(奖励信号)。回到大模型赛道,reward不那么清晰,是变化的。心法就是应该做当下符合我价值观的事情。
一定要对更多人产生价值,更有意义。如果创造大模型的人没有这个内驱力,而是要做破坏的东西,最后会非常危险。

我工作状态早上11点,晚上12、3、4点。睡眠不需要太多,5、6个小时足够。现在做的事有点兴奋,睡太多有点浪费时间。压力缓解靠脑子是Sliding Window Attention,忘得非常快,前提是第二天有新的、有想象力的事情冲掉它。
如果AGI实现,可能会搞一个公益型组织,支撑做基础研究的人往更突破方向走。我始终觉得应该加速科学研究,哪怕AGI实现也有很多要做的。纯享受生活也挺无聊的。无聊对我来说不是一种意义。
现在觉得把当下的每天的研究都做好,就觉得非常好。
未来很美好,这是一种天真乐观的勇气。
参考资料:《独家对话罗福莉:AI范式已然巨变!》,语言即世界language is world。
*文章为作者独立观点,不代表笔记侠立场。
好文阅读推荐:
分享、点赞、在看,3连3连!


登录后才可以发布评论哦
打开小程序可以发布评论哦