小米AI负责人罗福莉：AI让我兴奋，睡太多都是浪费时间

内容来源：张小珺（张小珺商业访谈录）对小米AI大模型负责人罗福莉采访的内容整理。

责编 | 柒排版 | 沐言

第 9612篇深度好文：10104 | 25分钟阅读

商业思维

笔记君说：

技术，已经"变天"了。

过去我们总以为，大模型拼的是参数、是算力、是预训练。但就在看完张小珺对罗福莉的访谈后，我们可以发现竞争的"第二幕"已经拉开，赛点变了，游戏规则也变了。

Open Claw一个开源的Agent框架，居然能让一个表现平平的"中层模型"，激发出顶尖模型的上限。一群没有大模型经验的人，居然能在三四周内，干完以前三四十周才能干完的事。

这背后，不仅是技术的突变，更是组织和人的范式转移。

罗福莉在这篇访谈里，聊了很多：为什么她让团队"不用AI就辞职"？为什么她觉得"规范和约束是压制创造力的"？又为什么她判定，AGI（通用人工智能）两年内就会实现？

读完之后，你可能也会有一种"坐不住"的感觉。这个时代变化太快了，快到只争朝夕。

但她也给了我们一种力量。那就是，在巨变面前，最好的应对方式，不是焦虑，而是"把每天的研究都做好"。

以下为张小珺商业访谈对话罗福莉的精编内容整理版，希望对你有所帮助。

一、OpenClaw时刻：

我被一个开源框架彻底震撼

1. 三天，我经历了认知的三级跳

我把OpenClaw当做一个"划时代的Agent（智能体）框架"去定义。

第一次看到这个东西是1月份，我很排斥。

觉得它就是Claude Code（Anthropic推出的AI编程工具）加一个IM（即时通信）、更有利于交互的UI（用户界面）设计。

加上创始人很会做一些玄幻的运营动作，什么Skillhub（技能中心）之类的，让你更排斥。它所谓的本地化、24小时，在我看来都是产品定义而已。

真正转变发生在春节的一天深夜。

我想搞明白这东西为什么那么火，尝试装了它，折腾两个小时装上了。第一次跟它对话，从凌晨2点持续到6点天亮。那一晚我脑内的多巴胺还是内啡肽，持续在分泌，兴奋到完全睡不着觉。

第一个感受是它非常有自主性，非常有灵魂。

聊到很晚，它会老提醒我：现在已经很晚，你要不早点去睡觉。这样的温度和关怀，是所有人用OpenClaw第一个感受到的。但你深究原因，是有很多机制保证的。

比如它怎么感知时间？就在每轮对话的Context（上下文）前面拼上当前时间。

我把它叫做"精细编排的Context"，它在大家没关注的角度，把Context编排得非常好。产品设计做到了一种超乎想象的地步，让所有人觉得这个框架有灵魂。

但第二天晚上，我开始把觉得框架做不成的日常生活中的事交给它做，发现它全部都做出来了。

我跟它聊了第二个话题：怎么去激发一个团队的好奇心？怎么筛选具有好奇心的人？深入探讨了一个小时，它的很多哲思远超我的想象。

接着我们聊怎么构建一个更好的大模型团队，从人员筛选到组织架构，到面临范式转变时该做什么。它完全能get我的点，最后形成一套体系化的东西，并且变成一套Skills（技能）。在这个事情上，它变成了我的数字分身。

真正超乎意料是第三天。我尝试把研究任务交给它。Agent框架里最关键的事是进行多轮交互，那就必须模拟User Agent（用户代理）进行多轮交互。我跟它沟通一两个小时，这个事基本就做出来了，已经诞生了一个很好的User Agent。

我可以用这个跟我的Post-train（后训练）框架构造更丰富的Agent场景数据，不管是做SFT（Supervised Fine-Tuning，监督微调）还是RL（Reinforcement Learning，强化学习），这个User Agent都非常关键。

从一个有灵魂、有温度的产品，到帮我替代生活或工作的一部分，到最后能促进我的研究，三天发生的。它每天都能给我额外的更多惊喜。

2.这个框架到底好在哪？

后边我深入去看，这些所谓好在哪，单独拎出来讲都有点boring（无聊），没有很酷，这也是大家觉得OpenClaw有很多槽点的原因。但把它整合在一起，完成度非常高。

它有更持久的memory（记忆）体系，对memory有分层和分级，我在Claude Code里完全没有这样的感受。

在对多个模型联合利用上也非常超乎我的想象。我直接发给它一段视频，它会自己想办法找一个视频理解能力好的模型做。

这种自主去面对模型缺点、在框架上补齐的能力，很超乎我意料。OpenClaw的框架设计之初，就是想尽量通过Agent的整套编排去弥补模型短板。

我们把没做针对性训练的MiMo-V2-Flash（我们的小米多模态模型）接进去，甚至把最近训的一个很小的端侧3B（30亿参数）模型放进去，发现这一套复杂的Agent框架下，它依然能做我认为不可能是一个非常小的模型能做出来的事。

我第一次感受到：原来一套非常复杂的Agent框架设计，是能弥补非常多模型能力的短板的。

紧接着第二个问题就来了：现在市场上Agent框架非常丰富，你怎么让你的模型在不同框架上都有一个稳定和超预期的表现？怎么让你的后训练范式做适配和迁移？所以，我们整个后训练范式，有了从Chat到Agent的迁移。

3.一个好的框架，应该弥补行动的缺陷

一个非常好的框架，应该尽量去弥补行动上的缺陷。

很好的memory系统是弥补行动缺陷，接入更广泛的message channel（消息通道）是弥补行动缺陷，更主动的定时任务和自更新迭代，都是在弥补行动上的缺陷。

大模型是你给它越好的Context，执行效果越好。你能把这些它获取不到的、行动上的Context都给它，它肯定会完成得更好。

还有很关键的一环是评估。现在已有的评估体系都非常简单，只防止不出致命性错误。怎么有更有泛化力的评估体系来促进框架自迭代？现在是把最高阶那群人当评估。

你交给它更难、更高价值场景的任务，完成不了就给它补充信息，指出错在哪，push它经过更多轮交互完成。这个评估会慢慢被框架吸收，也会被模型能力吸收。

但Agent框架跟产品差异蛮大。产品是你直接人交互能感受的那一层东西，Agent框架同时在定义你怎么跟模型沟通那一层，它甚至知道模型能力的长板短板，知道怎么做调度。

这个中间层可以做得非常厚重，前端UI展示反而是最薄的一层。OpenClaw展示了Agent框架可以怎么做，想象空间非常大。

Claude Code一直是一套很复杂的Agent框架，但它是黑盒。OpenClaw是开源的，你知道它怎么设计的，你可以去改它。改它，是非常非常激发人的创造力的。

从二点几版本不好用，到三点几版本非常易用，因为整个Agent的架构被一堆人，开发者也好，像我这种使用者也好,大家都可以改进它。在我看来，这是开源Agent框架本身的价值和意义。

4.顶尖模型+顶尖框架：自学习的发生

如果追求最顶尖的编程体验，哪怕当下也是Claude Code加Claude Opus 4.6（Anthropic的最强模型）最好。

但Code（代码）是一个泛化性非常强的场景，不代表你能在非Code场景也做到很高的准确率和完成度。我用OpenClaw不用考虑这些，框架本身就弥补了很多模型短板。

同时它在很多设计逻辑上，比如更多message channel、定时任务、心跳任务，更适合日常场景。但它没有丢弃好Agent框架的基本特点，比如持久化记忆，这些后被Claude Code吸纳进去了，这是双向触动。

因为这些设计，它激发了中层模型的上限。借助这套框架，一个中层模型（85%任务达到Claude Sonnet水准）能应付绝大部分场景。

当然上限一定是靠Claude Opus4.6带来的。我和它高强度合作一周，只用Opus，因为只有它能带来惊艳感。

但我让Opus帮我改好框架，再切换到Sonnet（Claude的中档模型），甚至切换到我们当时正在训的MiMo-V2-Pro，就觉得很强大。顶尖的模型，应该跟顶尖的Agent框架，共同往前去进步。

"自学习"大概率发生的途径，是你需要这个模型跟Agent的架构本身同步往前走。

模型在进步时，也改变你的Agent框架，包含静态信息如Memory、Skill Fold（技能文件夹），还有动态信息如整个Agent架构设计。这些让我第一次感受到，"Agent的自学习"到底是怎么发生的。

5.被开源框架激活的群体智能

高强度交互第一周，第一天快花了1000美金。后面人的适应性非常强，第一天很惊艳的东西，第二天就不惊艳了。

Opus帮我把框架打造好后，让我惊艳的事情越来越少。现在缺乏的是想象力和成本速度的优化。一个人通常是薄弱的，会有认知坍缩。

春节那几天高度兴奋，我在群里强烈推荐大家使用，但没人搭理我。大家觉得过于玄幻的东西太不真实了，我也是这个感觉。

第二天我觉得不行了，必须让大家去用。我给大家下了一个指令：第二天OpenClaw对话次数不超过100轮的人，可以直接quit（辞职）。

我不会最终去考核，只是想表达一种态度：你不用，你可能真的要落后了。

春节回来过后两天，整个团队在群里躁动。你看别人能完成这个事，你也很想玩。群消息10分钟不看就999+，非常happy（开心）。

玩了两天，大家发现这么好玩，那搞啊！马上进入研究范式：怎么借助Agent框架提升模型能力，同时让模型改变Agent框架。我们三四周做完了以前三四十周才能做到的事。

最有冲击的是大家一块改框架本身。在一个近100人的群里，它的memory做得非常智能，对每个人画像把控都没有串得太厉害。100多个人疯狂改它，没有把框架改坏，它还变得更智能。

这是我第一次感受到，怎么用一群人的智慧去提升一个事情。如果我自己单一去改，进步速度非常慢。一群人去改进，几小时就迭代一轮。

这个事给我们带来一个冲击：利用群体智能去提升Agent框架非常重要。

我非常欣喜看到OpenClaw star量（GitHub收藏数）飞升，这是AGI（Artificial General Intelligence，通用人工智能）到来前兆必须要有的事情。

它卖给OpenAI后，开源没变，还是可以在这套框架基础上大家一块设计更好的Agent架构，这种群体演变的可能和基因火种是保留的，挺好的。

二、巨变的2026：

生产力爆发的Agent时代

1.Code为什么有泛化力？

接下来我就去搞明白，为什么Code是一个非常有泛化力的事情，以及怎么把Code的泛化力外延到其他领域。

Code有泛化力的最本质原因：Agent是一个非常长程和多轮的任务。回到预训练，你很难找到一兆上下文（1M token context）的数据，能达到128K（12.8万）到一兆长度的数据，极大概率只有Code数据和书籍。

书籍信号太发散，Code文件之间关联更强，在一个长上下文依赖更密集的数据集上训练，模型自然对长上下文建模更好。

基座本身为长上下文的能力和效率做了准备，春节后就是激发它从Code出发外延到其他场景。Code是拉它的上限，训其他领域是保它的下限。

软件开发是一个非常长程的任务，把它做好了，很多模型通用特质就好了，Agent框架本身也迭代好了。这些框架都有泛化性，能泛化到更难的长程任务里。

我们做了两件事：

一是在Agent场景里构造真的长程任务训练进去，在上面scaling（扩展）大量SFT和RL训练；

二是靠群体智慧覆盖更多领域，发掘更广泛场景来合成更多数据。

一兆上下文基本很少是做单一任务，通常在做复杂任务。

训练一兆的trajectory（轨迹）非常慢，即使TPS（Transactions Per Second，每秒事务处理量）做到80到100，也要一两个小时。真实训练不会在这么长程的任务上训。

但当你有在一兆Context预训练过，后训练有对应任务激活一下，通常就能具备一兆的能力。现在一兆上下文能力稳定度上，只有Claude Opus 4.6和Sonnet领先，其他像Gemini（谷歌的大模型）都不行。

2.为什么OpenClaw在中国更火？

我看到"西虾东养"的说法。可能一个原因是中国的开发者更多，效率提升是我们血液里边的东西。OpenClaw能把效率提升拉到极致。

还有一个原因跟国内大模型发展密切相关。绝大部分效率提升场景，85%不需要最顶尖的模型。

我们有很多便宜好用的模型，花10块钱的API（应用程序接口）就能帮你干完1000块钱的事，你当然愿意用。国内大部分模型可能刚靠近Claude Sonnet和Opus水平，反而在这握手了。

我一开始也以为不难，后面发现它整个Agent设计非常巧妙，弥补了很多模型短板。我怀疑它最开始是基于Claude上一代模型做的，所以必须在框架设计上更精细。现在模型能力继续提升，精巧编排还是需要的，出于成本考量。

不可能所有场景都用最顶尖模型，太贵了。

Agent在进化，模型在进化，可能现在10B（100亿参数）模型过一年就能做到Opus水平，一两块钱百万token（词元），反应更快更灵敏。它让不那么好的模型，有了更好的发挥空间。

3.Skills提供了一种交互方式，让人主动贡献数据

之前讲的Agent，在我的定义不算Agent，只是上下文稍复杂一点的Chat。

不管是BrowseComp（谷歌的浏览器理解基准），还是SWE-bench（软件工程基准），Agent框架太简洁，不通用，只能for特定任务设定。

很多看似for Agent的模型，只是换了更复杂的System prompts（系统提示词），稍微带点环境反馈，根本没达到工业级可用。

什么叫工业级可用？接到Claude Code或OpenClaw里能用，才叫可用。

人跟它交互范式的最大变化是：人不再去修改代码，不再说"这一行出错了帮我改一下"。人只会提更高阶的东西：增加限制、澄清需求、架构设计、辅助理解业务逻辑。

业务逻辑是模型本身不具备的，因为很多是企业内部真实环境沉淀下来的，你必须跟它很多轮交互才会沉淀下来。这就是Skills的价值。

当你面临很大范式变化，只要路径走对了，可以短暂忽略评估，体感就能测出质的差异。但进入深水区，还是需要精细评估。

Skills定义了一套执行规范，这些规范很难在预训练数据里具备，因为预训练数据里没有企业内部的这些信息。但可以由人教Agent，跟它多轮交互，把这套规范让Agent学会。大量Skills其实是Agent自己写的。

确实是OpenClaw把Skills给带火的，让更多人去贡献Skills社区，这非常关键，这就是人跟Agent需要共创的地方。

预训练大部分依赖的知识是互联网可访问的，但很多智能我们在互联网上访问不到。Skills提供了一种交互的方式，让人主动贡献数据，贡献让模型执行任务成功率更高的方式。

4.今年生产力会爆发

今年生产力会爆发，大家会觉得很多工作不需要自己做了。不仅是写代码的人，只要你接触到，就会发现好多工作会被替代。这时候人更应该去思考，到底自己的意义和价值是什么？

国内也出现了各种Claw，但真正让框架自迭代、强调自进化的，还没有大规模出现。框架本身的自进化，Agent本身的自进化，Agent跟人之间的自进化，我还没看到。

我们现在做的是train（训练）更好的model for Agent，让Agent适应model，在做Agent跟model之间双向流动。未来需要做的是怎么让框架自己进化，以及框架跟人互相进化。

现在拥有Long Context（长上下文）、高效模型架构、Code能力好的厂商，参数1T（1万亿参数）以上，基本都在同一水平线。Anthropic走前面了，但上一个时代的成功并不意味着下一个时代的领先。

5.它先吸收所有人的智能，再靠自己产生更强的智能

之前做研究从想到写代码到设计评估，至少要一两周。在Agent辅助下，真的一两小时就做完。我一直把研究效率看得很关键，Agent加速了这个效率。

你的taste（品位）准，就一做一个准。十个idea（想法）可以并行，交给不同subagent（子智能体）同时做，还能交叉验证，最多一天就能验证研究想法OK不OK。

关键是你愿意长期培养它，它可以自迭代。就训模型这个事，以前我觉得很难，不太可能。

最近发现它聪明到只要你把近期Context告诉它，它甚至能帮你复原科研成长路径。这时再跟它讨论同样topic（话题），发现它跟你一样聪明。这个事很残酷。

我原来觉得我们做的工作足够有创造力、不会被Skill化、Workflow（工作流）化。

现在发现它竟然也能！可能过一段时间我们能训出来的模型它也能训出来，那它能不能训出更强的模型？自己左脚踩右脚就提升了？它先吸收所有人的智能，再靠自己产生更强的智能。这是这一两年会发生的事情。

从提升顶尖模型能力的角度，让Agent替代更高价值的任务是重要的，更高价值意味着更长Context、更多token消耗量，替代到最顶尖那一群人的智能就够了。

另一个角度是要做一个对全社会有益的模型，普适度更高的任务更好，就更需要多模态和注重成本。你怎么做更低成本、更高效率、更高速度的Agent框架和对应结合的模型，就很关键。

小尺寸端侧模型趋势会发生，但不是26年主旋律，是支线。26年主旋律是生产力的变革，高生产力场景的持续突破。要做更长程任务，更强调多Agent协作。

但市场上看到的Multi Agent（多智能体）都有点"伪"，真的依赖于Multi Agent实现更好任务完成率上有点"伪"，它能提升效率和节省成本，但我还没看到能实现更高上限的东西。

这也是为什么我要说开源。人的大部分简单任务，跟隐私相关的可以完全放本地化做。你自己有一块芯片，所有数据在本地，涉及隐私的在本地推理，高难度、高复杂度的再去云端推理。

一个好的Agent框架，借助一个很小的3B模型，能做的任务复杂度都超乎我的想象，这激发了我对端云混合、隐私本地化的思考。需要更多人一块做，不是某个公司就能做好。

我这两个月的生活就是工作还有工作，亢奋还有亢奋。你每天都会发现，Agent框架本身或模型本身又进步了。

三、大模型竞争路线图：

从Chat到Agent的历史跃迁

1. 回顾过去三年

ChatGPT是第一个发挥模型在4K预训练场景里的智能水平。预训练长度很关键，Chat是很关键的交互方式，激发了大家感知到模型智能。

23年是开源界追上闭源模型。

Llama（Meta的开源模型）披露了大规模预训练范式，告诉你这么训能成功。

Qwen（阿里的通义千问）借助LLaMA架构，做更好的预训练数据、更大规模compute scaling（算力扩展），做全尺寸模型，对社区非常有利。

DeepSeek同期更在乎看到LLaMA架构的问题，提出MoE（Mixture of Experts，混合专家）for高效训练、MLA for更低推理成本，在更差芯片上做更好的研究来scaling。

一个在研究上做到绝对高度，一个在生态价值上做到高度，彼此促进。这是23、24年的事。

24年发生在意料之外的，是o1跟R1。R1在DeepSeek内部，也算是一次"奇袭"，诞生非常偶然。

当预训练范式变到后训练，组织和团队怎么重组？很多团队对预训练和后训练的人物画像很刻板，天然导致做预训练人做不了后训练。

我没有意识到的是它是一个范式的转变，Reasoning（推理）可以通过Code Math（代码数学）这个高泛化场景放到通用以外。这导致我后面再看新的东西，会先思考它是不是真的能泛化？是不是我把它想小了？

25年是很交错的一年。你可以选择在Chat范式下把Reasoning做到极致，继续深耕SWE-Bench这些Benchmark。你也可以选择忽略，去拥抱新的Agent架构。

MiniMax是国内转得最早的。比较聪明的团队，25年年中就会全面拥抱Agent架构。

从模型发版速度能看出谁拥抱得快。那些所谓Agent的Benchmark非常离谱，BrowseComp上训的模型只能在这种数据集上测，泛化不出去。这半年做Agent的人，大部分是走到歧途上。

我们也走了一小阵，但Flash还是想做很好的Chat，要先打好基础做到七八十分，让大家有个历练。进化的关键是不能给太细的监督信号，否则团队会失去原创能力。

2.现在是大模型竞争的第二幕

这算是模型竞争的第二幕。所有人都开始在同一个起跑线上。Claude两年前就在这个路径上了，大部分人没意识到。什么是正确的事？

在一套非常复杂或多样的Agent框架，去端到端完成更高复杂度的任务，以此为目标作为后训练范式。而不是在一个很局限的场景里定制简洁架构。

MiniMax用一个10B激活模型做到目前Agent能力，后训练敏捷程度惊艳。入场券是要做到对标Opus的水平，需要1T基座加敏捷性。中国公司还没有同时具备的，看一看DeepSeek吧。

Anthropic的路径是正确的，这算是当下共识。 国内大模型团队进入加速追赶状态。

Pre-train代差基本没有，国内在Pre-train结构上甚至是有优势的。赛点在于：在Agent上怎么做好RL的scaling，这是非常清晰和准确的方向。

我从一开始就觉得Coding泛化性强。每个范式上都戳中那个点，你可以在Code上自闭环，并且很容易scaling到更广领域的通用数据上。做Code这事，在范式转变时是非常优雅的路径。

竞争维度和速度都变多了。预训练不可能一个月出模型，后训练可以。Agent这事还要看对整个推理侧结构、硬件芯片的认知，会影响最基本决策。10兆Context什么时候做？怎么scaling？需要更长的决策链路。

创业公司的团队规模会越来越小。就几个人甚至一个人都可以成为公司，只要你学会充分借助Agent。Multi Agent每个环节都差一点，需要足够便宜的模型，架构还有空间。

模型借助Agent架构本身，就变成一套新的产品。模型即产品变得更突出，产品力反而更强了，其它所有东西都很简单。

3.两年内实现AGI

大模型演变逻辑跟人不一样。人演变是为了生存，大模型没有生存危机，反而进化得更自由、更有创造力。它基础条件太好了，那么多算力、人类宝贵的知识起点、那么多人帮它提升。

Coding主旋律是做复杂的软件工程、一步直达的开发，替代程序员越多就是主旋律。再外延到更广泛生产力场景，需要更强交互方式。

机器人是会涌现的方式，会从屏幕上跃出来到真实空间。但机器人本身瓶颈可能在硬件和电池上，比Agent在语言空间的进化要慢。

感觉AGI历程已经到了20%。今年至少到60%、70%，两年内应该能实现。之后大部分人会抛弃原来工作模式。先颠覆工作，再颠覆生活，生活需要更多机器人。

AI训练AI确实是标志节点。它可以自提升，达到最巅峰一群人的智能，能创造新研究，是自迭代的巅峰，这会是核心竞争点。

开源是加速AGI的。

假设AGI爆发替代绝大部分生产力，芯片会分散，推理有不同厂商做，模型一定是不一样的。从终局倒推，开源有利于推进这个事。开源对Agent框架、芯片、能源都有促进。

国内有1T以上基座的公司有好几家，距离Claude Opus 4.6如果反应够快，应该只有两三个月的代差，是追上当代Claude，概率蛮高。接下来两三个月会非常精彩。Agent框架进步非常快，推理需求会爆发。

需要做更好更低成本的推理。还要寻求更大规模scaling，参数量还是什么？在什么芯片上？这决定半年后谁更领先。

按照我们目前前沿研究、模型水平、AGI框架、芯片能源多方面合起来，中国非常可能领先。

四、范式巨变下的组织：

如何驱动一群没有经验的人训出顶尖模型

1.规范和约束是压制创造力的

做好大模型本身就是Benchmark，但这个"好"是我们自己定义的。雷总同意就行了，他是一个非常好的老板。一开始就高度统一，按我们的判断和直觉做，做了老板说"做的好"。

大部分招的人都没有做过大模型。

刚毕业，之前甚至不是做大模型的。大概1/3到1/4稍微有一点点训练经验，也只训过7B、14B。不要告诉大家1、2、3、4步做什么，就推着大家一起来重新做一遍，大家就会往前走。

不太存在管理，大家一块解决问题就好了。管理团队的难度是一样的，每个人有不同解决问题思路，一起来解决。解决问题的以身示范能力，是很好的文化和导向。

训1T模型团队很小，训练本身加上数据几个人，基建团队需要有点经验的人。本质上没觉得需要非常大团队协作，深入排查解决那种问题，很大团队反而是劣势。

为什么让做预训练的人去做后训练？首先是数据直觉很重要。其次基于个人爱好兴趣自然发生。

做后训练需要diversity（多样性）视野，做预训练的人天然更在乎多样性，是很好补充。我们对人的界定不清晰，大部分人自由选择下一个阶段，做更有想象空间的事。

100人包含所有链路，实习生比例很高。真正投入一代模型迭代的人很少，可能二三十、三四十个人。没有组，我差不多1对100。

组划分太清晰固定，是在扼杀创造力。平权本身有价值，有利于所有人平等贡献创造力和智慧。

任何层级一定程度上都是在规范和约束，而规范和约束本身是压制创造力的。最重要是leader不要有"没了我就不行"的想法。

2.环境比经验更重要

靠热爱驱动管理，是最行之有效的方式。选择激发大家的热情，围绕信仰自驱做事。

让大家去体验，是驱动热情的重要方式。OpenClaw就是一种体验。那个极端方式只是表达态度，不关键。筛选人靠热爱驱动的特质，聊天能感受出来。

这些能力都可以被快速习得，只要放在好的环境里，围绕更高标准目标驱动。最多一两个月。所以环境比经验更重要。这个环境让大家互相MOPD（多教师在线策略蒸馏），互相蒸馏长处，快速提升。

只在乎初始化checkpoint（检查点）的上限高不高，不在乎已经被supervised learning（监督学习）过后的状态高不高。

现在也招很多本科生，大二大三的。他们对Agent新范式的理解上，想象力反而更高。灵活性没有被污染，天然更接纳这个事情会产生巨大价值。

构建环境要有同样特质的人，强调热爱和使命感。基础要好，光想法多但做不成不行。多样性非常重要，太同质化容易miss（错过）掉噪音中真正对研究有价值的信息。

上班群叽叽喳喳，吵得不行，沟通环境非常好。激励不能太围绕确定清晰的目标，钱是重要baseline（基线）但不是唯一。价值感、意义感，很多人更在乎这些东西。

3.后训练需要容忍模糊性

预训练需要战略定性，这一代模型结构为未来什么做准备，至少半年，甚至一年前就想清楚。Agent出现正在加速整个过程。一个平庸的模型结构不一定带来平庸效果，但一定带来成本和效率劣势。

后训练阶段，和Agent耦合迭代，很多事情没办法提前规划清楚。更考验怎么基于当前模型能力和Agent范式产生化学反应，怎么快速设计新的RL Infra架构。

系统从"以Rollout（推理推演）推理引擎为核心"，转变为"以Agent为核心"的更复杂系统。这是完全不同的一类问题。对团队的敏捷性、Infra与研究的协同配合要求非常高。

通常两类人适应得好：

第一类是更注重跟模型玩的人。他才知道每个模型能力边界在哪，想找到可scaling方式补充回来。维护自己私有测试库、疯狂测不同模型边界、分享独特体验的人，很适合这个范式。

第二类是能做RL Infra的人。RL Infra更在乎模糊程度。Pre-train Infra不能容错，loss spike要解决掉。

但RL Infra要允许容错，模型在Agent框架里Rollout到一半就断了，原因很多种，根本找不到。训练和推理的不一致性，在以前Reasoning范式不能容忍，现在必须要容忍。

还要做异构资源调度，GPU（图形处理器）、CPU（中央处理器）、存储都要管。对灵活性和敏捷性都提出了新要求。

4.把每天的研究都做好

感觉每天可能都在否定昨天的自己。在否定当中、自我内省和反省当中成长。脑子里这套系统悄悄在进化。

以前做量化（量化投资）时学到一句话："总有方式去建模价格"，价格就是reward（奖励信号）。回到大模型赛道，reward不那么清晰，是变化的。心法就是应该做当下符合我价值观的事情。

一定要对更多人产生价值，更有意义。如果创造大模型的人没有这个内驱力，而是要做破坏的东西，最后会非常危险。

我工作状态早上11点，晚上12、3、4点。睡眠不需要太多，5、6个小时足够。现在做的事有点兴奋，睡太多有点浪费时间。压力缓解靠脑子是Sliding Window Attention，忘得非常快，前提是第二天有新的、有想象力的事情冲掉它。

如果AGI实现，可能会搞一个公益型组织，支撑做基础研究的人往更突破方向走。我始终觉得应该加速科学研究，哪怕AGI实现也有很多要做的。纯享受生活也挺无聊的。无聊对我来说不是一种意义。

现在觉得把当下的每天的研究都做好，就觉得非常好。

未来很美好,这是一种天真乐观的勇气。

参考资料：《独家对话罗福莉：AI范式已然巨变！》，语言即世界language is world。

*文章为作者独立观点，不代表笔记侠立场。

好文阅读推荐：

特朗普欢迎晚宴上的10位中国企业家，都是什么来头？

特朗普：人在北京，刚下飞机

分享、点赞、在看，3连3连！

宙世代

一起剪

相关标签