字节会师何恺明！开源连续扩散语言模型Cola DLM

大语言模型真的只能走 " 预测下一个 token" 的路子吗？

继何恺明之后，字节也给出了同样的回答：NO。

并且，两边都不约而同地盯上了同一个方向——在连续语义空间中建模语言。

更关键的是，字节这次直接开源开到底，论文、代码、模型权重、中文博客通通释出。

帮大家快速回忆一下。就在上周，何恺明团队推出首个扩散语言模型 ELF ——

它跳过 token 层，把整个生成过程留在连续 embedding 空间里完成，仅用 105M 参数就跑赢一众主流扩散语言模型，第一次证明连续路线在语言生成上真有潜力。

而字节这次带来的 Cola DLM（Continuous Latent Diffusion Language Model），则进一步佐证了这一趋势。

他们同样选择跳出离散 token 的束缚，把生成过程交给连续空间，结果是：

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下，Cola DLM 展现出了比自回归模型和主流离散 DLM 更稳定的 scaling 趋势。

然而，正当你以为这不过是又一个 " 把图像扩散模型搬进语言领域 " 的故事时，字节却告诉你：错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊？？不是为了 diffusion，结果做了个 diffusion language model？

字节：Token ≠语义，表征才是真正的主角

事实上，真正的主角藏在这句话的后半段：

Cola DLM 的 motivation 从来不是 diffusion，而是representation（表征）。

在字节看来，真正重要的是表征，Token 这种 tokenizer 工程和历史演化的副产物，仅仅是表征被实现出来的一种形式而已。他们还大胆给出了一个暴论：

Token 是人类语言系统的表层载体，不是语义本身。

简单看一个例子你就懂了，比如我们用不同的话表达同一个意思：

我今天很开心。

今天我心情很好。

今天过得挺愉快。

token 差了一大堆，但语义还是那一个。

放在以前，主流大模型通常会把这些不同说法，当成几套不同的表达分别去学——明明背后是同一个语义，模型偏偏要在 token 这个表层挨个对齐。

所以字节的判断是，如果模型内部存在一种更稳定、更抽象的 " 语义状态 "，那这些本质相同、只是说法不同的句子，其实没必要被分别记忆，而是可以在内部收敛到相近的表示。因此本质上而言：

Cola DLM 的 diffusion 不是在恢复 token，而是在 transport 一个 latent prior。

怎么 "transport 一个 latent prior"？字节选择直接把语义和实现分层。

具体方法论指路论文 3.1.1，这里我们简单翻译过来就是：

Cola DLM 的生成模型，本质上只有两部分。一个 latent prior，负责生成 " 潜在语义 "；一个 decoder，负责把这些语义翻译成具体文字。看上去就像是把 " 生成一句话 " 拆成了两件相对独立的事。

而且关键在于，整个 diffusion/flow matching 过程，其实都发生在 latent 空间里，而不是 token 空间里。

就是说，Cola DLM 干的不是把一堆脏 token 慢慢去噪成干净 token，而是先在连续语义空间里，把一团随机语义慢慢组织成有意义的潜在表达，最后再统一翻译成文字。

所以在它的生成路径里，其实根本没有 token 的逐步生成过程，token 只在最后一步才出现，前面学的都是 " 语义怎么形成 "。

这也是 Cola DLM 和很多扩散语言模型最大的不同。

很多 DLM，本质上还是围绕 token 在做 " 修修补补 "，比如恢复被 mask 的 token、逐步还原离散文本。但 Cola DLM 直接把 diffusion 从 " 文字层 " 搬到了 " 语义层 "，diffusion 不再负责 " 生成 token"，而是负责 " 组织语义 "。在字节看来：

这不是包装上的差异，而是改变了 diffusion 在模型里到底干什么。

Cola DLM 背后关键细节

方法论我们知道了，那 Cola DLM 真正 " 和传统连续 DLM 拉开差距 " 的地方到底在哪？

答案，就藏在几个很工程化但很关键的设计选择里。

关键 1：latent 不是简单的 embedding 替代品

首先是 latent 是怎么来的。很多人一听 " 连续语言模型 "，第一反应是——不就是在 word embedding 上做扩散嘛。

但 Cola DLM 偏偏没这么做，它专门搭了一套 Text VAE：

Encoder：把离散文本压缩成连续 latent（相当于提取 " 语义指纹 "）；

Decoder：把 latent 再还原回文本。

差别在哪？token embedding 还是和 token 一一绑定的，每个 token 一个向量，本质上还是 token 序列。

而 Cola DLM 要的 latent，是一个可以连续变化、可被概率建模的随机变量。

这样一来，模型处理的对象就不再是 " 下一个 token"，而是 " 整段文本对应的语义状态 "。

关键 2：prior 不是普通的 diffusion

Cola DLM 用的不是大家熟悉的 " 加噪→去噪 " 那种 diffusion，而是一个叫 block-causal DiT+Flow Matching 的组合。

组合看不懂不要紧，知道这个组合做的事就行了：

从一个简单分布（比如高斯）出发；

在连续时间里学习一个 vector field（向量场）；

把这个分布 " 运输 " 成真实数据对应的 latent 分布。

说白了就是，不靠反复去噪，而是直接学一条 " 最优路径 "，把噪声平滑地引向有意义的语义。

更妙的是，它在这个语义路径上还引入了 block 结构——

块内并行搞定局部语义的快速组织，块间按因果顺序保证整体逻辑不乱。

整体相当于在语义层重新搭了一套生成框架，" 局部快、整体顺 "，两样都没丢。

关键 3：训练时角色分工明确

连续扩散语言模型有一个常见问题：

语义表示 latent 很容易被 diffusion 带偏，最后退化成一个 " 穿了马甲的 token"，即表面是连续向量，但骨子里还是在记词，根本没形成真正的语义抽象。

所以 Cola DLM 的做法是——把两个任务彻底分开。

Encoder/Decoder：只管 " 怎么把文字变成语义表示，再变回来 "；

Prior（DiT+FM）：只管 " 怎么从噪声生成语义表示 "。

而且训练时，Encoder 在 diffusion 阶段基本 " 冻结不动 "。

为什么不让它也跟着学？因为一旦让 Encoder 去适应 diffusion，它就会为了降低 loss 而偷懒，把语义表示悄悄滑向 " 好预测的 token 形式 "，最后又回到老路上。

字节想要的是一个稳定的语义空间，而不是一个被任务污染的中介层。所以他们反其道而行之，让 prior 去适应语义空间，而不是让语义空间讨好 prior。

此外，他们还加了一个语义约束（BERT-style mask loss），防止 encoder 在重建时 " 语义坍塌 "。

实验证明，没有这个约束，latent 确实会为了降 loss 而漂走。

关键 4：把训练目标拆成了三块可以分别诊断的子任务

如果说前面三点更像工程上的巧思，而这第四点就是 Cola DLM 在理论上的硬功夫。

字节把训练目标拆成了三个可以单独看、单独诊断的子任务：

重建能力：给了 latent，Decoder 能不能把原文还原出来？

压缩能力：这个语义表示到底压缩了多少原文信息？

拟合能力：Prior 能不能学出 latent 的真实分布？

这样拆的好处在于，传统自回归把所有东西都糊在一个 " 预测下一个词 " 的损失函数里。

生成效果不好时，你根本不知道是哪里出了问题，不知道是理解错了、记忆不够，还是生成路径歪了。

而 Cola DLM 把账算得清清楚楚，哪里不行分别看指标就知道。

这也它能跑出稳定 scaling 趋势的底层原因——

不是瞎蒙，而是每一个环节都能单独诊断、单独优化。

最后鉴于篇幅原因，这里我们直接放上字节 Cola DLM 研究的成果省流版（详细内容指路博客）：

同一个追问，两种答案

而说到这里，我们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在一起看。

很有意思的是，两份工作几乎同期，都在挑战一个被默认了二十年的假设——

语言模型必须建立在离散 token 上。

为什么这个假设开始受到质疑？

一方面，自回归大模型走到今天，" 预测下一个 token" 这条路的瓶颈越来越明显——推理慢、长程依赖弱、训练目标和真实生成质量之间存在结构性 gap。

另一方面，扩散模型在图像、视频生成上的成功，让大家开始反思：离散 token 真的是语言智能必须依附的载体吗？还是只是历史选择的一种习惯？

这两年扩散语言模型的探索（LLaDA、Dream-7B、MDLM 等）已经把这个问题拉到了台面上，但大多数工作还停留在 " 离散派 " ——还是在 token 上做扩散。

直到 ELF 和 Cola DLM 出现，两边几乎同时给出了同一个答案——不必绑在 token 上。

只不过具体解法上有所不同。

我也去对比了两项研究之前的区别，用图片展示如下：

简单说，ELF 像一个人从头干到尾，在原长度 embedding 空间里反复琢磨，到最后一步才落笔成字。

Cola DLM 则像两个分工部门，语义部先讨论 " 要表达什么 "，文字部再负责 " 具体怎么写 "。

两条路线方法上虽然不同，但底层关切完全一致——

让建模发生在最适合语言本质的表示空间里，不要被 "token= 语义 " 这个默认框架限定。

本质上而言，它们其实是同一个问题的两种回答。

而这也代表着一种趋势——是时候重新认识连续扩散语言模型了。

过去两年，扩散语言模型的舞台几乎一直由 " 离散派 " 占据。但 ELF 和 Cola DLM 这一前一后两次出手，让 " 连续路线 " 第一次以一种严肃、可被对比、可被复现的姿态站到了台前。

更值得注意的是，Cola DLM 还顺手指出了一件更大的事——长期以来 " 统一多模态 " 卡住的核心障碍之一，就是文本是离散的，而图像、视频、音频天然偏连续。

如果想让它们真正进入同一个 "latent 世界 "，必须有一个把文本映射到连续语义 latent 的接口。

而 Cola DLM 恰好扮演了这样的角色。而这，或许才是字节这次出手的真正野心——

不是在扩散语言模型的赛道里再添一名选手，而是为语言模型造一座桥，把它接入连续多模态的世界。

当然，Cola DLM 团队自己也很克制，他们在博客最后写道：

Cola DLM 只是这条路上的一次早期尝试，但这条路本身值得继续走下去。

作者介绍

最后按照惯例介绍一下这项研究的作者。

整个团队由字节跳动 Seed 团队主导，集结了来自港大、人大、北大、北邮、澳国立多所高校的研究者，覆盖语言建模、扩散模型、视频生成等多个方向。

第一署名 Hongcan Guo（郭泓灿），目前是北邮人工智能学院大四本科生，从 2025 年 6 月起在字节 Seed 实习。

研究兴趣集中在生成模型与推理模型的数学基础和学习动力学，Cola DLM 的博客正是出自他手。

通讯作者 Yan Zeng（曾妍）则是字节 Seed 内部的 " 大牛级 " 人物，她是字节爆款视频生成模型 Seedance 系列的研发负责人。有资料显示，这位西安交大校友 2021 年以校招生身份加入字节后，仅用了五年就从算法工程师晋升至 4-2 职级。

这次 Cola DLM 里很多 " 分层潜变量 +diffusion prior" 的思路，与视频生成领域长期采用的 latent diffusion 路线存在明显相通之处。

团队里还有一位很有意思的 " 跨界选手 " —— Shen Nie。他是人大高瓴 AI 学院李崇轩组的代表性研究者，同时也是离散扩散语言模型 LLaDA 的第一作者。而 LLaDA 恰恰也是 Cola DLM 在论文里重点比较的一条离散扩散路线。

某种意义上，这件事本身就挺有意思：一位离散扩散路线的代表人物，也参与到了连续 latent 路线的研究里。某种程度上也说明，Cola DLM 这次真正想讨论的，已经不只是 " 扩散怎么生成文本 "，而是更底层的：

文本智能到底应该建立在什么样的状态空间之上？

其他几位核心作者同样来头不小。

Hengshuang Zhao 是香港大学计算机系助理教授，曾在 MIT CSAIL、牛津 Torr Vision Group 做博士后，长期活跃于计算机视觉与生成建模领域。

Qiushan Guo 则来自港大 MMLab 羅平组，同时也是字节 Seedream 图像生成模型的重要研发成员之一。

其他署名作者还有：Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

实际上，如果把整份作者名单放在一起看，其实会发现一个非常有意思的现象——

字节这次做语言模型，某种程度上几乎是把 " 视频 / 视觉生成 " 那套核心思路整体带了进来：

做 latent diffusion 的、做视频生成的、做图像 prior 的、做离散 DLM 的，最后一起重新思考 " 文本到底该怎么建模 "。

这或许也是为什么 Cola DLM 整体看上去，会和传统语言模型路线呈现出非常不同的气质。

因为它从一开始关注的，就不只是 " 如何更好地生成文本 "，而是在尝试把语言重新放回连续语义空间里，变成一种能够与图像、视频、音频自然对齐的模态。

而这，也许才是 Cola DLM 最值得关注的地方：

当文本不再只是 token 序列，而成为连续世界中的一种语义状态后，多模态智能又会长成什么样。

抱抱脸地址：https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址：https://github.com/ByteDance-Seed/Cola-DLM

论文：https://arxiv.org/abs/2605.06548

博客：https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

中国 AIGC 产业峰会全阵容发布！查看议程

从底层架构到爆款应用，从软件到硬件，从创作到投资 ... 这一次，我们希望聚齐AI 赛道的实战派，聊透 AI 到底怎么落地、怎么赚钱、怎么改变工作。

5 月 20 日，北京 · 金茂万丽酒店，@所有人，马上 AI 起来！

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签