杨植麟跟梁文锋，论文撞车！

编译 | 陈骏达

编辑 | Panken

智东西 2 月 19 日报道，在 DeepSeek 公布最新稀疏注意力框架 NSA 论文的 5 小时后，" 大模型六小虎 " 之一、月之暗面 Kimi 团队公布了一篇类似主题的 MoBA 论文，并声称在长文本上下文中实现了高效、动态的注意力选择，提升了大模型在处理超长序列任务时的效率和性能，同时保持了与全注意力机制相当的效果。

▲ DeepSeek 与月之暗面相隔 5 小时官宣论文（图源：X）

和 NSA 类似，MoBA 也是一个稀疏注意力框架，旨在提高长文本处理效率。MoBA 上下文长度最大可扩展到 10M，而 NSA 最长是 64k（刚刚，DeepSeek 发新成果！梁文锋亲自参与，实习生挑大梁，显著加速 AI 训练推理）。值得关注的是，DeepSeek 创始人梁文锋是 NSA 论文共同作者之一，MoBA 论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。

月之暗面 MoBA 架构的主要特点包括对长上下文任务的适配，例如，在处理长达 100 万 tokens 的序列时，其速度比全注意力架构快 6.5 倍。在扩展到 1000 万 tokens 时，MoBA 的计算时间与标准 Flash Attention 相比，实现 16 倍的加速比。

▲ MoBA 论文截图（图源：月之暗面）

此外，这一架构没有参数门控机制，模型能在全注意力与 MoBA 间自由切换，与现有的 Transformer 预训练模型兼容度也较高。

采用 MoBA 架构的模型在多个长上下文基准测试中，与全注意力模型相当。特别是在 RULER 基准测试中，MoBA 的稀疏度高达 62.5%，但性能与全注意力模型几乎匹配。

昨天，Kimi 还面向开发者发布了一款最新的模型 Kimi Latest，对标 Kimi 智能助手当前使用的模型，随智能助手产品更新而同步升级。这款模型支持自动上下文缓存，缓存命中的 Tokens 费用仅为 1 元 / 百万 tokens。

项目链接：https://github.com/MoonshotAI/MoBA

论文链接：https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf

一、长文本是 AGI 关键能力，现有方案可扩展性、成本效益不佳

月之暗面团队认为，实现 AGI 的关键能力之一是处理、理解和生成长序列的能力，这种对长序列处理的需求不仅体现在对长输入提示词的理解，还体现在对思维链（CoT）输出能力的探索中。

扩展大模型的序列长度并非易事，因为传统的注意力机制会导致计算复杂度呈二次方增长。研究者们需要一种能提高效率，而不会牺牲性能的方法。受到生物学意义上人脑中稀疏连接的启发，研究者们试图利用注意力分数的稀疏性，来提升计算效率。

不过，现有的稀疏注意力框架存在一些问题。

部分方法依赖于预定义的结构约束，如基于 sink 的注意力或滑动窗口注意力。这些方法的有效性已经得到验证，但仅适用于特定类型的任务，可能会限制模型的整体泛化能力。

另一种方法是动态稀疏注意力机制，如 Quest、Minference 和 RetrievalAttention，这些方法在推理时选择子集，虽然可以减少长序列的计算量，但未能显著降低长序列模型的训练成本，使得 LLMs 难以高效扩展到百万级的上下文长度。

此外，线性注意力模型（如 Mamba、RWKV 和 RetNet）通过用线性近似替代传统的 softmax 注意力，降低了计算开销。但线性注意力与传统注意力存在显著差异，在适应现有的 Transformer 模型时通常需要高昂的转换成本，甚至需要从头开始训练新模型。更重要的是，这些方法在复杂推理任务中的有效性尚未得到充分验证。

月之暗面团队希望在保留原始 Transformer 框架的前提下，打造一款遵循 " 少结构（less structure）" 原则、稳健且适应性强的注意力架构，让模型自主决定关注点，而不是引入人工干预的偏差。

理想情况下，这种架构能够在全注意力和稀疏注意力模式之间无缝切换，从而最大化与现有预训练模型的兼容性，并在不牺牲性能的情况下实现高效的推理和训练加速。

二、设计灵感源自 MoE 与稀疏注意力，可与全注意力无缝切换

月之暗面的 MoBA 架构能通过动态选择历史片段（块）来提高 Transformer 模型处理长序列的效率。其设计灵感来源于混合专家（MoE）和稀疏注意力技术。他们创新性地将 MoE 原则应用于注意力机制本身，从而实现更高效和有效的长序列处理。

▲ MoBA 注意力机制架构图（图源：月之暗面）

MoBA 的核心创新在于其块划分和选择策略。它将长序列分割成多个固定大小的块（block），并通过门控机制动态选择与每个查询 token 最相关的块，从而实现稀疏注意力。

块划分方面，MoBA 将将长度为 N 的上下文划分为 n 个块，每个块包含 B=N/n 个连续 token。这种方式能够将注意力集中在局部区域，从而减少计算量，使得模型可以高效地处理长序列，而不需要对整个序列进行全局计算。

门控机制通过计算查询 token 与每个块的相关性得分 si，并应用 top-k 选择机制，动态地为每个查询 token 选择最相关的 k 个块。这种机制允许模型动态地关注最有信息量的块，而不是整个上下文，还增强了模型对长序列的理解能力。

因果性是自回归语言模型的核心特性，确保模型只能基于之前的上下文生成下一个 token。MoBA 通过限制查询 token 不能关注未来的块，并在当前块内应用因果掩码，避免了信息泄露，确保了生成过程的顺序性和逻辑性，这使得模型在处理长序列时能够保持一致性和准确性。

此外，MoBA 借鉴了 MoE 中细粒度划分的思想，通过增加块的数量和减小块的大小，模型能更精准地捕捉局部信息，同时减少不必要的计算。

由于全注意力与稀疏注意力各有优势，MoBA 被设计为全注意力的替代品，可以在训练和推理过程中无缝切换。这种灵活性使得 MoBA 能够与现有的预训练模型兼容，从而在效率和性能之间取得平衡。

具体实现过程中，MoBA 通过结合 FlashAttention 和 MoE 的优化技术，打造了高效的计算流程，具体步骤如下 :

1、块分配：根据门控网络和因果掩码，确定每个查询 token 与哪些 KV 块相关联。

2、顺序调整：按照块分配关系重新排列查询 token 的顺序，以便按块进行计算。

3、块级注意力计算：对每个 KV 块及其对应的查询 token 分别计算注意力输出，这一步可通过 FlashAttention 优化，显著提升计算效率。

4、输出重组：将计算完成的注意力输出重新排列回原始顺序。

5、在线 Softmax 组合：使用在线 Softmax 将不同块的输出进行整合，确保最终结果的连贯性。

三、处理百万 token 时快 6.5 倍，混合训练效果与全注意力无异

月之暗面团队主要通过扩展法则实验和消融研究来验证 MoBA 的一些关键设计选择。

训练方面，他们比较了使用全注意力和 MoBA 训练的语言模型验证损失，来进行扩展法则实验。MoBA 作为全注意力的替代方案，没有引入新的参数或移除现有参数，实验中唯一的区别在于注意力模块，而所有其他超参数（包括学习率和批量大小）保持不变。

MoBA 和全注意力的验证损失曲线显示出非常相似的扩展趋势。具体而言，这两种注意力机制之间的验证损失差异始终保持在 1e-3 的范围内。这表明，尽管 MoBA 的稀疏注意力模式稀疏度高达 75%，但其扩展性能与全注意力相当。

▲ MoBA 和全注意力的验证损失曲线非常相似（图源：月之暗面）

语言模型损失还会受到数据长度分布的偏差影响。为了全面评估 MoBA 的长上下文能力，月之暗面团队评估了尾部 token 的语言模型损失（trailing LM loss）。这些指标能帮助人们了解模型生成序列最后部分的能力，在长上下文理解任务中具有重要意义

测试中，尽管 MoBA 在所有五个实验中与全注意力相比，尾部块的语言模型损失略高，但损失差距逐渐缩小。这一实验表明了 MoBA 的长上下文可扩展性。

▲ MoBA 与全注意力模型间的损失差距逐渐缩小（图源：月之暗面）

研究人员还通过调整块大小和 top-k 参数，研究块粒度对性能的影响。实验发现，细粒度分割显著提升了 MoBA 的性能。

他们还在尝试了混合训练策略，先用 MoBA 训练 90% 的数据，再用全注意力训练剩余 10% 的数据。结果显示，混合训练策略在保持高效训练的同时，几乎达到了全注意力的性能水平。

▲混合训练策略（绿线）与全注意力策略（红线）的性能差异较小（图源：月之暗面）

在多个长上下文基准测试中，MoBA 的性能与全注意力模型相当。特别是在 RULER 基准测试中，MoBA 的稀疏度高达 62.5%，但性能与全注意力模型几乎匹配，还在近半数的测验中实现了更好的表现。

▲ MoBA 模型在基准测试上的表现（图源：月之暗面）

MoBA 模型在长上下文理解任务上的也具有不错的表现，于 3200-100 万 tokens 上下文长度的 " 大海捞针（Needle in a Haystack）" 测试中获得了令人满意的表现。

▲采用 MoBA 注意力机制的模型在 " 大海捞针 " 测试中的表现（图源：月之暗面）

MoBA 在计算效率方面表现出显著优势。其前向传播时间远低于传统的全注意力机制，展现出亚二次复杂度，这意味着随着序列长度的增加，MoBA 的计算开销增长速度远低于传统方法。例如，在处理长达 100 万 tokens 的序列时，MoBA 的速度比全注意力快 6.5 倍。

此外，MoBA 的效率优势在处理更长序列时愈发明显：在扩展到 1000 万 tokens 时，MoBA 的计算时间与标准 Flash Attention 相比，实现 16 倍的加速比。

这种高效性主要得益于 MoBA 的块稀疏注意力机制，以及其结合了 MoE 和 Flash Attention 的优化实现。这些技术有效解决了传统注意力机制的二次复杂度问题，显著提升了模型的计算效率，使其能够高效处理极长序列。

四、同日发布新模型，将与最新版 Kimi 保持同步

月之暗面昨天还发布了一个新模型 Kimi Latest，这款模型主要是为了弥合 Kimi 智能助手和开放平台之间模型的差异。

在过去，当开发团队优先满足智能助手的情绪化回复需求时，开放平台用户可能遭遇提示词失效等 " 破坏性变动 "，不符合其对模型效果稳定性的要求。

另一方面，智能助手的快速迭代特性导致部分试验性特性虽在某些方面出色，但在其他场景下存在缺陷（如重复输出），不适合第一时间应用于开放平台，造成开放平台与智能助手所用模型存在差异，引发用户对同一提示词在网页版和 API 调用时回复不同的疑问。

新模型 Kimi Latest 对标 Kimi 智能助手当前使用的模型，并随产品更新同步升级（模型名称始终为 kimi-latest）。开放平台用户体验可以体验最新模型的效果（包括试验性特性），又能保持原有模型的稳定性。

Kimi Latest 模型有五大特点：

1、使用 Kimi 智能助手最新的大模型，可能包含尚未稳定的特性。

2、上下文长度为 128k，会根据上下文长度自动选择 8k/32k/128k 模型作为计费模型。

3、是视觉模型，支持图片理解。

4、支持自动上下文缓存，缓存命中的 Tokens 费用为￥1/M Tokens（暂不支持手动上下文缓存）。

5、其余功能与 moonshot-v1 系列模型一致，包括 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等。

月之暗面建议，如果开发者是为了获取与 Kimi 智能助手类似的体验，或是要开发 AI 智能助手或客服，推荐使用 Kimi Latest 模型；但如果是要进行意图识别或结构化数据提取，或是已经使用 moonshot-v1 系列模型且提示词效果稳定，还是推荐使用原有的 moonshot-v1 系列模型。

结语：国产开源 AI 竞赛升级

在 DeepSeek 以现象级开源姿态引爆行业后，国内大模型赛道掀起了一场开源军备竞赛——厂商们不仅争相开源自家模型，也将内部技术成果以论文形式推向开发者社区。这一举措有望撬动开发者生态，扩大技术影响力。

不过，在这场竞赛中，月之暗面已然不是那个最耀眼的玩家：发布 v1.5 撞同款推理模型 DeepSeek R1，势头完全被 DeepSeek 盖过；发新模型和稀疏注意力机制，又撞上阶跃星辰新模型开源、马斯克 Grok 3 发布、DeepSeek NSA 轮番吸走高关注度。曾经的顶流，被网友戏称是 " 大模型圈的汪峰 "，如今似乎很难再抢到大模型圈的 " 头条 "。

宙世代

一起剪

相关标签