智东西 02-19
杨植麟跟梁文锋,论文撞车!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编译 | 陈骏达

编辑 | Panken

智东西 2 月 19 日报道,在 DeepSeek 公布最新稀疏注意力框架 NSA 论文的 5 小时后," 大模型六小虎 " 之一、月之暗面 Kimi 团队公布了一篇类似主题的 MoBA 论文,并声称在长文本上下文中实现了高效、动态的注意力选择,提升了大模型在处理超长序列任务时的效率和性能,同时保持了与全注意力机制相当的效果。

▲ DeepSeek 与月之暗面相隔 5 小时官宣论文(图源:X)

和 NSA 类似,MoBA 也是一个稀疏注意力框架,旨在提高长文本处理效率。MoBA 上下文长度最大可扩展到 10M,而 NSA 最长是 64k(刚刚,DeepSeek 发新成果!梁文锋亲自参与,实习生挑大梁,显著加速 AI 训练推理)。值得关注的是,DeepSeek 创始人梁文锋是 NSA 论文共同作者之一,MoBA 论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。

月之暗面 MoBA 架构的主要特点包括对长上下文任务的适配,例如,在处理长达 100 万 tokens 的序列时,其速度比全注意力架构快 6.5 倍。在扩展到 1000 万 tokens 时,MoBA 的计算时间与标准 Flash Attention 相比,实现 16 倍的加速比。

▲ MoBA 论文截图(图源:月之暗面)

此外,这一架构没有参数门控机制,模型能在全注意力与 MoBA 间自由切换,与现有的 Transformer 预训练模型兼容度也较高。

采用 MoBA 架构的模型在多个长上下文基准测试中,与全注意力模型相当。特别是在 RULER 基准测试中,MoBA 的稀疏度高达 62.5%,但性能与全注意力模型几乎匹配。

昨天,Kimi 还面向开发者发布了一款最新的模型 Kimi Latest,对标 Kimi 智能助手当前使用的模型,随智能助手产品更新而同步升级。这款模型支持自动上下文缓存,缓存命中的 Tokens 费用仅为 1 元 / 百万 tokens。

项目链接:https://github.com/MoonshotAI/MoBA

论文链接:https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf

一、长文本是 AGI 关键能力,现有方案可扩展性、成本效益不佳

月之暗面团队认为,实现 AGI 的关键能力之一是处理、理解和生成长序列的能力,这种对长序列处理的需求不仅体现在对长输入提示词的理解,还体现在对思维链(CoT)输出能力的探索中。

扩展大模型的序列长度并非易事,因为传统的注意力机制会导致计算复杂度呈二次方增长。研究者们需要一种能提高效率,而不会牺牲性能的方法。受到生物学意义上人脑中稀疏连接的启发,研究者们试图利用注意力分数的稀疏性,来提升计算效率。

不过,现有的稀疏注意力框架存在一些问题。

部分方法依赖于预定义的结构约束,如基于 sink 的注意力或滑动窗口注意力。这些方法的有效性已经得到验证,但仅适用于特定类型的任务,可能会限制模型的整体泛化能力。

另一种方法是动态稀疏注意力机制,如 Quest、Minference 和 RetrievalAttention,这些方法在推理时选择子集,虽然可以减少长序列的计算量,但未能显著降低长序列模型的训练成本,使得 LLMs 难以高效扩展到百万级的上下文长度。

此外,线性注意力模型(如 Mamba、RWKV 和 RetNet)通过用线性近似替代传统的 softmax 注意力,降低了计算开销。但线性注意力与传统注意力存在显著差异,在适应现有的 Transformer 模型时通常需要高昂的转换成本,甚至需要从头开始训练新模型。更重要的是,这些方法在复杂推理任务中的有效性尚未得到充分验证。

月之暗面团队希望在保留原始 Transformer 框架的前提下,打造一款遵循 " 少结构(less structure)" 原则、稳健且适应性强的注意力架构,让模型自主决定关注点,而不是引入人工干预的偏差。

理想情况下,这种架构能够在全注意力和稀疏注意力模式之间无缝切换,从而最大化与现有预训练模型的兼容性,并在不牺牲性能的情况下实现高效的推理和训练加速。

二、设计灵感源自 MoE 与稀疏注意力,可与全注意力无缝切换

月之暗面的 MoBA 架构能通过动态选择历史片段(块)来提高 Transformer 模型处理长序列的效率。其设计灵感来源于混合专家(MoE)和稀疏注意力技术。他们创新性地将 MoE 原则应用于注意力机制本身,从而实现更高效和有效的长序列处理。

▲ MoBA 注意力机制架构图(图源:月之暗面)

MoBA 的核心创新在于其块划分和选择策略。它将长序列分割成多个固定大小的块(block),并通过门控机制动态选择与每个查询 token 最相关的块,从而实现稀疏注意力。

块划分方面,MoBA 将将长度为 N 的上下文划分为 n 个块,每个块包含 B=N/n 个连续 token。这种方式能够将注意力集中在局部区域,从而减少计算量,使得模型可以高效地处理长序列,而不需要对整个序列进行全局计算。

门控机制通过计算查询 token 与每个块的相关性得分 si,并应用 top-k 选择机制,动态地为每个查询 token 选择最相关的 k 个块。这种机制允许模型动态地关注最有信息量的块,而不是整个上下文,还增强了模型对长序列的理解能力。

因果性是自回归语言模型的核心特性,确保模型只能基于之前的上下文生成下一个 token。MoBA 通过限制查询 token 不能关注未来的块,并在当前块内应用因果掩码,避免了信息泄露,确保了生成过程的顺序性和逻辑性,这使得模型在处理长序列时能够保持一致性和准确性。

此外,MoBA 借鉴了 MoE 中细粒度划分的思想,通过增加块的数量和减小块的大小,模型能更精准地捕捉局部信息,同时减少不必要的计算。

由于全注意力与稀疏注意力各有优势,MoBA 被设计为全注意力的替代品,可以在训练和推理过程中无缝切换。这种灵活性使得 MoBA 能够与现有的预训练模型兼容,从而在效率和性能之间取得平衡。

具体实现过程中,MoBA 通过结合 FlashAttention 和 MoE 的优化技术,打造了高效的计算流程,具体步骤如下 :

1、块分配:根据门控网络和因果掩码,确定每个查询 token 与哪些 KV 块相关联。

2、顺序调整:按照块分配关系重新排列查询 token 的顺序,以便按块进行计算。

3、块级注意力计算:对每个 KV 块及其对应的查询 token 分别计算注意力输出,这一步可通过 FlashAttention 优化,显著提升计算效率。

4、输出重组:将计算完成的注意力输出重新排列回原始顺序。

5、在线 Softmax 组合:使用在线 Softmax 将不同块的输出进行整合,确保最终结果的连贯性。

三、处理百万 token 时快 6.5 倍,混合训练效果与全注意力无异

月之暗面团队主要通过扩展法则实验和消融研究来验证 MoBA 的一些关键设计选择。

训练方面,他们比较了使用全注意力和 MoBA 训练的语言模型验证损失,来进行扩展法则实验。MoBA 作为全注意力的替代方案,没有引入新的参数或移除现有参数,实验中唯一的区别在于注意力模块,而所有其他超参数(包括学习率和批量大小)保持不变。

MoBA 和全注意力的验证损失曲线显示出非常相似的扩展趋势。具体而言,这两种注意力机制之间的验证损失差异始终保持在 1e-3 的范围内。这表明,尽管 MoBA 的稀疏注意力模式稀疏度高达 75%,但其扩展性能与全注意力相当。

▲ MoBA 和全注意力的验证损失曲线非常相似(图源:月之暗面)

语言模型损失还会受到数据长度分布的偏差影响。为了全面评估 MoBA 的长上下文能力,月之暗面团队评估了尾部 token 的语言模型损失(trailing LM loss)。这些指标能帮助人们了解模型生成序列最后部分的能力,在长上下文理解任务中具有重要意义

测试中,尽管 MoBA 在所有五个实验中与全注意力相比,尾部块的语言模型损失略高,但损失差距逐渐缩小。这一实验表明了 MoBA 的长上下文可扩展性。

▲ MoBA 与全注意力模型间的损失差距逐渐缩小(图源:月之暗面)

研究人员还通过调整块大小和 top-k 参数,研究块粒度对性能的影响。实验发现,细粒度分割显著提升了 MoBA 的性能。

他们还在尝试了混合训练策略,先用 MoBA 训练 90% 的数据,再用全注意力训练剩余 10% 的数据。结果显示,混合训练策略在保持高效训练的同时,几乎达到了全注意力的性能水平。

▲混合训练策略(绿线)与全注意力策略(红线)的性能差异较小(图源:月之暗面)

在多个长上下文基准测试中,MoBA 的性能与全注意力模型相当。特别是在 RULER 基准测试中,MoBA 的稀疏度高达 62.5%,但性能与全注意力模型几乎匹配,还在近半数的测验中实现了更好的表现。

▲ MoBA 模型在基准测试上的表现(图源:月之暗面)

MoBA 模型在长上下文理解任务上的也具有不错的表现,于 3200-100 万 tokens 上下文长度的 " 大海捞针(Needle in a Haystack)" 测试中获得了令人满意的表现。

▲采用 MoBA 注意力机制的模型在 " 大海捞针 " 测试中的表现(图源:月之暗面)

MoBA 在计算效率方面表现出显著优势。其前向传播时间远低于传统的全注意力机制,展现出亚二次复杂度,这意味着随着序列长度的增加,MoBA 的计算开销增长速度远低于传统方法。例如,在处理长达 100 万 tokens 的序列时,MoBA 的速度比全注意力快 6.5 倍。

此外,MoBA 的效率优势在处理更长序列时愈发明显:在扩展到 1000 万 tokens 时,MoBA 的计算时间与标准 Flash Attention 相比,实现 16 倍的加速比。

这种高效性主要得益于 MoBA 的块稀疏注意力机制,以及其结合了 MoE 和 Flash Attention 的优化实现。这些技术有效解决了传统注意力机制的二次复杂度问题,显著提升了模型的计算效率,使其能够高效处理极长序列。

四、同日发布新模型,将与最新版 Kimi 保持同步

月之暗面昨天还发布了一个新模型 Kimi Latest,这款模型主要是为了弥合 Kimi 智能助手和开放平台之间模型的差异。

在过去,当开发团队优先满足智能助手的情绪化回复需求时,开放平台用户可能遭遇提示词失效等 " 破坏性变动 ",不符合其对模型效果稳定性的要求。

另一方面,智能助手的快速迭代特性导致部分试验性特性虽在某些方面出色,但在其他场景下存在缺陷(如重复输出),不适合第一时间应用于开放平台,造成开放平台与智能助手所用模型存在差异,引发用户对同一提示词在网页版和 API 调用时回复不同的疑问。

新模型 Kimi Latest 对标 Kimi 智能助手当前使用的模型,并随产品更新同步升级(模型名称始终为 kimi-latest)。开放平台用户体验可以体验最新模型的效果(包括试验性特性),又能保持原有模型的稳定性。

Kimi Latest 模型有五大特点:

1、使用 Kimi 智能助手最新的大模型,可能包含尚未稳定的特性。

2、上下文长度为 128k,会根据上下文长度自动选择 8k/32k/128k 模型作为计费模型。

3、是视觉模型,支持图片理解。

4、支持自动上下文缓存,缓存命中的 Tokens 费用为¥1/M Tokens(暂不支持手动上下文缓存)。

5、其余功能与 moonshot-v1 系列模型一致,包括 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等。

月之暗面建议,如果开发者是为了获取与 Kimi 智能助手类似的体验,或是要开发 AI 智能助手或客服,推荐使用 Kimi Latest 模型;但如果是要进行意图识别或结构化数据提取,或是已经使用 moonshot-v1 系列模型且提示词效果稳定,还是推荐使用原有的 moonshot-v1 系列模型。

结语:国产开源 AI 竞赛升级

在 DeepSeek 以现象级开源姿态引爆行业后,国内大模型赛道掀起了一场开源军备竞赛——厂商们不仅争相开源自家模型,也将内部技术成果以论文形式推向开发者社区。这一举措有望撬动开发者生态,扩大技术影响力。

不过,在这场竞赛中,月之暗面已然不是那个最耀眼的玩家:发布 v1.5 撞同款推理模型 DeepSeek R1,势头完全被 DeepSeek 盖过;发新模型和稀疏注意力机制,又撞上阶跃星辰新模型开源、马斯克 Grok 3 发布、DeepSeek NSA 轮番吸走高关注度。曾经的顶流,被网友戏称是 " 大模型圈的汪峰 ",如今似乎很难再抢到大模型圈的 " 头条 "。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

moba kimi 创始人 智东西
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论