Episode Details

Back to Episodes

用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

Episode 103 Published 1 year, 4 months ago

Description

「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」

（题图：levelsio.com 上售卖的 Attention 鸭舌帽。）

本期图文版：《大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》

上周，DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果，分别是 NSA、MoBA（GitHub）。他们都聚焦到了对大模型中的“注意力机制”的改进。

注意力机制是大语言模型（LLM）的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文，标题就是：Attention Is All You Need（注意力就是你所需要的一切）。

而优化 Attention 的计算效率和效果，又能帮助解决，AI 学界和业界，都非常关心的一个问题，就是长文本，long context——不管是要一次输入一整本书，让模型能帮我们提炼、理解；还是在现在用强化学习来提升推理能力的范式转型后，需要生成长思维链；又或者是，我们未来希望模型有越来越长的“记忆”，这都需要长文本能力的支持。

这期节目，我们邀请了两位也做过 Attention 机制改进的 AI 研究者，一起聊 attention 它是什么，过去的瓶颈在哪儿，以及最新的 NSA、MoBA 这些成果带来了哪些启发；和未来注意力机制及更广泛的长文本能力提升上，有哪些趋势和方向。

本期嘉宾：

清华自然语言处理实验室的博士肖朝军，他是 InfLLM（GitHub）注意力机制改进的一作，导师是清华计算机系的刘知远。（Email：xcjthu@gmail.com）
清华 NICS-EFC 实验室的博士傅天予，他是 MoA（GitHub）注意力机制改进的共同一作，导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。（Email：fty22@mails.tsinghua.edu.cn) NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion（GitHub）。

他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。

注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释，希望可以帮大家更好得理解。

如果你虽然不是一个 AI 从业者，但又因为兴趣、好奇或工作需要，非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目，这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。
让我们一起学习起来！

不是每个人都需要或有精力去了解 AI 底层技术，但很多人都会被 AI 影响，都需要“智能思维”。

时间线跳转

注意力机制是什么 & 工作原理？
00:05 注意力机制是大语言模型的核心，优化注意力机制计算效率与效果对长文本处理至关重要
06:00 注意力机制本质是建立词与上下文的动态关联，解决传统 RNN 的遗忘问题
10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘，但面临存储与计算复杂度瓶颈
12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸，稀疏化成为改进选择
15:25 稀疏注意力与线性注意力（RNN 思路）是注意力机制两大改进方向，各有优劣
16:27 之前稀疏注意力更主流，但 Mamba 之后，线性注意力也比较火
18:27 算法、系统、硬件三层优化共同提升效率，如 MoE 与生成范式革新也能帮助处理长文本
详解 NSA 与 MoBA：都是把稀疏注意力引入了训练阶段
21:06 动态稀疏效果更好但计算效率低，静态稀疏（如滑动窗口）更高效但效果受限
24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化，解决训练与推理的机制差异
30:27 NSA 与 MoBA 均采用动态与静态混合策略，块状稀疏设计适配硬件特性
24:55 稀疏训练突破性能上限质疑，NSA 论文证明效果可超越稠密注意力
27:23 长思维链（CoT）与 RL 需求推动稀疏注意力落地训练阶段
36:50 块状稀疏设计（Block-Level）优化 GPU 并行与内存访问效率
42:06 NSA 实测推理加速显著，MoBA 强调保留关键注意力头提升长程关联
48:21 实验关注训练曲线稳定性与长 CoT 生成能力，而非传统 Benchmark
---两篇paper 中的训练曲线（Training Curve）的图示：

上图：MoBA 论文中的 Figure3

上图：NSA 论文中的 Figure4
未来方向与 AGI 的终极想象
55:32 存储压缩与多模态长序列处理是下一阶段关键挑战
57:55 记忆架构需突破全存与固定存储的极端，探索类人动态决策机制
01:02:04 长文本能力支撑多模态推理（视频、科研）、情感记忆与知识服务
01:16:28 AGI 需具备科研能力突破知识边界，记忆与效率优化是底层支撑
01:22:03 自组织 AGI 可能颠覆人类对智能的定义，动机与伦理仍是未知领域
总结与预告
01:26:38 稀疏注意力解决存储与计算瓶颈，训练阶段改进适配 RL 与多模态需求
01:27:21 线性注意力（如 MiniMax 01）是另一重要方向，下期节目将深入探讨

相关链接
AI 视频科普视频推荐：1hr Talk Intro to Large Language Models （Andrej Karpathy)

月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖

晚点聊 102: DeepSeek 启动开源周，大模型开源到底在开什么？

附录
（基本按本期播客中的出场顺序）
稀疏注意力：仅关注输入序列中部分关键位置的注意力机制，降低计算复杂度。
稠密 VS 稀疏：稠密指数据/计算全连接；稀疏指仅部分连接，效率更高。
稀疏

Episode Details

用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

Description

Listen Now

Love PodBriefly?