Episode Details
Back to Episodes
用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
Description
「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」
(题图:levelsio.com 上售卖的 Attention 鸭舌帽。)
本期图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》
上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA(GitHub)。他们都聚焦到了对大模型中的“注意力机制”的改进。
注意力机制是大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切)。
而优化 Attention 的计算效率和效果,又能帮助解决,AI 学界和业界,都非常关心的一个问题,就是长文本,long context——不管是要一次输入一整本书,让模型能帮我们提炼、理解;还是在现在用强化学习来提升推理能力的范式转型后,需要生成长思维链;又或者是,我们未来希望模型有越来越长的“记忆”,这都需要长文本能力的支持。
这期节目,我们邀请了两位也做过 Attention 机制改进的 AI 研究者,一起聊 attention 它是什么,过去的瓶颈在哪儿,以及最新的 NSA、MoBA 这些成果带来了哪些启发;和未来注意力机制及更广泛的长文本能力提升上,有哪些趋势和方向。
本期嘉宾:
- 清华自然语言处理实验室的博士肖朝军,他是 InfLLM(GitHub)注意力机制改进的一作,导师是清华计算机系的刘知远。(Email:xcjthu@gmail.com)
- 清华 NICS-EFC 实验室的博士傅天予,他是 MoA(GitHub)注意力机制改进的共同一作,导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。(Email:fty22@mails.tsinghua.edu.cn) NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion(GitHub)。
他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。
注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释,希望可以帮大家更好得理解。
如果你虽然不是一个 AI 从业者,但又因为兴趣、好奇或工作需要,非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目,这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。
让我们一起学习起来!
不是每个人都需要或有精力去了解 AI 底层技术,但很多人都会被 AI 影响,都需要“智能思维”。
时间线跳转
注意力机制是什么 & 工作原理?
00:05 注意力机制是大语言模型的核心,优化注意力机制计算效率与效果对长文本处理至关重要
06:00 注意力机制本质是建立词与上下文的动态关联,解决传统 RNN 的遗忘问题
10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘,但面临存储与计算复杂度瓶颈
12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸,稀疏化成为改进选择
15:25 稀疏注意力与线性注意力(RNN 思路)是注意力机制两大改进方向,各有优劣
16:27 之前稀疏注意力更主流,但 Mamba 之后,线性注意力也比较火
18:27 算法、系统、硬件三层优化共同提升效率,如 MoE 与生成范式革新也能帮助处理长文本详解 NSA 与 MoBA:都是把稀疏注意力引入了训练阶段
21:06 动态稀疏效果更好但计算效率低,静态稀疏(如滑动窗口)更高效但效果受限
24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化,解决训练与推理的机制差异
30:27 NSA 与 MoBA 均采用动态与静态混合策略,块状稀疏设计适配硬件特性
24:55 稀疏训练突破性能上限质疑,NSA 论文证明效果可超越稠密注意力
27:23 长思维链(CoT)与 RL 需求推动稀疏注意力落地训练阶段
36:50 块状稀疏设计(Block-Level)优化 GPU 并行与内存访问效率
42:06 NSA 实测推理加速显著,MoBA 强调保留关键注意力头提升长程关联
48:21 实验关注训练曲线稳定性与长 CoT 生成能力,而非传统 Benchmark
---两篇paper 中的训练曲线(Training Curve)的图示:

上图:MoBA 论文中的 Figure3

上图:NSA 论文中的 Figure4未来方向与 AGI 的终极想象
55:32 存储压缩与多模态长序列处理是下一阶段关键挑战
57:55 记忆架构需突破全存与固定存储的极端,探索类人动态决策机制
01:02:04 长文本能力支撑多模态推理(视频、科研)、情感记忆与知识服务
01:16:28 AGI 需具备科研能力突破知识边界,记忆与效率优化是底层支撑
01:22:03 自组织 AGI 可能颠覆人类对智能的定义,动机与伦理仍是未知领域总结与预告
01:26:38 稀疏注意力解决存储与计算瓶颈,训练阶段改进适配 RL 与多模态需求
01:27:21 线性注意力(如 MiniMax 01)是另一重要方向,下期节目将深入探讨
相关链接
AI 视频科普视频推荐:1hr Talk Intro to Large Language Models (Andrej Karpathy)
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点聊 102: DeepSeek 启动开源周,大模型开源到底在开什么?
附录
(基本按本期播客中的出场顺序)
稀疏注意力:仅关注输入序列中部分关键位置的注意力机制,降低计算复杂度。
稠密 VS 稀疏:稠密指数据/计算全连接;稀疏指仅部分连接,效率更高。
稀疏