Episode Details

Back to Episodes

【第575期】尖峰、稀疏与汇聚：大模型异常激活解析

Published 11 hours ago

Description

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Summary

我们研究了 Transformer 语言模型中两种反复出现的现象：大规模激活（massive activations），即极少数 Token 在少量通道中表现出极端的离群值；以及注意池（attention sinks），即某些 Token 无论语义相关性如何，都会吸引不成比例的注意力权重。

此前的工作观察到这两种现象频繁共同出现，且通常涉及相同的 Token，但它们的功能角色和因果关系尚不明确。通过系统性实验，我们证明了这种共现很大程度上是现代 Transformer 架构设计的产物，且这两种现象承担着相关但截然不同的功能。

大规模激活在全局范围内起作用：它们诱导产生跨层持续的近乎常量的隐层表示，实际上充当了模型的隐式参数。
注意池在局部范围内起作用：它们调节各注意头（head）的输出，并将单个注意头引导向短程依赖。

我们确定 Pre-Norm 配置是实现这种共现的关键选择，并证明消除该配置会导致这两种现象发生解耦。

原文链接：https://arxiv.org/abs/2603.05498

Episode Details

【第575期】尖峰、稀疏与汇聚：大模型异常激活解析

Description

今天的主题是：

Listen Now

Love PodBriefly?