Episode Details

Back to Episodes
【第575期】尖峰、稀疏与汇聚:大模型异常激活解析

【第575期】尖峰、稀疏与汇聚:大模型异常激活解析

Published 11 hours ago
Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Summary

我们研究了 Transformer 语言模型中两种反复出现的现象:大规模激活(massive activations),即极少数 Token 在少量通道中表现出极端的离群值;以及注意池(attention sinks),即某些 Token 无论语义相关性如何,都会吸引不成比例的注意力权重。

此前的工作观察到这两种现象频繁共同出现,且通常涉及相同的 Token,但它们的功能角色和因果关系尚不明确。通过系统性实验,我们证明了这种共现很大程度上是现代 Transformer 架构设计的产物,且这两种现象承担着相关但截然不同的功能。

  • 大规模激活在全局范围内起作用:它们诱导产生跨层持续的近乎常量的隐层表示,实际上充当了模型的隐式参数。
  • 注意池在局部范围内起作用:它们调节各注意头(head)的输出,并将单个注意头引导向短程依赖。

我们确定 Pre-Norm 配置是实现这种共现的关键选择,并证明消除该配置会导致这两种现象发生解耦。

原文链接:https://arxiv.org/abs/2603.05498

Listen Now

Love PodBriefly?

If you like Podbriefly.com, please consider donating to support the ongoing development.

Support Us