Episode Details
Back to Episodes
【第614期】从Attention到Mamba:跨架构蒸馏方案
Published 3 weeks, 4 days ago
Description
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Attention to Mamba: A Recipe for Cross-Architecture Distillation
Summary
状态空间模型(State Space Models, SSMs),例如 Mamba,由于相比基于注意力机制(Attention-based)的模型在生成阶段具有更低的内存消耗和更高的吞吐效率,近年来成为 Transformer 的一种流行替代方案。
另一方面,社区已经积累了大量关于 Transformer 训练的经验,并且有...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Attention to Mamba: A Recipe for Cross-Architecture Distillation
Summary
状态空间模型(State Space Models, SSMs),例如 Mamba,由于相比基于注意力机制(Attention-based)的模型在生成阶段具有更低的内存消耗和更高的吞吐效率,近年来成为 Transformer 的一种流行替代方案。
另一方面,社区已经积累了大量关于 Transformer 训练的经验,并且有...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动