Episode Details
Back to Episodes
【第504期】Engram:大语言模型条件存储与扩展查表机制
Published 4 months, 2 weeks ago
Description
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
今天的主题是:
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Summary
尽管混合专家模型(Mixture-of-Experts,MoE)通过条件计算来扩展模型容量,Transformer 本身却缺乏用于知识查找的原生机制,只能通过计算来低效地“模拟”检索。为了解决这一问题,我们引入了条件记忆(conditional memory),作为一种互补的稀疏性维度,并通过 Engram 模块将其具体化。Engram 对经典的 N-gram 嵌入进行了现代化改造,实现了 O(1) 时间复杂度的查找。
通过形式化稀疏性分配(Sp...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
今天的主题是:
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Summary
尽管混合专家模型(Mixture-of-Experts,MoE)通过条件计算来扩展模型容量,Transformer 本身却缺乏用于知识查找的原生机制,只能通过计算来低效地“模拟”检索。为了解决这一问题,我们引入了条件记忆(conditional memory),作为一种互补的稀疏性维度,并通过 Engram 模块将其具体化。Engram 对经典的 N-gram 嵌入进行了现代化改造,实现了 O(1) 时间复杂度的查找。
通过形式化稀疏性分配(Sp...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动