Episode Details
Back to Episodes
【第560期】Doc-to-LoRA:学习即时将上下文内化为模型参数
Published 2 months, 2 weeks ago
Description
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Doc-to-LoRA: Learning to Instantly Internalize Contexts
Summary
长输入序列是大语言模型(LLM)进行语境学习(In-context Learning)、文档理解和多步推理的核心。然而,Transformer 架构中注意力机制的平方级计算代价使得推理过程极其耗费内存且速度缓慢。虽然上下文蒸馏(Context Distillation, CD)可以将信息转移到模型参数中,但由于训练成本和延迟过高,针对每个提示词...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Doc-to-LoRA: Learning to Instantly Internalize Contexts
Summary
长输入序列是大语言模型(LLM)进行语境学习(In-context Learning)、文档理解和多步推理的核心。然而,Transformer 架构中注意力机制的平方级计算代价使得推理过程极其耗费内存且速度缓慢。虽然上下文蒸馏(Context Distillation, CD)可以将信息转移到模型参数中,但由于训练成本和延迟过高,针对每个提示词...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动