Episode Details
Back to Episodes
【第505期】TTT-E2E:长文本建模的端到端测试时训练模型
Published 4 months, 2 weeks ago
Description
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
今天的主题是:
End-to-End Test-Time Training for Long Context
Summary
我们将长上下文语言建模表述为一个持续学习(continual learning)问题,而非一个架构设计问题。在这一表述下,我们仅使用一种标准架构——带有滑动窗口注意力的 Transformer。然而,模型在测试阶段会通过对给定上下文进行下一词预测而持续学习,将其读取到的上下文压缩并写入模型权重中。
此外,我们在训练阶段通过元学习(meta-learning)来改进模型在测试时进行学习的初始化。总体而言,我们的方法是一种测试时训练(Test-Time Training,TTT)形式,并且在测试阶段(通过下一词预测)和训练阶段(通过...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
今天的主题是:
End-to-End Test-Time Training for Long Context
Summary
我们将长上下文语言建模表述为一个持续学习(continual learning)问题,而非一个架构设计问题。在这一表述下,我们仅使用一种标准架构——带有滑动窗口注意力的 Transformer。然而,模型在测试阶段会通过对给定上下文进行下一词预测而持续学习,将其读取到的上下文压缩并写入模型权重中。
此外,我们在训练阶段通过元学习(meta-learning)来改进模型在测试时进行学习的初始化。总体而言,我们的方法是一种测试时训练(Test-Time Training,TTT)形式,并且在测试阶段(通过下一词预测)和训练阶段(通过...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动