Episode Details

【第505期】TTT-E2E：长文本建模的端到端测试时训练模型

Published 4 months, 2 weeks ago

Description

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
今天的主题是：
End-to-End Test-Time Training for Long Context
Summary
我们将长上下文语言建模表述为一个持续学习（continual learning）问题，而非一个架构设计问题。在这一表述下，我们仅使用一种标准架构——带有滑动窗口注意力的 Transformer。然而，模型在测试阶段会通过对给定上下文进行下一词预测而持续学习，将其读取到的上下文压缩并写入模型权重中。
此外，我们在训练阶段通过元学习（meta-learning）来改进模型在测试时进行学习的初始化。总体而言，我们的方法是一种测试时训练（Test-Time Training，TTT）形式，并且在测试阶段（通过下一词预测）和训练阶段（通过...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动

Episode Details

【第505期】TTT-E2E：长文本建模的端到端测试时训练模型

Description

Listen Now

Love PodBriefly?