Episode Details

Back to Episodes
【第522期】TTT-Discover:通过测试时训练实现科学发现

【第522期】TTT-Discover:通过测试时训练实现科学发现

Published 1 month, 3 weeks ago
Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你有自己的论文要解读,或者推荐论文,请留言。

今天的主题是:

Learning to Discover at Test Time

Summary

我们如何利用 AI 为某个科学问题发现新的最先进(state-of-the-art)解法?此前关于测试时扩展(test-time scaling)的工作,例如 AlphaEvolve,是通过提示一个冻结(不再训练)的 LLM 来进行搜索。我们的做法是在测试阶段进行强化学习,使 LLM 在解决问题时仍然可以继续训练,但训练经验专门来自当前这个测试问题。

这种持续学习(continual learning)的形式非常特殊,因为它的目标并不是在平均意义上产生许多不错的解,而是找到一个非常优秀的解;并且是专门解决当前这个问题,而不是泛化到其他问题。因此,我们的学习目标和搜索子程序被设计为优先关注最有希望的解。我们将这种方法称为 Test-Time Training to Discover(TTT-Discover)

沿用以往研究,我们重点关注**具有连续奖励(continuous rewards)**的问题。我们报告了所有尝试过的问题结果,涵盖以下领域:数学、GPU 内核工程、算法设计以及生物学。TTT-Discover 在几乎所有这些任务上都创造了新的最先进结果,包括:

  1. Erdős 的最小重叠问题以及一个自相关不等式
  2. 一个 GPUMode 内核竞赛(速度最高可达此前最佳结果的 2 倍);
  3. 过去的 AtCoder 算法竞赛问题
  4. 单细胞分析中的去噪问题

我们的解决方案均由相关领域专家或比赛组织者进行了评审。所有结果都使用一个开源模型 OpenAI gpt-oss-120b 实现,并且可以通过我们公开发布的代码进行复现;相比之下,以往的最佳结果通常依赖于封闭的前沿模型。

我们的测试时训练实验通过 Thinking Machines 提供的 Tinker API 运行,每个问题的成本仅为几百美元

原文链接:https://arxiv.org/abs/2601.16175

Listen Now

Love PodBriefly?

If you like Podbriefly.com, please consider donating to support the ongoing development.

Support Us