Episode Details

#332.我发明了Transformer，现在我要取代它：走出AI局部最优，探索全新智能架构

Published 3 months, 3 weeks ago

Description

📝 本期播客简介

本期节目，我们克隆了 "I Invented the Transformer. Now I'm Replacing It."

邀请到了Transformer的共同发明人Llion Jones，以及Sakana AI研究科学家Luke Darlow。Llion Jones提出了一个大胆的观点：Transformer架构（作为ChatGPT和几乎所有现代AI的核心）可能正在将整个行业困在一个“局部最优解”中，阻碍我们发现真正的智能推理能力。他将深入剖析这一论点，并与Luke Darlow共同介绍他们最新的研究成果——“连续思维机器”（Continuous Thinker Machine, CTM），这项创新技术有望引领AI迈向新的前沿。本期节目将是一场关于AI未来方向的深度对话，探讨如何跳出现有框架，拥抱更具生物启发性和适应性的智能范式。

文字版精华见微信公众号（点击跳转）

👨‍⚕️ 本期嘉宾

Llion Jones：Transformer的共同发明人之一，Sakana AI联合创始人。他曾是Google Brain团队的核心成员，对Transformer的诞生和发展做出了奠基性贡献。现在，他致力于探索超越Transformer的下一代AI架构。

Luke Darlow：Sakana AI研究科学家，主要研究领域是“连续思维机器”（CTM）。他主导了CTM的研发，并将其推向了今年的NeurIPS大会焦点论文。

⏱️ 时间戳

00:00 开场 & 播客简介

摆脱Transformer的“引力盆地”

00:00:00 Llion Jones：告别Transformer：过度饱和领域中的新探索

00:00:27 Luke Darlow：连续思维机器：具备自适应计算能力的新循环模型

00:00:56 Llion Jones：AI研究自由度的丧失：从自下而上到受限创新

00:01:40 Llion Jones：大规模演化搜索的潜力：算力投入与未被探索的方向

00:02:07 主持人：Sakana AI的核心理念：拥抱兴趣梯度，拒绝“灰色粘质”

00:02:57 Llion Jones：守护研究自由：公司发展中面临的挑战与哲学坚守

00:03:31 Llion Jones：削减自由的流程：商业压力与投资回报的预期

00:04:40 主持人：“技术捕获”现象：Transformer的成功与商业化压力

00:05:22 Llion Jones：局部最优解的困境：被大语言模型“捕获”的行业

00:05:37 Llion Jones：RNN时代的启示：技术突破与微小改进的循环

00:07:24 Llion Jones：Transformer的碾压式突破：旧研究的“多余”与当下的“浪费”

00:08:48 主持人：成功受害者：硬件/架构彩票与多样化技能的消亡

00:09:45 Llion Jones：人才困境：研究人员缺乏自由而非才华

00:10:24 主持人：新架构难以普及：通用表示与规模化路径的诱惑

00:11:02 Llion Jones：超越Transformer：需要“碾压式更好”才能推动行业转向

00:12:16 Llion Jones：引力效应：规模化带来的性能提升掩盖了架构创新

00:12:34 主持人：捷径学习与“破碎纠缠表示”：现有架构的修修补补

00:13:08 Llion Jones：连续思维机器的尝试：解决“参差不齐的智能”

00:13:50 Llion Jones：神经网络的“强大”与“强迫”：它们并非“想要”如此

00:14:14 Llion Jones：智能矩阵求幂：螺旋线数据的“自然”表示与理解

00:15:33 Llion Jones：ReLU模型的局限：蛮力拟合与缺乏真正理解

00:16:02 主持人：神经网络样条理论：描摹模式与延续模式的差异

00:17:20 Llion Jones：视频生成模型的困境：蛮力解决与缺乏深层理解

00:18:15 主持人：NeurIPS焦点论文：连续思维机器的创新与认可

连续思维机器（CTM）深度解析

00:18:31 Llion Jones：CTM的诞生：受生物学启发，神经元同步的简单想法

00:19:20 Llion Jones：打磨论文：无需匆忙，专注科学研究本身

00:20:02 主持人：AI驱动的进步：模型能否自主进行科学研究？

00:20:14 Llion Jones：AI科学家：端到端研究系统与人机协作的未来

00:21:22 主持人：监督的必要性：路径依赖与人类兴趣的延续

00:21:48 Llion Jones：引导与协作：AI研究如同指导实习生

00:22:18 主持人：人类的经验与直觉：AI模型能否习得？

00:22:55 Llion Jones：超越人类：AI在特定领域超越人类的案例（如象棋）

00:23:12 主持人：CTM介绍：Luke Darlow的自我介绍与项目历程

00:23:48 Luke Darlow：CTM的三大创新点：内部思维维度、神经元级模型、同步表示

00:24:15 Luke Darlow：迷宫任务：CTM的“Hello World”问题与序列化推理

00:25:19 Luke Darlow：神经元的重新定义：从ReLU到“小模型”

00:25:57 Luke Darlow：同步作为表示：捕捉“想法”在时间中的存在

00:26:47 主持人：CTM与规划：计算上的差异与图灵机的边界

00:27:29 Luke Darlow：迷宫问题的分解：自动课程系统与行为理解

00:28:46 主持人：自适应计算：步数敏感度、不确定性与无界步数

00:30:05 Luke Darlow：不确定性与步数：ImageNet分类任务中的自然涌现

00:31:00 主持人：神经元级模型与同步：M L P神经元与内积驱动

00:31:18 Luke Darlow：神经元级模型（NLMs）：历史激活值与单一输出

00:32:09 Luke Darlow：同步的定义：时间序列的点积与神经元间关系

00:32:30 Luke Darlow：生物学与深度学习的平衡：NLMs的中间方案

00:33:19 主持人：扩展性与稳定性：同步矩阵的时间复杂度与子采样

00:33:33 Luke Darlow：CTM的稳定性：对梯度传播的帮助

00:34:00 Luke Darlow：表示空间的丰富性：D的二次方量级与下游计算

00:34:34 主持人：指数衰减率：不同时间尺度的同步

00:35:06 Luke Darlow：时间尺度差异：捕捉神经元快速与缓慢同步

00:35:42 Luke Darlow：表示空间的进一步丰富：细微调整与更多可能

CTM的未来与AI推理

00:36:19 主持人：CTM在推理任务上的优势：离散、稀疏领域与样本效率

00:36:40 Luke Darlow：内部化推理：思维链与序列化运行

00:37:06 Luke Darlow：CTM的灵活性：同步与多层次时间表示

00:37:34 主持人：CTM与神经图灵机：隐空间推理与任务展开

00:37:56 Luke Darlow：ImageNet任务的启示：分解问题与自然分割

00:39:00 Luke Darlow：模型校准：CTM的完美校准与传统模型的缺陷

00:40:10 Llion Jones：自适应计算时间的自然涌现：无需额外惩罚项

00:41:35 Llion Jones：沿着“有趣”的梯度：以架构为驱动的探索

00:42:06 主持人：路径依赖与“复杂化”：构建世界模型与主动推理

00:42:33 Luke Darlow：模棱两可的问题：幻觉与世界分解的不同方式

00:43:27 Luke Darlow：分解问题：自然且无需“黑科技”的方法

00:43:55 主持人：捷径问题：成本函数与推理的对齐

00:44:23 Luke Darlow：架构的意外适用性：向大脑与自然致敬

00:45:04 Luke Darlow：鼓励年轻研究者：追随热情，探索未知

00:45:36 主持人：CTM与下一代语言模型：迷宫与模糊性

00:46:

Episode Details

#332.我发明了Transformer，现在我要取代它：走出AI局部最优，探索全新智能架构

Description

Listen Now

Love PodBriefly?