Episode Details

Back to Episodes
【第534期】VibeTensor:AI智能体全生成的深度学习系统软件

【第534期】VibeTensor:AI智能体全生成的深度学习系统软件

Published 1 month, 1 week ago
Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你有自己的论文要解读,或者推荐论文,请留言。

今天的主题是:

VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

Summary

VIBETENSOR 是一个用于深度学习的开源研究型系统软件栈,由 LLM 驱动的编程智能体人类高层指导下生成。在本文中,“完全生成(fully generated)”指的是代码来源:实现变更由智能体提出补丁(diff)并应用;验证则依赖智能体执行的构建、测试以及差异检查,而不是对每一次变更进行人工逐条审查。

该系统实现了一个 类 PyTorch 的即时执行(eager)张量库:核心使用 C++20(CPU + CUDA) 实现,并通过 nanobind 提供一个 类似 torch 的 Python 封装层,同时还包含一个实验性的 HTTP URL 接口。不同于仅提供薄封装(thin bindings)的方案,VIBETENSOR 还包含:

  • 自有的 tensor / storage 系统
  • schema-lite 调度器(dispatcher)
  • 反向模式自动求导(reverse-mode autograd)
  • CUDA 运行时组件(streams / events / graphs)
  • 一个按 stream 顺序工作的缓存分配器,并带有诊断功能
  • 一个稳定的 C ABI,用于动态加载算子插件

我们将这一发布视为 AI 辅助软件工程的一个里程碑:它表明编程智能体能够生成一个结构连贯的深度学习运行时系统,其范围从语言绑定一直延伸到 CUDA 内存管理,并主要通过构建和测试完成验证。

本文介绍了系统架构,总结了用于生成和验证该系统的工作流程,并对该工件进行了评估。我们报告了代码仓库规模与测试套件组成,并总结了来自一个AI 生成的内核套件的可复现微基准测试结果,其中包括 融合注意力(fused attention)PyTorch 的 SDPA / FlashAttention 的对比。

此外,我们还报告了在 NVIDIA H100(Hopper,SM90)Blackwell 级 GPU 上进行的三个小规模端到端训练任务的基本可行性测试(sequence reversal、ViT、miniGPT)。多 GPU 结果仅在 Blackwell 平台上提供,并使用一个可选的基于 CUTLASS 的 ring-allreduce 插件,该插件需要 CUDA 13+sm103a 工具链支持

最后,我们讨论了在生成式系统软件中可能出现的失败模式,其中包括一种被称为 “Frankenstein 组合效应” 的问题:即多个在局部上正确的子系统组合在一起时,可能导致整体性能表现不佳

原文链接:https://arxiv.org/abs/2601.16238

Listen Now

Love PodBriefly?

If you like Podbriefly.com, please consider donating to support the ongoing development.

Support Us