Episode Details
Back to Episodes
【第473期】DeepSeek稀疏注意力提升长上下文效率
Published 5 months, 2 weeks ago
Description
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
今天的主题是:
DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
Summary
我们介绍 DeepSeek-V3.2,这一模型在高计算效率与卓越的推理及智能体性能之间实现了协调统一。DeepSeek-V3.2 的关键技术突破包括:
(1) DeepSeek 稀疏注意力机制(DSA):我们提出 DSA,这是一种高效的注意力机制,在长上下文场景中显著降低计算复杂度,同时保持模型性能。
(2) 可扩展强化学习框架:通过实施稳健的强化学习协议并扩展后训练(post-training)计算规模,DeepSeek-V3.2 的表现可与 GPT-5 ...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
今天的主题是:
DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
Summary
我们介绍 DeepSeek-V3.2,这一模型在高计算效率与卓越的推理及智能体性能之间实现了协调统一。DeepSeek-V3.2 的关键技术突破包括:
(1) DeepSeek 稀疏注意力机制(DSA):我们提出 DSA,这是一种高效的注意力机制,在长上下文场景中显著降低计算复杂度,同时保持模型性能。
(2) 可扩展强化学习框架:通过实施稳健的强化学习协议并扩展后训练(post-training)计算规模,DeepSeek-V3.2 的表现可与 GPT-5 ...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动