Episode Details

【第532期】词元级过滤切除AI危险知识

Published 3 months, 2 weeks ago

Description

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你有自己的论文要解读，或者推荐论文，请留言。
今天的主题是：
Shaping capabilities with token-level data filtering
Summary
当前减少语言模型不良能力的方法大多是事后处理（post hoc）的，因此很容易被对抗者绕过。一种更自然的替代方案是在预训练阶段就对能力进行塑造。以移除医疗相关能力这一代理任务为例，我们表明，仅通过过滤预训练数据这一简单干预，就能够在大规模情况下实现高度有效、稳健且成本低廉的效果。
受到数据归因（data attribution）相关研究的启发，我们进一步表明，与过滤文档相比，过滤 token 更为有效：在对不希望出现的能力造成同等抑制效果的同时，对正常能力的影响更小。...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动

Episode Details

【第532期】词元级过滤切除AI危险知识

Description

Listen Now

Love PodBriefly?