Episode Details

Back to Episodes
【第532期】词元级过滤切除AI危险知识

【第532期】词元级过滤切除AI危险知识

Published 3 months, 2 weeks ago
Description
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你有自己的论文要解读,或者推荐论文,请留言。
今天的主题是:
Shaping capabilities with token-level data filtering
Summary
当前减少语言模型不良能力的方法大多是事后处理(post hoc)的,因此很容易被对抗者绕过。一种更自然的替代方案是在预训练阶段就对能力进行塑造。以移除医疗相关能力这一代理任务为例,我们表明,仅通过过滤预训练数据这一简单干预,就能够在大规模情况下实现高度有效、稳健且成本低廉的效果。
受到数据归因(data attribution)相关研究的启发,我们进一步表明,与过滤文档相比,过滤 token 更为有效:在对不希望出现的能力造成同等抑制效果的同时,对正常能力的影响更小。...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
Listen Now

Love PodBriefly?

If you like Podbriefly.com, please consider donating to support the ongoing development.

Support Us