Episode Details

【第582期】Claudini：利用AI代理自动研发LLM对抗攻击算法

Published 1 month, 3 weeks ago

Description

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
像 Claude Code 这样的 LLM 智能体不仅能编写代码，还能用于自主的 AI 研究与工程开发。我们展示了一个由 Claude Code 驱动的“自主研究”（Autoresearch）流水线，它成功发现了新型白盒对抗攻击算法。在越狱和提示词注入的评估中，该算法的性能显著超越了现有的所有（30 多种）方法。
核心发现：
* 突破性的攻击成功率：该智能体从 GCG 等现有实现出发进行自我迭代。在针对 GPT-OSS-Safeguard-20B 模型的 CBRN（化...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动

Episode Details

【第582期】Claudini：利用AI代理自动研发LLM对抗攻击算法

Description

Listen Now

Love PodBriefly?