Episode Details

Back to Episodes
【第573期】AutoHarness:自动合成大模型智能体代码外壳

【第573期】AutoHarness:自动合成大模型智能体代码外壳

Published 2 days, 13 hours ago
Description

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

AutoHarness: improving LLM agents by automatically synthesizing a code harness

Summary

尽管过去几年语言模型取得了显著进步,但当其作为智能体使用时,这些模型经常会尝试执行一些操作,这些操作不仅对给定状态而言并非最优,而且在外部环境中是被严格禁止的。例如,在最近的 Kaggle GameArena 象棋比赛中,Gemini-2.5-Flash 有 78% 的失利归因于违规移动。通常,人们会通过手动编写“保护罩(harnesses)”封装在 LLM 周围来防止此类失败。

在本文中,我们证明了 Gemini-2.5-Flash 可以根据(游戏)环境的反馈,通过几轮代码迭代优化,自动合成这种代码保护罩。由此产生的保护罩在 145 种不同的 TextArena 游戏(包括单人型和双人型)中完全杜绝了所有违规操作,使得较小的 Gemini-2.5-Flash 模型能够超越 Gemini-2.5-Pro 等更大型的模型。

我们将这一技术推向极致,让 Gemini-2.5-Flash 以代码形式生成整个策略,从而消除了在决策阶段使用 LLM 的必要性。所得的代码策略(code-policy)在 16 个 TextArena 单人游戏中获得的平均奖励高于 Gemini-2.5-Pro 和 GPT-5.2-High。我们的结果表明,使用较小的模型来合成定制的代码保护罩(或整个策略),不仅比大得多的模型性能更强,而且更具成本效益。

原文链接:https://arxiv.org/abs/2603.03329

Listen Now

Love PodBriefly?

If you like Podbriefly.com, please consider donating to support the ongoing development.

Support Us