2025-12-24 10:57 点击次数:175
为什么 Agent 在演示时无所不成,到了执行场景却往往拉胯?
一篇长达 51 页的论文商议了自 ChatGPT 以来的主要智能体,给出参考框架:稳妥性是其中要津。

智能体界说上不是只会被迫回报的 AI,而是能我方臆想、用器具(比如搜索引擎、代码编译器、数据库)、记东西,一步步完成复杂任务。
当遭逢新任务、新环境时,不需要重造一个新的智能体,而是通过 "微调我方" 或 "优化器具",快速适配需求(比如从写平方代码适配到写垂直行业代码)。

这篇论文作家威望豪华,来自 UIUC、斯坦福、普林斯顿、哈佛、UC 伯克利等 12 所高校的三十多位商议者联手,由 UIUC 的韩家炜教悔团队领衔,共归并作 Pengcheng Jiang,Jiacheng Lin,Zhiyi Shi 为 UIUC 博士生。
Agent "稳妥性"的四个象限
团队以为,现时 Agent 系统的中枢瓶颈在于稳妥性:模子怎样把柄反映信号转念自身行为。
为此,他们建议了一个 2 × 2 的分类框架,把现存的稳妥步伐切成了四大范式。
第一个维度是"优化谁":是优化 Agent 本人(Agent Adaptation),照旧它调用的器具(Tool Adaptation)。
第二个维度是"信号从哪来":是来自器具履行的截止,照旧来自 Agent 最终输出的评估。

据此分红四类:
A1 范式让 Agent 把柄器具履行的反映来学习,比如代码能不成跑通、检索截止准不准。
A2 范式则是用 Agent 的最终谜底手脚优化信号,典型代表便是 DeepSeek-R1 这类用强化学习训练推贤达力的职责。
T1 范式是即插即用:器具寂寥训练好,Agent 径直调用,比如 SAM、CLIP 这些预训练模子。
T2 范式让器具反过来把柄 Agent 的输出来优化我方,酿成一种共生稳妥的相关。

这么分类之后,有两个克己:
开发遭逢问题时,无谓盲目试错。想让 AI 更擅长器具的使用细",就选 A1;想让合座推理更靠谱,就选 A2;想让器具通用好用,就选 T1;想让器具适配特定 AI,就选 T2。
另外也明确了 trade-off。改 AI(A1/A2)天真但资本更高,需要重新训练模子。改器具(T1/T2)省钱,但受限于 AI 本人的智力。

论文中还有一个要津发现:T2 范式的数据遵守远超 A2 范式。
以检索增强生成任务为例,Search-R1 接受 A2 范式端到端训练 Agent,需要约 17 万条训练样本。
而接受 T2 范式,只训练一个轻量级的搜索子智能体来工作冻结的主模子,仅用 2400 条样本就达到了迥殊的恶果。数据量减少了约 70 倍,训练速率快了 33 倍。
更值得守护的是泛化智力的互异。在医学问答这种专科范畴测试中,T2 训练的智能体达到了 76.6% 的准确率,而 A2 训练的 Search-R1 只好 71.8%。
论文分析以为,这是因为 A2 范式条件模子同期学习范畴学问、器具使用技巧和任务推理三件事,优化空间过于复杂;而 T2 范式下,冻结的大模子仍是具备学问和推贤达力,小模子只需要学习"怎样搜"这一项设施性技巧。
四大前沿目的指路
论文终末指出了 Agent 稳妥性商议的四个前沿目的。
协同稳妥(Co-Adaptation)是最具挑战性的课题。现在险些通盘步伐皆是"冻一个、调一个",但异日渴望的系统应该让 Agent 和器具在归并个学习轮回中相互优化。这带来了复杂的信用分派问题:任务失败了,到底该怪 Agent 照旧器具?

握续稳妥(Continual Adaptation)针对的是真正宇宙的非平定性。任务散布会随时辰变化,器具会更新,用户需求会演进。怎样让 Agent 握续学习新技巧而不淡忘旧智力,是部署层面的中枢艰辛。

安全稳妥(Safe Adaptation)揭示了一个令东说念主担忧的幽闲:大模子在强化学习优化推贤达力的历程中,会稳重侵蚀掉监督微调阶段开荒的安全护栏。模子学会了用复杂的"念念维链"给我方的违章行为假造情理,反而更容易被逃狱舛错。

高效稳妥(Efficient Adaptation)关爱的是资源受限场景。论文先容了 LoRA 在强化学习中的运用、FlashRL 的量化加快时候,以及端侧设备的个性化稳妥决议。

这篇综述的 GitHub 仓库仍是怒放,握续收录有计划论文和资源。关于正在搭建 Agent 系统的开发者来说,这份 51 页的"稳妥性指南"粗略能躲避一些坑。
论文地址:
https://arxiv.org/abs/2512.16301
Github:
https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
一键三连「点赞」「转发」「留心心」
接待在挑剔区留住你的概念!
— 完 —
� � 点亮星标 � �
科技前沿线路逐日见