CASCADE:让Agent在部署任务流中进行在线经验学习

资讯 » 科技头条 2026-05-18



本文作者来自伦敦大学学院、吉林大学和伦敦国王学院。本文第一作者为吉林大学博士生郭思源,伦敦大学学院汪军教授为论文最后作者。指导教师还包括伦敦国王学院杜雅丽副教授、吉林大学陈贺昌研究员与常毅教授。

当 LLM Agent 进入真实应用后,它面对的不再是一次性的静态测试集,而是持续到来的任务流。

每一次工具调用、代码执行、网页搜索或任务完成,都会产生反馈:成功还是失败?证据是否充分?工具是否选对?这些部署阶段自然产生的信号,能否反过来帮助 Agent 变得更好?

研究团队的最新工作提出了部署时学习(Deployment-Time Learning,DTL),并进一步提出 CASCADE。它的核心不是简单积累经验,而是让 Agent 在在线任务流中学会选择经验:面对当前任务,应该参考过去哪一次交互,才能做出更好的决策?



论文标题:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deploymen论文链接:https://arxiv.org/abs/2605.06702代码仓库:https://github.com/guosyjlu/CASCADE基准测试:https://huggingface.co/datasets/guosy/DTLBench

研究背景

目前 Agent 经验学习的相关工作中,常见设定大致有两类:

第一类延续传统机器学习范式:系统先在训练集上学习,例如微调模型、优化提示词、构建记忆库或技能库,然后在测试集上评估。

第二类则关注运行时学习,即系统在同一个数据集上先学习多轮,然后观测其性能提升。

这些设定都具有研究价值,但真实部署还包含一个重要维度:时间。在真实系统中,任务是按顺序到来的。Agent 不能提前看到未来任务,也不能随意回到过去重做某个请求。每一步既是一次服务,也是一次反馈收集;当前选择不仅影响当前任务结果,也可能影响后续策略。



因此,CASCADE 将部署时学习定义为一个在线学习问题。在第 t 步,Agent 观察到一个查询,生成答案或行动轨迹,环境返回成功 / 失败的二值反馈。Agent 的目标不再只是优化单个任务,而是提高整个部署序列上的长期成功率;等价地说,是降低在线学习中的遗憾(Regret)。这一设定更接近工业系统中的持续服务过程,也为评估 Agent 的部署适应能力提供了清晰形式化。

基于案例的部署时学习:CASCADE

在部署时学习的设定下,基座模型保持固定,不对其参数进行在线更新。学习发生在 Agent 的外围组件中,尤其是记忆和检索机制。CASCADE 以基于案例的推理(Case-Based Reasoning,CBR)为底层框架。当新任务到来时,系统从历史案例库中检索相关成功案例,将其作为上下文提供给 LLM,再根据环境反馈决定是否保留新的案例。这一流程包括四个步骤:

1. 检索(Retrieve):从不断增长的案例库中检索候选案例;

2. 复用(Reuse):将案例作为上下文,辅助 LLM 解决当前查询;

3. 修改(Revise):生成最终答案或行动轨迹;

4. 保存(Retain):如果环境反馈为成功,则将当前交互保存为新的案例。

在这个 4R 循环中,CASCADE 的关键在于:它将 “检索哪个案例” 建模为上下文赌博机(Contextual Bandit)问题,从而实现检索过程中的探索 - 利用权衡。在每个时间步,当前查询是上下文,候选案例是可选择的动作。Agent 选择某个案例后,LLM 基于该案例生成结果,环境返回成功或失败反馈。检索器随后利用该反馈更新策略,在后续任务中更好地权衡利用与探索。



换言之,CASCADE 学习的是一个在线检索策略:它利用部署过程中观察到的奖励信号,判断哪些案例在给定的任务中更有用。针对这一场景,本文提出了 Neural-LinLogUCB 算法。它使用 Transformer 建模查询与案例之间的交互表示,并通过线性头进行不确定性估计,从而适配二值反馈下的上下文赌博机学习。

从理论上看,CASCADE 将整体遗憾分解为两部分:

1. 覆盖差距:案例库是否已经包含足够相关的历史经验;

2. 检索遗憾:在已有候选案例中,检索策略是否选中了最有用的案例。

随着部署过程持续进行,成功案例逐渐被保存到案例库中,由覆盖不足带来的损失会降低;同时,检索器通过二值反馈更新,逐步减少选择错误案例带来的检索遗憾。在合理假设下,CASCADE 可以得到无遗憾学习保证。



因此,CASCADE 不只是一个记忆模块,而是一个面向部署任务流的原则化在线经验学习框架。

部署时学习基准测试:DTLBench

为了系统评估部署时学习能力,论文构建了 DTLBench。该基准包含 16 个任务,覆盖医疗、法律、金融、智能运维、编程、具身决策、信息检索等领域,并包含单轮任务和多轮任务。



单轮任务包括医疗诊断、药物推荐、科室转诊、急诊分诊、法律罪名预测、刑罚预测、金融意图路由、金融情感分析、根因分析、日志故障诊断、Text-to-SQL。

多轮任务包括经典的 ALFWorld、ScienceWorld,以及两个更接近真实应用的场景:基于网页的深度搜索和电子健康记录上的复杂表格推理。

在 DTLBench 中,每个任务都被组织为在线查询序列。Agent 必须按顺序处理样本,只能利用已经发生的历史交互和反馈。这一区别使得部署步上的成功率成为核心评估指标。

主要实验结果

在 12 个单轮任务上,使用 Qwen3-32B 作为底座模型时,零样本提示的平均成功率为 48.33%,非参数基线 NP-CBR 达到 63.76%,CASCADE 进一步提升到 66.68%。这一结果表明,案例复用本身已经能够带来明显收益;在此基础上,利用在线反馈学习检索策略,可以进一步提升部署序列上的长期表现。



与基于参数更新的基线 REINFORCE+LoRA 相比,CASCADE 在 12 个单轮任务中的 9 个任务上取得更好结果,并在其余任务上表现接近。同时,CASCADE 不需要更新底座 LLM 参数,学习过程显存低于 4GB,适合在更轻量的部署条件下运行。



论文还验证了 CASCADE 对不同底座模型规模的适用性。在 Qwen3-4B、8B、14B、32B 上,CASCADE 在大多数设置中均能带来稳定提升。对于黑盒模型 gemini-2.0-flash,CASCADE 同样适用,在可评估的 9 个任务上将平均成功率提升到 72.58%,高于零样本提示的 56.58% 和 NP-CBR 的 70.68%。

这些结果说明,部署时学习并不必须依赖对 LLM 参数的访问。对于基于 API 服务的黑盒模型,或者不适合频繁微调的工业系统,CASCADE 提供了一种通过 Agent 外围组件进行持续适应的途径。



在 ALFWorld 上,CASCADE 将成功率从 NP-CBR 的 62.01% 提升到 67.43%;在 ScienceWorld 上,从 59.36% 提升到 66.84%。将 CASCADE 插入 ReAct 框架后,也能进一步提升 Agent 在多轮环境中的任务完成率。



在基于网页的深度搜索中,Agent 需要多轮调用本地 RAG 工具或实时网页搜索工具完成多跳问答。引入部署时学习后,CASCADE 在本地 RAG 和实时网页搜索设置下均带来明显提升。



在电子健康记录表格推理任务中,Agent 需要通过 API 查询数据库并生成代码。零样本提示成功率为 20.75%,NP-CBR 为 44.02%,CASCADE 进一步达到 55.76%,同时减少了平均调试轮数。

小结

CASCADE 试图回答一个在 LLM Agent 部署中越来越重要的问题:当任务持续到来、反馈不断产生,而底座模型参数保持固定时,Agent 如何在真实交互过程中进行学习?

本文的核心贡献可以概括为三点:

1. 提出部署时学习,将 LLM Agent 的部署阶段形式化为无参数更新的在线经验学习;

2. 提出 CASCADE,通过基于案例的推理与上下文赌博机学习实现原则化的部署时学习框架;

3. 构建 DTLBench,在 16 个跨领域任务上评估 Agent 在在线任务序列中的长期表现。

从这个角度看,CASCADE 的重点不在于重新证明 “经验有用”,而在于进一步提出:部署过程本身可以被建模、评测和优化。随着 Agent 系统进入更开放、更长程、更依赖工具的应用场景,如何在真实任务流中利用反馈进行稳定学习,可能会成为大模型部署后的一个重要研究方向。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。