The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

本文最后更新于:2026年6月12日 下午

Agentic RL for LLMs: A Survey

TMLR 2026

论文信息

TL;DR

这篇 survey 的核心是:Agentic RL 把 LLM 从单轮文本生成器重新建模为动态环境中的 policy,用 RL 优化多步交互中的规划、工具调用、记忆、推理和自我改进。传统 RLHF/PBRFT 更像单步 MDP,只优化一次回答;Agentic RL 更接近长程 POMDP,优化整条行为轨迹。文章主要从两个视角展开:一是 RL 如何增强 agentic capabilities,二是这些能力如何落到 search、coding、math、GUI、vision、embodied agents 和 multi-agent systems 等任务中。

Agentic Reinforcement Learning 定义:

Agentic RL refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.

Prior research的两个路线

  • Synergy between RL and LLMs: RL和LLM之间如何互相结合、互相增强。

    • RL for training LLMs: PPO、GRPO等方法训练或对齐模型,让LLM更会指令跟随,对齐人类偏好。
    • LLM for RL: 把LLM当Planner, reward designer, goal generator, 帮助RL系统更高效的规划,泛化,多任务学习。
  • LLM Agents: LLM充当自主或半自主的决策实体,能够进行推理,规划和执行行动等能力。这类问题关注,如何让LLM成为一个真正会行动,会规划,会调用工具的智能体。

回到Agentic RL, 把上述两个结合,变成把LLM当agent, 并用RL让它在动态的环境中学会更好的行为,通过试错学会更好的决策。

LLM RL -> Agentic RL

RL在LLM领域的应用已经发生根本的变化。

从LLM训练的三个阶段,预训练,指令微调,强化微调。

到早期的PBRFT,在固定偏好数据集上优化模型输出。

再到 OpenAI o1 和 DeepSeek-R1 这类推理模型的出现。

研究重心从让模型在固定数据集上拿高分转向在动态环境中解决实际问题的能力。

MDP

马尔可夫决策过程可以形式化为七元素元组:

S,O,A,P,R,T,γ\langle S,O,A,P,R,T,\gamma\rangle

  • S(State space): 状态空间。环境在某一时刻的所有情况

  • O(Observation space): 观测空间。智能体能看到的信息,在大多情况下,智能体无法看到环境的全貌,只能看到局部。

  • A(Action Space): 动作空间。智能体能做出的所有行为

  • P(Transition probabilities): 状态转移概率。描述当智能体在状态s下执行动作a后,环境有多大的概率变成下一个状态s’

  • R(reward function): 奖励函数。给智能体的动作打分,告诉它做的好不好

  • T(task horizon): 任务时界。交互持续的总步数

  • γ (Discount factor):折扣因子。衡量未来的奖励在当下的价值,通常 0<γ≤1。

PBRFT是一个退化的单步MDP, 侧重于单步输出的偏好对齐。

Strad,Atrad,Ptrad,Rtrad,T=1,γ=1\langle S_{\text{trad}},A_{\text{trad}},P_{\text{trad}},R_{\text{trad}},T=1,\gamma=1\rangle

StradS_{\text{trad}}:传统后训练里的状态,基本就是一个 prompt。

AtradA_{\text{trad}}:生成一个 response

PtradP_{\text{trad}}:转移几乎没有复杂性,模型一旦输出 response, 这一轮就结束了

RtradR_{\text{trad}}:给 response 打一个分

T = 1:单步

Agentic RL被建模为长程POMDP(部分可观测马尔可夫决策过程), 侧重于多步交互和动态反馈。

Sagent,Aagent,Pagent,Ragent,γ,O\langle S_{\text{agent}},A_{\text{agent}},P_{\text{agent}},R_{\text{agent}},\gamma,O\rangle

PBRFT 与 Agentic RL 对比

  1. State:传统 PBRFT 只有一个 prompt;Agentic RL 是多步状态 sts_t,而且 agent 只能看到 observation ot=O(st)o_t = O(s_t)

  2. Action:传统是纯文本序列;Agentic RL 是 AtextAactionA_{text} \cup A_{action}

  3. Transition:传统是确定性直接结束;Agentic RL 是动态转移 P(st+1st,at)P(s_{t+1}\mid s_t,a_t)

  4. Reward:传统是单个标量分数 r(a)r(a);Agentic RL 是逐步奖励

  5. Objective:传统最大化单次回答奖励;Agentic RL 最大化整条轨迹的折扣累计奖励

RL Algorithms

REINFORCE: 最基础的policy gradient

  1. a(i)πθ(as0)a^{(i)} \sim \pi_\theta(a \mid s_0) 是第 ii 个采样回答

  2. R(s0,a)R(s_0,a) 是任务完成后的最终奖励

  3. b(s)b(s) 是 baseline,用来降低梯度估计的方差

  4. 实践中 b(s)b(s) 常常取 value function V(s)V(s)

核心思想:

采样一些回答,哪些回答奖励高,就提高它们的概率;哪些回答奖励低,就降低他们的概率;

PPO:最经典、最稳定的LLM对齐算法

LPPO(θ)=1Ni=1Nmin(rt(i)(θ)At(i),clip(rt(i)(θ),1ϵ,1+ϵ)At(i))L_{PPO}(\theta)=\frac{1}{N}\sum_{i=1}^{N} \min\left( r_t^{(i)}(\theta)A_t^{(i)}, \operatorname{clip}\left(r_t^{(i)}(\theta),1-\epsilon,1+\epsilon\right)A_t^{(i)} \right)

其中:

rt(i)(θ)=πθ(at(i)st)πθold(at(i)st)r_t^{(i)}(\theta)=\frac{\pi_\theta(a_t^{(i)} \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t^{(i)} \mid s_t)}

公式理解

  1. 它比较新policy和旧policy

πθπθold\frac{\pi_\theta}{\pi_{\theta_{\text{old}}}}:新模型和老模型相比,更倾向选这个动作

  1. 用advantage判断动作的好坏

A=RVA = R - V:R 是实际拿到的回报,V 是原本预计能拿到的平均水平。若 R>VR > V,应奖励;若 R<VR < V,应抑制。

  1. 用clip防止更新过猛

防止模型刻意向奖励模型拟合,导致迎合奖励模型而大改动原始模型

DPO:不显式训练reward model的偏好优化

无需显式的建立模型,把“在KL约束下的最大化奖励“改为一个基于preference data的likelihood objective

LDPO(πθ;πref)=E(x,yw,yl)D[logσ(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))]L_{DPO}(\pi_\theta;\pi_{ref})=-\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)}-\beta\log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)\right]

其中:

  • D={(yw,yl)}D=\{(y_w,y_l)\} 是偏好数据集

  • ywy_w是 preferred response

  • yly_l是 dispreferred response

  • πref\pi_{ref}通常是初始 SFT 模型

  • β\beta是超参数

对好回答给更高概率,对差回答给更低概率,且不能偏离参考模型太远

GRPO:用组内相对比较代替critic

用一组回答的相对奖励来估计advantage,从而去掉绝对value critic.

对同一个问题,采样一组回答,如果一个回答比组平均高,就鼓励;比组平均低,就抑制。

优点:

样本效率高;计算开销小;无需绝对value critic

缺点:

组内advantage可能高方差;准确度不够稳定

一些思考:

  • REINFORCE和GRPO都是采样多个回答,来进行奖励和抑制。
  • REINFORCE关注评分模型下的绝对好坏
  • GRPO关注同组内的相对好坏

Agentic RL: The model capability perspective

如果把LLM当成一个agent, 那么RL在训练它的哪些能力。在Agentic RL里,下文所列的能力可以被看成RL联合优化的策略组件。

Planning

**为实现目标,思考一串动作应该如何安排。**早期的方法主要依赖prompt或LLM的规划能力。

作者将RL for planning 分为两种范式

RL作为外部引导者

LLM 先负责提出候选动作或候选计划,RL 不直接改 LLM 本体,而是训练一个外部的评估器/价值函数,去指导搜索过程。

RL作为内部驱动者

LLM 本身就被看成 policy,RL 直接通过环境反馈去改它的规划行为。不再是“外面有个搜索器替你规划”,而是模型自己学会规划。

RL 让 planning 从“预设流程”变成“能通过环境反馈不断改进的决策能力”。


Tool Use:RL 如何让 agent 更会用工具

早期工具调用的两个思路:

Prompt engineering

通过few-shot让模型学会在 “Thought-Action-Observation” 框架里交替思考和行动。(ReAct)

SFT-based tool use

用人工或自动构造的工具调用轨迹来微调模型

上述的方法都证明LLM可以调用工具,但有一个根本限制:他们在模仿已有工具的使用模式,而不是在通过结果反馈学会更优的工具使用策略。

RL-based tool use 的关键变化是目标从复现固定模式变成优化最终任务表现。学习,什么时候调用工具,调用哪个工具,调用几次,失败后如何补救,怎么把工具结果和语言推理交织起来。这个概念是Tool-Integrated Reasoning(TIR)

RL 把“会调用工具”升级成“会基于结果反馈,策略性地把工具嵌入推理过程”。


Memory

RL让memory不再只是被动储存

在 Agentic RL 里,memory 不该只是“一个放信息的地方”,而应该成为 agent 可以主动管理的对象:决定存什么、取什么、忘什么、怎么更新。

第一阶段:RAG-style memory

最早的记忆系统是外部储存,向量库,知识图谱。memory的规则往往是预先设计的,怎么存,怎么取。

之后的RL开始进入retrieval pipeline, 例如通过RL调整什么时候检索,什么时候反思检索结果,但是memory本身还是静态。再后来到Memory-R1这类工作,开始让agent通过RL学习增删改查这种操作。

第二阶段:token-level memory

记忆不一定全部都是外部数据库,也可以是模型自己维护的token级记忆

一种是 显式 token memory,也就是自然语言形式的记忆摘要或记忆池。RL 可以学会保留哪些 token、覆盖哪些 token、怎样压缩长上下文。

另一种是 隐式 latent memory token,也就是不直接对应人类可读文本,而是让一组 latent token 在多轮交互里反复被更新、读取,承担“机器原生记忆”的作用

第三阶段:structured memory的未来

未来的重要方向,是让 RL 去动态控制这些结构化记忆的构建和演化。


Self-Improvement: RL如何让agent学会自我改进

语言层面的自我修正

先做 -> 反思 -> 再改

更像是一种inference-time技巧,不是稳定能力

把自我修正内化进模型

开始使用RL和偏好优化,把这种自我进化能力训练进模型参数中。让模型以后更容易发现并修正错误

Interactive self-training

不是做错了再自己改,而是形成完整的自我训练闭环。

Reasoning:RL 如何训练推理,尤其是快思考与慢思考

Fast reasoning

快速、直觉式、模式驱动。多数传统 LLM 更接近这一类。优点是快、流畅、延迟低;缺点是容易出现幻觉、推理浅、逻辑链不稳定。

Slow reasoning

刻意、分步骤、显式产生中间推理轨迹。像 chain-of-thought、多步验证、reasoning-augmented RL 都属于这一类。优点是更适合数学、科学推理、多跳问答;缺点是慢,而且容易“overthinking”,也就是想太多、链条过长、成本过高。

Agentic RL 应该学会何时该快,何时该慢。


Perception:RL 如何把感知从“看见”推进到“主动感知”

纯文本扩展到多模态


Others

随着 Agentic RL 发展,很多能力并不容易用 planning/tool/memory/reasoning 这些传统标签完全覆盖。

Agentic RL 不只是“给 agent 加模块”,还包括重新设计训练信号,让模型能在多步行为层面学得更细。

Agentic RL: 任务视角

Agentic RL在哪些真实任务中有用

Search & Research Agent

早期 Prompt-based search 主要依靠 prompt 工程和人工设计查询策略。后来也有如 Search-o1(Li 等人,2025i)利用大型推理模型进行代理、推理时检索,以及 DeepResearch(Zhang 等人,2025r)等多代理系统协调查询和总结子代理。

但他们都仍有一个问题:

没有真正的学习信号。

它们会这么做,但不是通过RL学会为什么这么做更好,所以多轮“search—reasoning—synthesis”的稳定性和泛化性不足。

开源的RL Methods

  • Search from the external Internet

这类方法建立在RAG的基础上,依赖实时的web search API当成外部环境,再用RL去优化query generation和multi-step reasoning。

DeepRetrieval(Jiang et al., 2025)

把one-shot query generation 看成一个由GRPO训练的policy, 并且直接根据live search results 的recall和relevance来奖励。简单理解就是:

  1. 输入一个问题
  2. 模型先学“搜什么关键词”
  3. 搜出来后,看结果是不是相关、是不是覆盖了需要的信息
  4. 如果好,就奖励这个 query policy

Search-R1(Jin et al., 2025) 和 DeepResearcher(Zheng et al.,2025)

这两个方法将retrieved-token masking 和outcome-based rewards结合起来,交错进行query formulation 和 answer generation.

不再将“搜”和“答”分成两个完全独立阶段。而是让模型在训练时同时面对该搜什么和怎样利用搜到的信息去回答。奖励最终还是落在outcome上,但是训练形式开始体现搜索-生成联动。

AutoRefine (Shi et al., 2025b)

这个方法更进一步,在successive search calls 之间插入refinement phases, 并且用GRPO同时奖励answer correctness和retrieval quality。

这样的范式进入“搜-整理-再搜”的自我迭代闭环。

R1-Searcher和R1-Searcher++:把何时搜索也学习进去

R1-Searcher采用两阶段冷启动PPO:

  • 第一阶段学习when to invoke web search

  • 第二阶段学习 how to exploit it

这里作者强调,真正的策略问题只有两个:

  1. 该不该搜

  2. 搜了以后怎么用

Code Agent

Coding是最适合Agentic RL的场景,因为coding场景reward清晰,可执行可验证。

  1. RL for Code Generation

这时目标是一次生成一段可运行,可通过测试的代码

  1. RL for Code Refinement

目标变成,代码先写出来,根据错误,测试失败,人类要求去迭代修复。

  1. RL for automated SWE

真实仓库,真实任务,真实工具场景下完成长期软件工程任务

Math Agent

GUI Agent

Vision Agents

Embodied Agents

Multi-Agent Systems

Challenge

Trustworthiness

Security

首先重要的是Security。作者提到RL会把安全问题放大,RL过程中会把agent变成主动,逐利的漏洞利用者。

所以如果 agent 学到:

  • 用一个不可信第三方工具能更快拿高分

  • 绕过安全协议更容易完成任务

  • 利用系统漏洞能更高效达成目标

那 RL 不但不会自动阻止它,反而会强化并固化这种行为。

当前的解决思路包括

sandboxing:把 agent 放在权限受限、受控环境里

reward shaping:对不安全的中间步骤惩罚,比如调用不可信 API

adversarial training:明确奖励 agent 抵抗操纵、忽略被污染信息

continuous monitoring / anomaly detection:部署后持续监控 tool calls、memory access 等行为模式

Hallucination

Agent 的hallucination比llm的事实性错误范围更大,体现在:

  1. 说错事实

  2. 推理链条看似合理,其实不grounded

  3. 规划过程偏离外部证据

解决思路:

  • outcome-only reward 转向 process-based reward

  • 例如 FSPO:对每个中间推理步骤做 evidence verification

  • 在数据层面混入 solvable 和 unsolvable problems,恢复 abstention ability

总体来说,可信度这件事不能只靠最终答案约束,必须深入中间推理和证据绑定

Sycophancy

模型迎合用户的信念、偏见或偏好,即使这些东西是错的,甚至会导致更差结果。

Scaling up Agentic Training

Computation

扩大RL fine-tuning的计算量,能够直接提升LLM agent的能力

Model Size

大模型有大潜力,也有大风险。

Data Size

multi-domain RL data 必须 carefully curated,既要利用互补性,也要防止互相干扰。

Efficiency

作者在这里给出一个判断:

未来可能出现一种新 post-training 范式,其中 generalization 不再主要取决于数据量,而更多取决于训练过程本身的结构和动态。