RAGEN: LLM Agent也能通过强化学习学会“思考”和“自我进化”吗?

本文最后更新于:2026年6月17日 晚上

RAGEN: LLM Agent也能通过强化学习学会“思考”和“自我进化”吗?

arXiv preprint, 2025

论文信息

TL;DR

RAGEN 发现,多轮 Agent RL 不是简单把 PPO/GRPO 搬到环境里就能成功。模型前期会进步,但很容易陷入 Echo Trap:轨迹奖励方差下降、输出模板化、梯度爆炸,最后性能崩溃。 更关键的是,仅靠最终任务奖励,<think> 不会自然变成真实推理,反而可能退化为伪推理。

Overview

RQ: LLM Agent 是否可以通过多轮强化学习,在和环境交互的过程中自己变强?如果能,如何训练?如果不能,为什么失败?

本文提出:

StarPO: 用于多轮Agent RL的训练框架

RAGEN: 基于StarPO的Agent训练和评估系统

Agent RL为什么比RLHF/GRPO难

  1. Long-horizon decision making
  2. 环境反馈随机性
  3. 奖励分配难。最后成功,哪一步优异哪一步有害。

作者在Intro中给出需要探寻的问题

哪些设计因素可以让RL在Agent训练上更稳定,更有效

StarPO

State-Thinking-Actions-Reward Policy Optimization

1
2
3
4
State       当前环境状态
Thinking 模型的思考过程
Actions 模型执行的动作
Reward 环境返回的奖励

从单个回答的优化,扩展到,整段Agent交互轨迹的优化

RAGEN的评估环境

环境类型测什么能力
Banditsingle-turn, stochastic风险选择、符号推理
Sokoban 推箱子multi-turn, deterministic多步规划、不可逆操作
Frozen Lakemulti-turn, stochastic随机环境中的规划
WebShopmulti-turn, open-domain真实网页购物任务、语言理解

本文发现

  1. 多轮Agent RL会出现Echo Trap

模型在RL训练中逐渐陷入某种重复、模版化、局部有效的行为模式,看起来在推理,但其实只在重复曾经拿到reward的套路。三种表现:

指标直觉含义
reward variability collapse不同 rollout 的奖励差异变小,模型行为越来越单一
entropy drop输出越来越确定,不探索了
gradient spikes梯度突然变大,训练不稳定甚至崩掉

解决:提出StarPO-S,稳定版框架

  1. rollout 的设计会影响self-evolution

RL中, 模型自己生成的rollout就是训练材料。如果rollout不好,模型用错误经验继续学习,最后越学越偏。

作者强调三个稳定训练的设计方案:

设计直觉解释
初始状态要多样不要总在类似题目上训练,否则容易过拟合
交互粒度要适中每轮动作不能太少,也不能太长
rollout 要频繁更新用当前模型生成当前数据,减少 policy-data mismatch
  1. 没有细粒度reward, reasoning不会自然出现

即使强制模型输出 <think>...</think>,也不代表它真的在推理。

如果reward只看最终是否成功,模型可能学到:

1
2
3
4
少思考
直接猜动作
输出模板化 reasoning
甚至 hallucinated thoughts

Framework

MDP公式化

atπθ(st,τ<t),(rt,st+1)P(st,at),a_t \sim \pi_\theta\left(\cdot \mid s_t, \tau_{<t}\right), \quad\left(r_t, s_{t+1}\right) \sim P\left(\cdot \mid s_t, a_t\right),

当前模型看到状态s_t和之前发生过的历史动作,产生新的动作a_t

环境看到这个动作后,返回奖励r_t和新状态st+1s_{t+1}

StarPO: 轨迹级优化

State-Thinking-Action-Reward Policy Optimization

这是一个通用RL框架,优化整条轨迹

JStarPO(θ)=EM,τπθ[R(τ)]J_{\operatorname{StarPO}}(\theta)=\mathbb{E}_{\mathcal{M}, \tau \sim \pi_\theta}[R(\tau)]

模型在环境M中生成一整条轨迹**τ\tau** ,然后根据整条轨迹的总奖励R(τ)R(\tau)来更新模型。

StarPO framework

1
2
3
4
5
6
7
8
9
10
Step 1:给模型一个初始状态 s0

Step 2:模型生成多个 trajectories
每条 trajectory 是一整局交互

Step 3:环境对每条 trajectory 给 reward

Step 4:根据 reward 计算 advantage

Step 5:用 PPO / GRPO 更新模型

RAGEN System

环境接口 + rollout 生成 + reward 分配 + PPO/GRPO 更新 + 稳定性监控

实验

环境一:Bandit

模型能不能在有噪声反馈下,学会选择长期期望收益更高的选项。

1
2
Phoenix:低风险,稳定奖励 0.15
Dragon:高风险,奖励服从 Bernoulli(0.25)
1
2
选 Phoenix:每次稳定拿 15 
选 Dragon:大多数时候 0 分,但偶尔 100

如果模型只看短期反馈,它可能觉得 Phoenix 更好,因为 Phoenix 经常给正奖励。 但如果模型理解期望收益,它应该慢慢学会 Dragon 更值得选。

所以 Bandit 测的是:

1
2
3
模型是否能从 noisy reward 中学出“长期收益”?
模型是否会被短期奖励误导?
模型是否能利用名字中的 symbolic meaning?

奖励函数

每次选择的奖励就是模型奖励函数

环境二:Sokoban 推箱子

Agent 要在网格里移动,把箱子推到目标位置。

1
2
3
多步规划能力
提前预判能力
是否能避免 irreversible mistake

奖励函数

+1:每个箱子在目标点上 -1:箱子不在目标点上 +10:任务完成 -0.1:每执行一个动作

环境三:Frozen Lake

Agent 要从起点走到目标点,同时避开洞。环境可能随机滑到别的方向。

1
2
3
随机环境中的规划
模型是否能适应不确定反馈
reward 稀疏时是否还能学习

奖励函数

成功到达目标:+1 其他情况:0

环境四:WebShop

WebShop 是一个网页购物任务。Agent 收到用户需求,然后要搜索、点击、阅读商品信息,最后买到符合条件的商品。

最真实的应用场景

训练设置

前三个环境用Qwen-2.5 Instruct 0.5B

webShop用Qwen-2.5 Instruct 3B

每个 batch 采样 P = 8 个 prompts 每个 prompt 生成 N = 16 条 rollouts 最多 5 turns 最多 10 actions

评估指标

success rate

Rollout entropy: 模型还在探索吗?

高 entropy:

1
模型还在尝试不同动作

低 entropy:

1
模型越来越确定,输出越来越固定

适度下降是正常的,因为训练后模型应该更有把握。 但如果 entropy 下降太快,就可能说明模型过早变成模板化输出。

in-group reward variability:同一题的多次尝试是否有差异?

假设同一个 prompt 生成 16 条 rollouts:

1
reward = [10, 8, 5, 0, -1, ...]

说明模型在尝试不同策略,有好有坏,有学习信号。

但如果变成:

1
reward = [0, 0, 0, 0, 0, ...]

或者:

1
reward = [10, 10, 10, 10, 10, ...]

方差就很低。

低方差意味着:

1
2
3
4
模型的行为变得单一
GRPO 很难比较谁好谁坏
训练信号变弱
可能进入 collapse

response length:推理是否在变短?

如果训练过程中 response length 越来越短,可能说明:

1
2
3
模型不愿意推理了
模型直接输出动作
模型学到了 shortcut

gradient norm:训练是否稳定?

如果 gradient norm 平稳,说明训练相对稳定。 如果突然 spike,说明模型更新很剧烈,可能要崩。

Findings

  1. 单轮RL无法直接适配到多轮RL
  2. Agentic RL中的训练崩塌体现为Echo Trap
  3. collapse可以提前预警
  4. 过滤低方差轨迹提升稳定性和效率
  5. 任务多样性,适中的动作长度,rollout频率影响rollout质量
  6. 如果没有细致的奖励设计,推理就不会出现

1.单轮 RL 不能直接搬到多轮 Agent RL

Figure 3

指标呈现先升高,然后突然下降的趋势,然后崩溃。

1
2
3
4
5
6
7
8
9
我们已经用 StarPO 把任务改造成 trajectory-level RL

但如果直接套 PPO / GRPO 这类 vanilla optimization

在 Bandit / Sokoban 等环境中仍然出现 early improvement 后 collapse

说明“只做轨迹封装 + 直接套单轮 RL 优化器”不够

多轮 Agent RL 需要专门的稳定化设计

2. Agentic RL中的训练崩塌体现为Echo Trap

模型在RL训练中逐渐陷入某种重复、模版化、局部有效的行为模式,看起来在推理,但其实只在重复曾经拿到reward的套路。三种表现:

指标含义
reward variability collapse不同 rollout 的奖励差异变小,模型行为越来越单一
entropy drop输出越来越确定,不探索了
gradient spikes梯度突然变大,训练不稳定甚至崩掉

3. collapse可以提前预警

如何发现collapse

截屏2026-06-10 17.56.05

Average Reward

奖励不再上升或快速下降,说明模型的任务表现不再提升,甚至退化。

这是最直观的collapse表现。

In-Group Reward Standard Deviation

同一个 prompt 下,多条 rollout 的 reward 差异有多大。

当这个指标下降时,意味:

探索减少,行为趋同

Gradient Norm

一旦梯度突然爆,后面很难恢复。

Entropy

Entropy 低,说明模型越来越确定地输出某些 token。

训练过程中 entropy 缓慢下降是正常的,因为模型学会了更优策略。

但如果 entropy 下降过快或变化异常,就说明:

1
2
3
模型不探索了
输出模板化
可能进入 Echo Trap

4. 过滤低方差轨迹提升稳定性和效率

基于Finding3, 作者提出StarPO-S,目标是解决sampling quality, gradient stability, exploration regularization

StarPO-S中的三个设计:

  1. Uncertainty-based filtering:只训练“有信息量”的样本

更多的训练模型还不确定的任务,过滤低方差的轨迹。

这与 Active Learning 的原则相一致,即不确定性较高的示例能提供最具信息量的学习信号。

截屏2026-06-17 16.43.40

左侧两个图可以看出,在PPO算法下,filtering low-variability rollouts 的操作推迟了训练中 collapse的发生。

GRPO 的的效果就没那么好,可能是因为 critic-free 的设计。

  1. KL 移除

尝试移除KL约束,不限制模型探索,让模型自由的向更高reward探索。

但也有风险,模型可能跑偏

  1. Clip-Higher

非对称裁剪。对高reward行为,允许模型更积极的提高概率。

5. 任务多样性,适中的动作长度,rollout频率影响rollout质量

trajectory 质量很重要

三个rollout维度分析:

  1. Task Diversity: 任务初始状态多样性

每次 rollout-update cycle 中,使用多少个不同的 prompt / 初始状态。

  1. Interaction Granularity,每轮动作数要适中

增加 action 有助于 planning, 但过长的 rollouts 可能引入噪音。

截屏2026-06-17 17.18.22

实验发现 5 - 6 个action 效果最好。

  1. Rollout Frequency,rollout 要足够新

截屏2026-06-17 17.25.24

6. 如果没有细致的奖励设计,推理就不会出现

在简单单轮任务里,reasoning 有帮助;但在多轮任务里,如果 reward 只看最终结果,reasoning 会逐渐消失,甚至变成伪推理。

截屏2026-06-10 18.26.33

截屏2026-06-10 18.28.34

reasoning在多轮任务中越来越短

为什么reasoning消失?

多轮任务中的 reward 通常是 sparse 和 delayed,它无法区分“真正有用的推理”和“碰巧成功的试错”。

问题根源出在,reasoning和actions没有对齐,模型的rollout中可能出现答案是对的,但是reason是错的情况

所以需要 fine-grained, reasoning-aware reward design。

这里带来的挑战是:当奖励本身无法反映推理的质量时,我们该如何持续强化有用的推理。