归档 - Le's Blog

共计 46 篇文章

2026

一豆两喝：夏日的极致清爽

MeRF: 训练时告诉模型评分规则会怎样？

DeepSeek-R1: 只奖励结果，推理能力会自己长出来吗？

RAGEN-2: 模型还在认真胡说，但已经不看题了

RAGEN: LLM Agent也能通过强化学习学会“思考”和“自我进化”吗？

葡萄茉莉冷萃

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

从 0 跑通 verl：在 AutoDL + RTX 5090 上复现 GSM8K PPO Quick Start

去年今日 - 聊聊22级保研