标签 - RLVR - Le's Blog

共计 3 篇文章

2026

MeRF: 训练时告诉模型评分规则会怎样？

DeepSeek-R1: 只奖励结果，推理能力会自己长出来吗？

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning