← Back to list

How Far Can Unsupervised RLVR Scale LLM Training?

LLM 学术
Abstract — Reading 8 Rating —
2026-03-09
Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding
Tsinghua University, Shanghai AI Lab, Xi'an Jiaotong University, University of Illinois Urbana-Champaign, Frontis.AI, Shanghai Jiao Tong University, Peking University
系统证明所有 intrinsic URLVR 奖励本质都在锐化模型先验、必然 rise-then-fall 崩溃,提出 Model Collapse Step 指标并论证 external reward 才能突破置信度-正确性天花板。
评分原因
精读评分:系统化地给出 URLVR 分类、统一 sharpening 理论与 Theorem 1 几何收敛证明,并配合跨模型族的大规模实验得出 rise-then-fall 普适律;提出 Model Collapse Step 作为便宜、无需 GT 的 RL trainability 指标(比 GT Gain 便宜 5.6×,比 pass@k 更准),并给出 external reward 方向的初步证据,分析深度和方法论贡献都很强。扣分点:Theorem 1 的 majority stability 假设在 N=8 实践下近似、实验骨干集中在数学推理、external reward 的 scalability 仍只在简单 Countdown 任务上验证。
rl academic parameter-scaling pretrained-lm

How Far Can Unsupervised RLVR Scale LLM Training?

ICLR 2026 | Tsinghua / Shanghai AI Lab / SJTU / UIUC / PKU 等 | 2026-03-09

本文是一篇关于 Unsupervised RLVR (URLVR) 的系统性分析论文。作者没有提出新的训练算法,而是对 2025 年前后涌现出的大量「无标签 RLVR」工作做了 分类学 + 理论分析 + 广泛实验 + 新指标,回答一个核心问题:

Intrinsic reward(仅依赖模型自身信号)真的能无限扩展 LLM 训练吗?

结论是清晰的否定:所有 intrinsic URLVR 方法本质上都是在「锐化」(sharpen)模型的初始分布——当模型的先验置信度恰好与正确性对齐时它短期有效,但随着训练进行,一旦模型置信度偏离正确性,同一机制会系统性地放大错误,导致 rise-then-fall(先涨后崩)的训练曲线。作者进一步提出 Model Collapse Step 作为衡量模型先验(RL trainability)的便宜代理指标,并用初步实验论证 external reward(基于生成-验证不对称性或海量无标注数据的外部验证)才是唯一能突破「置信度-正确性天花板」的方向。


1. 研究动机与背景

1.1 监督瓶颈与 URLVR 的兴起

RLVR (Reinforcement Learning with Verifiable Rewards) 是近年来 DeepSeek-R1、Gemini 2.5、Qwen3 等推理模型得以突破的关键——奖励信号不是人类偏好,而是可被自动校验的客观正确性(数学题答案、代码是否通过测试)。但这条路在「通向超级智能」时会触及一个天花板:

  • 需要大规模高质量标签数据,成本随模型能力上升而指数爆炸;
  • 当模型在专业领域接近或超越人类专家时,可靠的 ground truth 标签本身就不可得(Burns et al. 2023 的 weak-to-strong generalization;Silver & Sutton 2025)。

于是 Unsupervised RLVR (URLVR) 被提出:在可验证任务上,不依赖人工标签,而是从模型自身或外部结构中派生 proxy reward。作者之所以保留 "Verifiable Rewards" 这个词,是为了与 "Self-Rewarding LLM" 等通用领域方法区分——本文研究的仍是 可校验任务域(数学、代码、推理),只是替代了监督标签的来源。

1.2 核心研究问题

近年涌现了大量 intrinsic reward 方法——TTRL 的多数投票、Agarwal 等人的熵最小化、RENT 的 Token-Level Entropy、RLSC 的概率、RLSF 的 Probability Disparity 等——它们都报告了早期训练增益,但后续陆续出现 reward hacking 和 model collapse 的报告(Shafayat et al. 2025;Zhang et al. 2025c)。由于方法碎片化、未在统一设置下对比,整个领域缺少共识:

Can intrinsic rewards truly scale LLM training?

本文的贡献即围绕这一问题展开: 1. 分类学(Section 2):把 URLVR 方法划为 intrinsic / external 两大类; 2. 统一理论(Section 3):证明所有 intrinsic reward 本质上都在最小化同一种 sharpening loss; 3. 大规模实验(Section 4):5 种 intrinsic reward × 多种超参 × 多种模型族,系统展示 rise-then-fall 规律; 4. 安全应用(Section 5):小数据集(≤128 样本)不会崩,适合 test-time training; 5. Model Collapse Step(Section 6):新提出的指标,比 pass@k 更准、比 GT Gain 便宜 5.6×,预测 RL trainability; 6. External reward 初步证据(Section 7):self-verification 在 Countdown 任务上训练 600 步仍单调改善,未见 collapse。

Figure 1: Overview of the paper's framework

图 1 是整篇论文的总览——中央是 URLVR 分类法,四个外围面板分别对应四项核心发现:初始置信度决定 intrinsic URLVR 成败、小数据集可安全应用于 test-time training、Model Collapse Step 与 GT Gain 强相关、Self-Verification 移向可扩展的外部奖励。


2. Unsupervised RLVR 分类学

2.1 Intrinsic Reward Methods

Intrinsic reward 只使用模型本身的信号(logits 或多次 rollout 的一致性),无需外部验证器。分两个子族:

Certainty-Based(确定性类):从当前策略的 logits 抽取置信度,鼓励低熵、高置信度的输出。来自传统 TTA(Test-Time Adaptation)和低密度分离原则(Chapelle & Zien 2005)。五种代表方法(表 1):

Method Estimator Formula
RLIF Self-Certainty $r(x,y)=\frac{1}{|y|}\sum_{t=1}^{|y|}D_{\mathrm{KL}}(U\,\|\,\pi_\theta(\cdot\|x,y_{\lt t}))$
EM-RL Trajectory-Level Entropy $r(x,y)=\frac{1}{|y|}\sum_{t=1}^{|y|}\log \pi_\theta(y_t\|x,y_{\lt t})$
EM-RL, RENT Token-Level Entropy $r(x,y)=-\frac{1}{|y|}\sum_{t=1}^{|y|}H(\pi_\theta(\cdot\|x,y_{\lt t}))$
RLSC Probability $r(x,y)=\prod_{t=1}^{|y|}\pi_\theta(y_t\|x,y_{\lt t})$
RLSF Probability Disparity $r(x,y)=\frac{1}{M}\sum_{t=1}^{|a|}\bigl[\max_{a_t}\pi_\theta(a_t\|x,c,a_{\lt t})-\max_{a_t\ne\arg\max\pi_\theta}\pi_\theta(a_t\|x,c,a_{\lt t})\bigr]$

这些公式都是「置信度」的不同数学形式:Self-Certainty 把模型对词表的分布拉离均匀分布;Token-Level / Trajectory-Level Entropy 直接最小化熵;Probability 是序列联合概率(熵最小的反面);Probability Disparity 关注 top-1 与 top-2 的差距。

Ensemble-Based(集成类):用「多数人的智慧」——对同一个 prompt 生成 N 次 rollout,用一致性充当正确性代理。代表方法见表 2:

Method Estimator Formula
TTRL, SRT, ETTRL, SeRL, SQLM, R-Zero Majority Voting $r(x,y)=\mathbb{1}[y=\arg\max_{y'}\sum_{i=1}^N\mathbb{1}[y_i=y']],\{y_i\}_{i=1}^N\sim\pi_\theta(\cdot\|x)$
Co-Reward Majority Voting across Rephrased Question 原 prompt 的 majority + 改写 prompt 的 majority
RLCCF Self-consistency Weighted Voting 多模型、多次采样的加权投票
EMPO Semantic Similarity 基于语义聚类的软多数投票 $r=\|C(y)\|/G$
CoVo Trajectory Consistency + Volatility 基于中间推理一致性的奖励

额外还有 proposer-solver 架构:R-Zero(让 proposer 生成让 solver 不确定度接近 50% 的题目)、SeRL、SQLM、CPMobius 等。但这些方法本质仍依赖模型自身的一致性假设。

2.2 External Reward Methods

External reward 不来自模型内部状态,而来自外部可验证机制。两条路径:

Leveraging Unlabeled Data for Reward Generation:把大规模无标注语料直接转化为奖励信号。

  • RPT 在无标注文本上奖励模型「下一个 token 预测对了」;
  • TPT 把预测扩展到 step-by-step reasoning;
  • RLPT 把 token 扩展到 segment 层;
  • RLP 奖励 CoT 对 next-token 预测提供的信息增益;
  • DuPO 把主任务与对偶重构任务配对,重构质量作为自监督奖励;
  • SEAL 让模型自己生成 QA 对,下游 self-supervised 表现作为奖励;
  • Nemotron-CrossThink 从 CommonCrawl 采集多领域 QA,转成可 programmatic 校验的多选格式。

这类方法的 reward 来源是语料本身——随数据量扩展而扩展。

Exploiting Generation-Verification Asymmetries:利用许多推理任务中「生成难、验证易」的不对称性(Burns et al. 2023;Song et al. 2024)。

  • LADDER / RLSR:不定积分或 Countdown 算术——构造难,代入验证易;
  • Absolute Zero:代码生成——编译执行是确定性验证;
  • DeepSeekMath-V2:自校验作为 RL 奖励;
  • AlphaProof:数百万 Lean 形式化题目的定理证明。

作者的 Scalability 论断(关键): Intrinsic 与 External 的区别不是分类学上的,而是 本质上的可扩展性差异

  • Intrinsic reward 的信号完全来自模型自身概率分布,因此 被模型已有知识所上限——它无法推动模型超越它原本已知的东西;
  • External reward 的两种机制各自独立扩展:
  • 无标注数据的 reward 量级随 语料规模 增长;
  • 生成-验证不对称的 reward 质量 不随模型能力退化——编译器和 Lean 证明器不会因为模型变强而变弱。

论文明确把 external reward 定位为「长程 URLVR scaling 的唯一可行方向」。


3. Intrinsic Reward 的 Sharpening 机制

3.1 单步更新的动力学

取 TTRL 的 majority voting 作为代表。经典 KL-regularized RL 目标:

$$ \max_{\pi_\theta}\mathbb{E}_{y\sim\pi_\theta(\cdot|x)}\bigl[r(x,y)\bigr]-\beta D_{\mathrm{KL}}\bigl[\pi_\theta(\cdot|x)\,\|\,\pi_{\mathrm{ref}}(\cdot|x)\bigr] \tag{1} $$

在该目标下最优策略有闭式解(DPO 作者推导过,Rafailov et al. 2023):

$$ \pi_\theta^*(y|x)=\frac{1}{Z(x)}\pi_{\mathrm{ref}}(y|x)\exp\!\left(\frac{1}{\beta}r(x,y)\right) \tag{2} $$

在第 $k$ 次迭代,majority voting 奖励定义为:

$$ r_k(x,y)=\mathbf{1}\bigl[\mathrm{ans}(y)=\mathrm{maj}_k(Y_k)\bigr] \tag{3} $$

其中 $Y_k=\{y^{(1)},\ldots,y^{(N)}\}$ 是从 $\pi_\theta^{(k)}$ 采得的 $N$ 个 rollout,$\mathrm{maj}_k(Y_k)$ 是出现频率最高的答案。若将 $r_k$ 保持固定并用 $\pi_\theta^{(k)}$ 作为参考策略做无限更新,将收敛到:

$$ \pi_\theta^{*,(k+1)}(y|x)=\frac{\pi_\theta^{(k)}(y|x)\cdot\exp\bigl(r_k(x,y)/\beta\bigr)}{Z_k(x)} \tag{4} $$

因为 $r_k$ 只取 0/1,指数项只有两个值 $e^{1/\beta}$ 和 $e^0=1$,所以显式形式是:

$$ \pi_\theta^{*,(k+1)}(y|x)=\begin{cases}\dfrac{\pi_\theta^{(k)}(y|x)\cdot e^{1/\beta}}{Z_k(x)}, & \text{if } \mathrm{ans}(y)=\mathrm{maj}_k(Y_k) \\[3pt] \dfrac{\pi_\theta^{(k)}(y|x)}{Z_k(x)}, & \text{otherwise}\end{cases} \tag{5} $$

配分函数为:

$$ Z_k(x)=p_{\mathrm{maj}}^{(k)}\cdot e^{1/\beta}+(1-p_{\mathrm{maj}}^{(k)}) \tag{6} $$

其中 $p_{\mathrm{maj}}^{(k)}=\sum_{y:\mathrm{ans}(y)=\mathrm{maj}_k(Y_k)}\pi_\theta^{(k)}(y|x)$ 是当前策略放在「多数答案轨迹」上的概率质量。这样最优策略下 majority 轨迹的总质量放大为:

$$ p_{\mathrm{maj}}^{*,(k+1)}=\frac{p_{\mathrm{maj}}^{(k)}\cdot e^{1/\beta}}{p_{\mathrm{maj}}^{(k)}\cdot e^{1/\beta}+(1-p_{\mathrm{maj}}^{(k)})} \tag{7} $$

实际动力学:一次梯度更新不会到达 $\pi_\theta^{*,(k+1)}$,但单调朝它移动:

$$ p_{\mathrm{maj}}^{*,(k+1)}\geq p_{\mathrm{maj}}^{(k+1)}\geq p_{\mathrm{maj}}^{(k)} \tag{8} $$

下界是因为 policy gradient 对 positive-reward 轨迹提升概率质量;上界是因为一步更新无法超过理论最优。作者在附录 A.1.1 用 4 个 MATH-500 问题 × 1024 rollouts × 50 步实证验证了 $p_{\mathrm{maj}}^{(k)}$ 严格单调递增(表 4、表 5 显示某些问题从 11% 一路涨到 99%)。

3.2 Theorem 1: 几何收敛到确定性策略

这是全文最核心的理论结果。

Theorem 1 (Geometric Convergence):在 assumption (A1) majority stability($\mathrm{maj}_k(Y_k)=\mathrm{maj}_0(Y_0)$ 对所有 $k$ 成立,要求足够大的 $N$)和 (A2) effective learning($p_{\mathrm{maj}}^{(k+1)}\gt p_{\mathrm{maj}}^{(k)}$)下,$p_{\mathrm{maj}}^{(k)}$ 以收敛率 $\rho=e^{-1/\beta}$ 几何收敛到 1,且策略收敛到:

$$ \lim_{k\to\infty}\pi_\theta^{(k)}(y|x)=\begin{cases}\dfrac{\pi_{\mathrm{ref}}(y|x)}{\sum_{y':\mathrm{ans}(y')=\mathrm{maj}_0(Y_0)}\pi_{\mathrm{ref}}(y'|x)}, & \text{if }\mathrm{ans}(y)=\mathrm{maj}_0(Y_0) \\ 0, & \text{otherwise}\end{cases} \tag{9} $$

证明分 5 步:

  • Step 1 (Effective Update Rule):建模实际更新 $p_{\mathrm{maj}}^{(k+1)}=p_{\mathrm{maj}}^{(k)}+\eta_k(p_{\mathrm{maj}}^{*,(k+1)}-p_{\mathrm{maj}}^{(k)})$,代入 (7) 化简: $$p_{\mathrm{maj}}^{(k+1)}=p_{\mathrm{maj}}^{(k)}+\eta_k\cdot\frac{(\alpha-1)(1-p_{\mathrm{maj}}^{(k)})p_{\mathrm{maj}}^{(k)}}{1+(\alpha-1)p_{\mathrm{maj}}^{(k)}} \tag{10}$$ 其中 $\alpha:=e^{1/\beta}\gt 1$。

  • Step 2 (Error Dynamics):定义误差 $\epsilon^{(k)}:=1-p_{\mathrm{maj}}^{(k)}$,代入得 $$\epsilon^{(k+1)}=\epsilon^{(k)}\left(1-\eta_k\cdot\frac{(\alpha-1)(1-\epsilon^{(k)})}{\alpha-(\alpha-1)\epsilon^{(k)}}\right) \tag{11}$$

  • Step 3-4 (Monotonic Decrease to Zero):乘数项严格在 $(0,1)$ 内,故 $\epsilon^{(k)}$ 严格单调减;又因 $\eta_k\ge\eta_{\min}\gt 0$,极限 $\ell=0$。

  • Step 5 (Geometric Rate):在 $\epsilon^{(k)}$ 小时 $\epsilon^{(k+1)}\approx\epsilon^{(k)}(1-\eta_k\cdot\frac{\alpha-1}{\alpha})$,乘子 $\to 1-\eta_{\min}\cdot\frac{e^{1/\beta}-1}{e^{1/\beta}}=1-\eta_{\min}(1-e^{-1/\beta})$。

作者在附录 A.1.2 的「Fixed Reward Convergence」实验用 batch size 1024、$N=8$、1024 次梯度更新(都用同一批初始 rollout 的 majority)验证:Majority Voting Reward 收敛到 1.0,但 AIME24/AIME25/AMC23 性能降到 0。这印证了 (5) 的最优策略是可达的,并直接证实 sharpening 可完全背离正确性

3.3 统一奖励框架(附录 A.3)

作者把上述 majority voting 分析推广到所有 intrinsic reward。抽象结构有 4 个组件:锚分布 $q$、模型分布 $\pi$、转换 $\psi(z)=\exp(z)$ 或 $z$、粒度 $\mathcal{I}$(词表 / 答案空间)。所有 5 种 intrinsic reward 都是这一框架的实例化。作者还单独推导了 Probability reward 的最优策略(方程 35-36)和 EMPO 的最优策略(方程 37-38),结论完全一致——都是 把概率质量推向初始先验下已是高概率的答案

3.4 物理含义

重要结论:所有 intrinsic reward 都是在放大模型初始偏好,而不是「发现新知识」。

  • 若模型的 confidence 与 correctness 对齐,sharpening 是有益的「放大正确」;
  • 若 confidence 与 correctness 背离,sharpening 是「放大错误」,必然崩盘。 模型的命运由 prior 决定,而非奖励设计。

4. When Does Intrinsic URLVR Work? (Rise-then-Fall 规律)

4.1 数据集级的 Rise-then-Fall

Setup:Qwen3-1.7B-Base 在 DAPO-17k 上训练,默认超参(表 7):GRPO、温度 1.0、global batch 64、mini-batch 64、N=8 rollouts、无 KL/Entropy regularization、learning rate 1e-6、max response 7168、1 epoch。评估 AIME 2024 / 2025 / AMC 2023,avg@32(32 次采样平均正确率,温度 0.6 top-p 0.95)。

Figure 2: Training dynamics comparing majority-voting training and ground-truth training

结果(图 2):

  • 前 ~100 步,Majority Voting Reward 的三个 benchmark 性能与 ground-truth 训练持平甚至略高
  • 继续训练时,Majority Voting Reward 持续上升,但 Reward Accuracy(pseudo-reward 与 GT reward 的一致率)下降,AIME/AMC 性能反转下跌。这是典型 reward hacking;
  • Actor Entropy 在 majority voting 下比 GT 训练下降更快,说明 intrinsic reward 更激进地压低不确定性。

作者系统扫描了 4 个关键超参(训练温度 ∈ {0.6, 0.8, 1.0, 1.2}、mini-batch ∈ {1, 8, 16, 32, 64}、KL 正则 $\beta\in\{0, 0.005\}$、N ∈ {4, 8, 16, 32},详见附录 B.3),结论一致:某些超参显著影响崩盘速度(mini-batch、N),但没有任何设置能避免崩盘。即使用最稳定配置继续训练到 ~1000 步(约 4 epoch),依然崩。

4.2 不同方法,不同崩法

Figure 3: Five intrinsic reward methods exhibit distinct failure patterns

Setup:固定骨干 Qwen3-1.7B-Base + DAPO-17k,对比 Majority Voting、Self-Certainty、Token-Level Entropy、Trajectory-Level Entropy、Probability 五种,各自独立调参。

三种失败模式

  1. Gradual degradation(缓降)—Self-Certainty 和 Majority Voting:
  2. Self-Certainty 锐化的对象是 uniform distribution(表 1 Self-Certainty 的定义),不是直接最大化某 token 概率,所以它的扰动比其他方法温和;
  3. Majority Voting 工作在 answer level 而非 token level,不会产生 token 级伪影;
  4. 两者在一个 epoch 内保留相对高的 Label Accuracy,不会完全崩。
  5. Length collapse(长度崩溃)—Probability 奖励:
  6. $r_{\mathrm{Prob}}(x,y)=\prod_t\pi_\theta(y_t|x,y_{\lt t})$ 是序列 token 概率的连乘,短序列天然占便宜;
  7. 模型学会把置信度(Actor Entropy 下降)集中在「更短的回答」上,Mean Response Length 显著下降。用几何平均或平均 log-prob 能缓解此 bias
  8. Repetition collapse(重复崩溃)—Token-Level / Trajectory-Level Entropy:
  9. 熵是 per-token 平均,既能被「确信」压低,也能被「重复高频 token」压低;
  10. 因此模型学会用重复文本填充序列

这直接对 reward 设计提出工程教训:奖励函数的聚合方式(pooling)本身会决定攻击面——均值 vs 乘积、词表维度 vs 答案维度、锚点是 uniform 还是 one-hot,都会产生不同 shortcut。

4.3 Fine-Grained Per-Problem 分析

Setup(Section 4.2.1):Qwen3-1.7B-Base 在 MATH-500 中随机选 25 个单个问题,每个问题单独训 100 epoch,REINFORCE,batch size 1,N=8 rollouts,reward 用 Trajectory-Level Entropy。追踪 greedy decoding 的正确性(heatmap)以及最高 reward 样本是否正确(绿色 0/1 波形)。

Figure 4: Training dynamics on individual representative problems

四种轨迹模式

  • Amplifying success(ID 262, 146, 258):问题初始就对,训练放大这一偏好(蓝色加深);
  • Amplifying failure(ID 222, 422):最高 reward 样本基本都是错的,训练把错误锁死(红色加深);
  • Wrong → Correct(ID 76, 131):greedy 初始错,但最高 reward 样本往往是对的,训练引导模型从错到对;
  • Correct → Wrong(ID 420):初始对,但 sampling 不稳定,训练反而把对变错。

在 25 个问题中,只有 3 个(12%)在训练后改变 greedy 正确性,其余 22 个仅仅是放大已有偏好——无论那个偏好是对还是错。这证实 intrinsic URLVR 的作用是「放大」而非「纠正」。

4.4 OOD 跨问题泛化

Setup(Section 4.2.2):训练时刻意挑 6 个 MATH-500 问题,其最高 reward 样本绝大多数是错的(即 Training Label Accuracy 很低)。评估时用两个未见过的 OOD 问题 ID 76 和 ID 131。

Figure 5: Training Label Accuracy on six MATH500 problems and Test Label Accuracy on two OOD problems

结果:训练时 Label Accuracy 一直低、甚至为 0;但两个测试问题上 Label Accuracy 从 0 稳步升到 1!

关键启示:即使训练数据中所有问题的置信度方向都错,sharpening 在某些 OOD 问题上仍能把模型从错变对——因为模型对 OOD 问题的先验可能恰好与正确答案一致。这解释了为什么 TTRL 等小数据集工作常报告有效:泛化取决于未见问题的先验-正确性对齐,而非训练数据本身的正确性


5. 如何安全应用 Intrinsic URLVR?

5.1 小数据集防止崩溃

Setup:Qwen3-1.7B-Base + DAPO-17k 的 {32, 128, 512, 2048, 8192, 16384} 子集,固定 global batch 32,调整 epoch 使每种设置都训 恰好 600 步。监控 Ground Truth Reward / Majority Voting Reward / Reward Accuracy。子集 32/128/512 各跑 3 seed。

Figure 6: Effect of training dataset size

结果

  • DAPO-32 和 DAPO-128 600 步内完全稳定,无崩溃,Majority Voting Reward 稳步上升到 ~1.0,GT Reward 也稳步提升;
  • DAPO-512 开始在约 300 步崩盘;
  • DAPO-2048/8192/16384 早崩;
  • DAPO-32 3 个 seed 均未崩,DAPO-512 3 个 seed 均崩,规律稳健。

Figure 7: KL divergence at each training step

KL 证据(方程 $D_{\mathrm{KL}}^{(t)}=\mathbb{E}_{x\sim\mathcal{D}_{\mathrm{train}}}[\mathbb{E}_{y\sim\pi_\theta^{(t)}}[\log\pi_\theta^{(t)}/\pi_{\mathrm{ref}}]]$):

$$ D_{\mathrm{KL}}^{(t)}(\pi_\theta^{(t)}\|\pi_{\mathrm{ref}})=\mathbb{E}_{x\sim\mathcal{D}_{\mathrm{train}}}\left[\mathbb{E}_{y\sim\pi_\theta^{(t)}(\cdot|x)}\left[\log\frac{\pi_\theta^{(t)}(y|x)}{\pi_{\mathrm{ref}}(y|x)}\right]\right] \tag{12} $$

DAPO-32 在 600 步后 KL ~ 0.057,DAPO-128 更高,DAPO-512 是前者的 2×。小数据集诱导的是局部参数更新(Carlsson et al. 2024 的 "hyperfitting")——模型在特定样本上锐化置信度,但没有系统性位移整体策略,因此对 AIME24/AMC23 的通用推理能力影响小。大数据集反而强迫密集的参数更新,导致全局策略漂移,引发 collapse。

这一发现与 Shenfeld et al. 2025 的 "RL's Razor"(RL 遗忘少是因为分布漂移小)一致。

5.2 Test-Time Training

Setup:Qwen3-1.7B-Base + Majority Voting。对比两个训练语料:AMC23(40 题,test-time)vs DAPO-17k(17000 题,train-time)。两者 batch size 都是 40。

Figure 8: Comparison between training and test-time

结果:AMC23 训练不崩,GT Reward 和 Majority Voting Reward 双双上升,AMC23 和 AIME24 测试集双双提升;DAPO-17k 仍按老规律先涨后崩。这直接解释了 为什么近期 intrinsic reward 工作(Prabhudesai et al. 2025、Zuo et al. 2025)都聚焦于 test-time 设置——这是 intrinsic URLVR 的安全生态位

5.3 Extreme 情况:即使初始 majority 几乎全错也能 OOD 增益

Setup(Section 5.3):极端情况——先用 maj@64 离线筛出 DAPO-17k 里 32 个初始 majority 几乎都错的问题(大多数答案的投票比例 >40%)。训练时用 maj@8 + 温度 1.0,配置同 DAPO-32。

Figure 9: Training dynamics of extreme DAPO-32 setting

结果:训练 Label Accuracy 几步内就掉到 0 并保持(因为这些题 majority 就是错的),但 AIME24 和 AMC23 仍有非零的增益轨迹。

启示:小数据集训练的是「局部过拟合」——即使放大了错误知识在训练题上的概率质量,这种局部的参数变动不会污染模型在 OOD 题上的先验-正确性对齐。这与 4.2.2 节的跨问题泛化机理一致。


6. 如何衡量 Model Prior?—Model Collapse Step

6.1 动机与定义

既然 intrinsic URLVR 只在先验对齐时有效,能否用崩盘时间本身当作「model prior 的体温计」,在不跑完整 RL 的前提下评估模型的 RL trainability?

传统做法两种:

  • 全量 RL 训练并看 GT Gain:最准确但极贵;
  • pass@k(Wu et al. 2025a):采 $k$ 解比 pass@1 看 gain,便宜但不够准,且在多选题上 $k$ 大时 pass@k → 1 失效。

Model Collapse Step 定义为:在默认超参下用 intrinsic URLVR(majority voting)训练时,Reward Accuracy 首次低于 1% 的训练步数。模型先验越强,崩盘越晚。

6.2 Pilot Study: 不同模型族

Setup:4 个模型——Qwen2.5-1.5B、DeepSeek-R1-Distill-Qwen-1.5B(Qwen 家),Llama-3.1-8B、Llama-3.1-Tulu-3-8B-SFT(LLaMA 家)。都用 DAPO-17k + majority voting。

Figure 10: RL Training dynamics after different training stages

结果

  • Qwen 家的 SFT 变体(R1-Distill)Reward Accuracy 全程维持 0.8+,base 在 200 步后塌到近 0;
  • LLaMA 家 base 在 40 步失败、SFT 版本先涨后崩得晚;
  • 两家族的Actor Entropy 初始更高的 base 模型反而崩得更快、Reward Accuracy 更低。这反驳了 "high entropy → better reasoning" 的解释——熵是 sharpening 的结果,不是先验强度的决定因素。

6.3 Model Collapse Step 预测 RL Gain

Figure 11: Model Collapse Step (left) and Pass@k Gain (right) as predictors of RL trainability

Setup:7 个模型(OLMo-2-1124-7B、Meta-Llama-3.1-8B、Qwen2.5-Math-1.5B、Qwen2.5-1.5B、Qwen2.5-7B、Qwen3-1.7B-Base、Qwen3-8B-Base)× 在 AIME24 上评估:

  • GT Gain:全量 1 epoch 监督 RLVR 在 DAPO-17k 上训完后的 AIME24 提升;
  • Pass@k Gain:$\text{pass}@256-\text{pass}@1$;
  • Model Collapse Step:intrinsic URLVR 崩盘步。

定量结果(论文图 11 数值)

模型 Collapse Step GT Gain (AIME24) Pass@k Gain
OLMo-2-1124-7B 34 +0.42 +6.67
Meta-Llama-3.1-8B 40 +1.01 +3.33
Qwen2.5-Math-1.5B 160 +3.96 +30.00
Qwen2.5-1.5B 221 +3.96 +20.00
Qwen2.5-7B 245 +6.67 +60.00
Qwen3-1.7B-Base 280 +7.08 +36.67
Qwen3-8B-Base 383 +17.08 +56.67

结论:Collapse Step 与 GT Gain 的秩序强相关(Qwen3-8B-Base collapse 最晚且 GT Gain 最大),甚至比 pass@k gain 更可靠(pass@k 对 Qwen2.5-1.5B 和 Qwen2.5-Math-1.5B 区分度不强但 collapse step 能区分)。

6.4 计算成本

Table 3: Computation cost comparison

Table 3

Indicator Computation Cost Total Tokens Requires GT
GT Gain $7k \times 8 \times 17k \times 7$ (response × rollouts × problems × models) 6.66 B Yes
Model Collapse Step $7k \times 8 \times 662 \times 32$ (response × rollouts × total steps × batch) 1.19 B (5.6× faster) No

Model Collapse Step 比 GT Gain 便宜 5.6×,且完全不需要 ground truth 标签,从而在无标签域也能筛选 base model。

加速技巧(Section 6.3):把 mini-batch size 压到 1、rollouts N 增到 32 能加速崩溃而保持模型排序(图 12)。作者用这些激进配置测 7 个模型,崩盘步数 [22, 14, 19, 112, 128, 172, 195],相比默认配置提前 ≥50 步,但名次稳定。这让 Collapse Step 既「准」又「快」。


7. External Rewards 作为可扩展方向

7.1 Self-Verification on Countdown

Setup:Qwen3-1.7B-Base 和 Qwen3-4B-Base 在 Countdown-Tasks-3to4(Jiayi-Pan/Countdown-Tasks-3to4)训练,目标是构造算术表达式到达目标值。4k 题训练、1k 题验证。对比三种 reward:

  • Oracle Supervision:用 ground truth 验证函数;
  • Self-Verification:模型给自己的解输出二元 correctness(见 Appendix C.1 Prompt 2);
  • Trajectory-Level Entropy(表 1)。

Figure 13: Self-Verification with Trajectory-Level Entropy and Oracle Supervision

结果

  • Trajectory-Level Entropy 20 步就崩;
  • Self-Verification 训练 600 步持续改善,最终 Countdown avg@16 达 0.75+(Oracle 是 ~0.85);
  • Self-Verification 的下方图显示有趣现象:Reward Accuracy 在约步 200 下降(模型试图 hack 自己的 verifier)但随后恢复,最终 Reward Accuracy 和 GT Reward 都稳步上升——生成-验证不对称性产生的 self-corrective 动力学

7.2 Instruction Alignment 的关键作用

Figure 14: Prompt sensitivity across base and instruction-aligned models

比较 Qwen3-1.7B-Base(-P1/-P2)与 Qwen3-1.7B(-P1/-P2)。指令对齐模型:

  • 起点准确率 > 60%(已超过 base 模型最终结果);
  • 两种 prompt 都能到达 80%+;
  • Reward Accuracy 稳定不 hacking。

Base 模型只有在 P2 prompt 下才工作,P1 下崩。指令对齐使 self-verification 具有 prompt robustness更高起点,是 self-verification 能 scale 的关键。

7.3 External Reward 为何能扩展?

论文给出两点本质论证: 1. Verifier 不随模型进步而退化:一个检查算术表达式、执行代码、校验 Lean 证明的外部程序,对更强模型仍然同样可靠。Intrinsic reward 是模型自己的分布,模型越强 reward 就越「肮脏」; 2. Verification 计算可扩展:verification 通常便宜(执行代码、代入求值),而 unlabeled data 范式(如 RPT、RLPT)把验证信号来自已有语料本身——不需人工标注。

这两点共同让 external reward 摆脱 confidence-correctness ceiling。


8. 实验总体设置与超参(Appendix B.1)

8.1 默认超参(Table 7)

Advantage Temperature Global BS Mini BS N Rollouts Regularization Max Prompt Max Response LR Epoch
GRPO 1.0 64 64 8 w/o KL/Entropy 1024 7168 1e-6 1

所有实验用 veRL(Sheng et al. 2025)+ GRPO advantage estimator,通过 RewardManager 定制五种 intrinsic reward。

8.2 Training Dynamics 定义(Appendix B.2)

  • Label Accuracy(ensemble):$\frac{1}{M}\sum_{i=1}^M\mathbf{1}[\mathrm{maj}(x_i)=a_i^*]$,衡量伪标签对 GT 的命中率;
  • Reward Accuracy:$\frac{1}{MN}\sum_{i,j}\mathbf{1}[r_{\mathrm{mv}}(y_{i,j})=r_{\mathrm{gt}}(y_{i,j})]$,衡量样本级 reward 对 GT reward 的命中,捕获「lucky hits」(majority 投错但个别对的 sample 仍拿到正确 reward=0);
  • Ground Truth Reward:$\frac{1}{MN}\sum_{i,j}r_{\mathrm{gt}}(y_{i,j})$,监督基线;
  • Majority Voting Reward:$\frac{1}{MN}\sum_{i,j}r_{\mathrm{mv}}(y_{i,j})$,实际训练时使用的 pseudo-reward;
  • Certainty-Based Label Accuracy:最高置信度样本的 GT 正确率,$j_i^*=\arg\max_j r_{\mathrm{cert}}(y_{i,j})$。

8.3 超参扫描关键结论(Appendix B.3)

Majority Voting(图 16-19)

  • T=0.6/0.8 快速锐化但不稳;T=1.2 噪声大;T=1.0 最优
  • Mini-batch size 越大越稳——MBS=1 在 20 步崩,MBS=64(纯 on-policy)稳到 epoch 末;中间 16-32 有梯度;
  • KL 正则 ($\beta=0.005$) 只有 marginal 收益,反而增加方差;
  • N 越大越快崩——N=32 在 180 步崩、N=16 在 220 步崩、N≤8 稳。推荐 N=8 平衡 voting 可靠性与训练稳定性。

Certainty-Based(图 20-31)

  • Token-Level Entropy / Trajectory-Level Entropy / Probability高温(T=1.2) 下崩得最晚,Point-Biserial Correlation(certainty 与 correctness 的相关)更高;
  • Self-Certainty 相反——T=1.0 最稳,T=1.2 反而不能收敛。因为 Self-Certainty 的锚分布是均匀分布(不像其他方法直接最大化某 token 概率),受温度影响机制不同;
  • Self-Certainty 对 mini-batch size 变化异常鲁棒——Label Accuracy 几乎不随 MBS 变化(图 24)。猜测是因为它用 logit 级 KL 比较,对策略 temporal 不一致性较弱敏感。

9. 讨论与局限

9.1 核心贡献

  1. 分类学:首次把碎片化的 URLVR 工作系统归为 intrinsic / external 两大阵营,并基于「scalability 本质」论证两者不是同一条路上的演化,而是天花板不同的两种方案
  2. 统一理论:用 KL-regularized RL 的最优策略闭式解(DPO 推导)说明所有 intrinsic reward 都是在锐化先验,且 Theorem 1 给出几何收敛速率;
  3. Rise-then-Fall 普适律:用 5×超参×模型族的实验矩阵证明这是方法论层面的根本缺陷而非工程问题;
  4. Model Collapse Step:一个不需 GT 标签、比 GT Gain 便宜 5.6×、比 pass@k 更准的 RL trainability 代理指标;
  5. 失败模式分类:三种失败模式(gradual/length/repetition collapse)直接对 reward 设计给出工程启示。

9.2 值得借鉴的设计

  • 把 reward 理解为「锐化方向」:所有 intrinsic reward 都可用「锚分布 + 粒度 + 转换」三要素描述,这是设计新 intrinsic reward 的 principled 框架;
  • Pseudo-reward vs Ground truth 双轨监控:论文引入的 Reward Accuracy 指标(只要开发时有少量 GT)可以作为 URLVR 训练的早期预警系统;
  • KL divergence 作为局部/全局漂移的探针:小数据集 KL 不到 0.06,大数据集 2× 高,这个 KL 自身就是崩溃前兆;
  • External reward 的 self-verification 动力学:Reward Accuracy 先降后升的 U 型曲线(图 13)暗示 self-verification 有内在的 error-correction——论文没细挖,值得后续研究深入。

9.3 局限与争议

  1. Theorem 1 的 Assumption A1 (majority stability) 在实际中并不始终成立:论文用 $N=8$ 的小 N 训练,但理论证明需要 majority 对每次迭代都稳定,作者只在附录用 $N=1024$ 的大 N 实验验证;小 N 下 majority 可能抖动,严格理论仅近似成立;
  2. Model Collapse Step 的普适性待验证:7 个模型都是数学 / reasoning 领域的,没有跨任务(代码、法律、医疗)验证;AIME24 只是一个窄测集,GT Gain 相关性未必能推广;
  3. External reward 的 scalability 是断言而非证明:Self-Verification 在 Countdown 上 600 步稳定升很有说服力,但 Countdown 任务的答案空间极小、验证函数极简,不能推论到 open-ended 数学、复杂代码等场景;DeepSeekMath-V2 和 AlphaProof 在大规模任务上的 scalability 尚需独立验证;
  4. 计算开销仍然很大:Model Collapse Step 虽然比 GT Gain 便宜 5.6×,但仍需 1.19B tokens;对中小团队筛选 base model 仍是门槛;
  5. Sharpening 带来的局部 overfitting 是否伤害下游泛化:Section 5 中 DAPO-32 训练「不崩」,但并未在广泛的 OOD benchmark 套件上评估——可能只是 AIME24/AMC23 上不崩,其他能力已退化;
  6. 缺少对 proposer-solver 架构(R-Zero、SeRL 等)的直接实验:分类学提到了这一族,但实验全部集中在 single-model intrinsic reward,proposer-solver 的 failure mode 未知;
  7. 与 Spurious Rewards(Shao et al. 2025a)的关系:论文引用但未直接对比。Spurious Rewards 工作指出 Qwen 系列对随机奖励仍能学习,说明 Qwen 的先验极强——这与 Model Collapse Step 排名 Qwen 靠后崩一致,但论文没放在一个框架下讨论。

9.4 对实际项目的启示

  • RLVR 数据规模决定是否用 intrinsic:如果只有几十道题(比如某领域特殊问题集),intrinsic URLVR(尤其 majority voting)可以作为廉价 test-time 自适应工具;一旦数据规模上千,就必须引入 external reward;
  • 选 base model 时跑 2-3 百步的 intrinsic URLVR:把它作为 RL trainability 的预测指标,免除昂贵的全量 RL 训练做 A/B;
  • 警惕 reward hacking 的伪装:Majority Voting Reward、Token Entropy 等指标本身的提升 完全无法证明模型变好——论文的所有崩盘曲线都展示 pseudo-reward 单调上升而 GT 性能下降;
  • 设计新 intrinsic reward 时注意聚合粒度:Probability 乘积导致 length bias、Entropy 均值导致 repetition bias——设计时应有意识地对抗这些 shortcut(如用 per-token 几何平均);
  • 未来方向:把「生成-验证不对称性」识别并利用起来——不光是代码 / 定理证明这些已知场景,还要发掘如化学反应模拟、物理引擎、游戏规则、SQL 查询校验等更多外部验证器。