← Back to list
AdaGRPO

Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation

生成式推荐 JD
Abstract 8 Reading 8 Rating —
2026-06-07
Kewei Xu, Junbo Qi, Yanyan Zou, Pengfei Zhang, Xingzhi Yao, Shengjie Li
JD.com, Waseda University, University of Electronic Science and Technology of China
JD.com 的 AdaGRPO 把生成式推荐的 RL 对齐从『均匀施加奖励』改为『选择性准入』:保留监督 NLL 作静止锚,用两个 rank-based rollout 诊断(policy 侧困难度 × reward 侧可判别性)合取出一个 detached 二值 sample-level clip,只在『策略不确定且曝光偏置的 production ranker 局部可信』的样本上放行 GRPO 梯度,把 PPO 的 clip 从 ratio 域抬到 sample 域;offline HR@10 11.01%→12.18%(幻觉≤0.22%),线上 A/B effective IPV +0.43% 等显著提升。
评分原因
摘要评分:生成式推荐 + RL 主线:揭示生产 ranker 作 reward model 因曝光偏置存在样本依赖误差,提出按 policy 难度与 reward 可判别性逐样本门控 GRPO(失败样本回退纯监督)的 AdaGRPO;大规模电商 + 线上 A/B 显著提升 CTR/停留时长。
精读评分:原创且干净的 insight(RM 仅有条件可信→把 GRPO 的 clip 从 ratio 域抬到 sample 域,按 difficulty×reliability 逐样本门控),§4 分层实证扎实地动机化了方法,并有 JD 线上 A/B 显著收益;扣分在仅用专有数据集无公开可复现、且两次 A/B 用不同对照/时间窗无法直接 head-to-head。
industrial semantic-id rl pretrained-lm training-stability

Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation 精读

JD.com / 早稻田大学 / 电子科技大学,RecSys '25。作者 Kewei Xu, Junbo Qi, Yanyan Zou(项目负责人), Pengfei Zhang, Xingzhi Yao, Shengjie Li。

1 研究动机与背景

生成式推荐(Generative Recommendation, GR)正在把传统「召回—排序」级联范式改写成 LLM 风格的自回归解码:给定用户历史 $\mathbf{x}=(x_1,\dots,x_T)$ 作为 prompt,模型直接逐 token 生成下一个物品的 Semantic ID(SID)。SID 是从学习到的码本 $\mathcal{S}$($|\mathcal{S}|\ll|\mathcal{V}|$)里抽出的 $L$ 码序列 $\mathrm{sid}(v)=(s_1,\dots,s_L)$,语义相近的物品共享前缀 token,于是「召回」被内化进 Transformer 的参数记忆,天然覆盖长尾与语义相关物品。

SFT 阶段用 next-token likelihood 模仿行为日志,本质上只是「复刻历史」,并不直接优化用户满意度。一个自然的想法是用 RL 来弥合这道精度鸿沟:把一个多目标排序模型(production ranker)当作 reward model(RM),用它对 GR 策略 rollout 出的候选打分,再用 GRPO 微调策略。GRPO 不需要 value network,用 group 内相对优势更新,已成为该方向的标准载体。

但作者指出 RL 在 GR 上的有效性被一个常被忽视的前提卡住:RL 的成功严格取决于 RM 在它所评估样本上的可信度(trustworthiness)。而工业 ranker 是在曝光偏置(exposure-biased) 的日志上训练的——用户只与「被展示过」的物品交互,绝大多数 user–item 对从未被观测(稀疏 + 偏置)。在这种日志上训出来的 RM 继承了它的盲区:它对高频曝光物品的打分可能很准,但对长尾、新上架、或落在它有效训练分布之外的物品却不可靠。已有的 GR-RL 工作(Rank-GRPO、MiniRec 等)都只在改进「怎么用这个 RM 信号」(reward masking、ranking-importance 加权),却没人审视 GR 策略与 RM 之间因架构/目标/特征体系完全不同而产生的「能力错配(capability conflict)」,仍然把 reward 信号均匀地施加到所有训练样本上。

Figure 1: 均匀施加奖励的两种失败模式。(a) 简单样本:ground truth 已排在 rollout 前列,奖励聚集、GRPO 优势被 RM 噪声淹没;(b) 困难样本:ground truth 是长尾/未曝光物品,曝光偏置导致 RM 把流行干扰项排在 ground truth 之上,把策略推向错误方向。

两种相互对立的失败模式(Figure 1)

  • 简单样本(easy):策略本就把 ground-truth 排在自己 rollout 的前列,RM 给这一组的打分聚得很紧、围绕 group 均值,GRPO 的相对优势 $A_k$ 坍缩到接近 0,残余的 RM 噪声主导了梯度,驱动那种典型的 over-optimization(reward-hacking)。
  • 困难样本(hard):当 ground-truth 落在 RM 局部 miscalibrate 的区域(长尾物品在日志里 underrepresented),RM 会把流行的干扰项打到 ground-truth 之上,由此产生的 policy-gradient 更新把模型推离正确答案

作者用一组分层分析(见 §4)把这幅图量化精确:在全部样本上聚合时,RM 对 ground-truth 排名的影响接近于零($K=50$)甚至为负($K=128$);但这个「近零」是一个被构成性效应掩盖(masked)的均值——当策略对该样本不确定(uncertain)且 RM 能有效判别(discriminate)ground-truth 时,RM 的逐样本影响会变得相当可观。RM 不是全局无用,而是有条件地有价值(conditionally valuable),并且这两个条件都能在 GRPO rollout 时从 rollout 统计量里算出来。

这组观察催生了 AdaGRPO:把 reward 引导的优化从「均匀压力」重构为「选择性准入(selective admission)」。监督 NLL 作为锚定每个样本的稳定项始终保留,而 GRPO 项被一个逐样本二值 clip 门控——门控由两个 rollout 诊断决定:policy-side difficulty(策略侧困难度)reward discriminability(奖励侧可判别性)。任一诊断不通过的样本退化为纯监督更新。从概念上,AdaGRPO 把 PPO 的 clip 原则从 ratio 域抬到了 sample 域:它定义的 trust region 不约束「每个 token 能更新多远」,而约束「哪些样本被允许贡献 policy-gradient 信号」。

核心结论(也是 abstract 的点睛句):RL 用于生成式推荐的中心挑战不是设计更强的奖励,而是辨别奖励信号何时可被信任("not in designing stronger rewards, but in discerning when the reward signal can be trusted")。

2 相关工作

生成式检索 for 推荐:把推荐重构为对 item identifier 的自回归解码(P5、TIGER、GenRec 等),绕开召回—排序级联。SFT-based 对齐(TALLRec)与 retrieval-augmented 变体已建立强 baseline;本文针对的是其后的 RL 微调阶段

LLM 的 RL 对齐:RLHF 及其衍生(PPO、DPO、GRPO)构成标准工具箱,DeepSeek-R1 证明纯 RL 能解锁超出 SFT 的能力。PPO 是最接近的机制先例——它对每步更新做 importance-sampling ratio 的 clip(一个 per-token 的 trust region);AdaGRPO 把 clip 搬到 sample 域,门控某个样本的 policy gradient 是否参与。推荐侧的 Rank-GRPO 引入 reward masking 与 ranking-importance 权重,MiniRec 用 RL-specific filtering 改进采样效率——这些都在精炼「怎么用 RM」,本文问的是「何时该信 RM」

难度感知训练(Difficulty-aware training):Ji et al. 指出只有中等难度样本才产生干净的 policy gradient(推理任务);Pikus et al. 量化了在困难样本上多至 47% 的额外 GRPO 收益。GRPO-LEAD、DiPO、DART-Math 等用 advantage 重加权与难度感知拒绝调优来操作化它。但把「难度」迁移到推荐有两个非平凡障碍:(i) 难度是 ill-posed 的——用户兴趣隐式且语境相关,难度必须从「策略对带噪行为日志的不确定性」推断,而非来自确定性 verifier;(ii) 推荐的 RM 在被 upweight 的样本上也未必可信(production ranker 有实时性、目录每日更新、日志选择偏置等域内偏差),简单地 upweight 困难样本是不安全的。AdaGRPO 通过把难度条件与一个局部 RM-可判别性检查相合取(conjoin) 来解决这一点。

3 预备知识

3.1 生成式推荐即自回归解码

设物品目录为 $\mathcal{V}$,用户历史 $\mathbf{x}=(x_1,\dots,x_T)\in\mathcal{V}^T$ 作为 prompt,任务是预测下一个物品 $y^*\in\mathcal{V}$。每个物品 $v$ 被赋予一个 $L$ 码 SID $\mathrm{sid}(v)=(s_1,\dots,s_L)$,码本 $\mathcal{S}$ 构造成「语义相近物品共享前缀 token」。参数为 $\theta$ 的 LLM 定义策略:

$$\pi_\theta(y\mid\mathbf{x})=\prod_{t=1}^{L}\pi_\theta(s_t\mid\mathbf{x},s_{<t}) \tag{1}$$

推理时用 beam search 生成候选,只保留映射到合法物品的序列。论文用 rollout 指一条采样序列、group 指一个 prompt 的 $K$ 条 rollout。

3.2 监督微调(SFT)

给定历史—目标对 $\mathcal{D}=\{(\mathbf{x}^{(i)},y^{*(i)})\}_{i=1}^{N}$,NLL 目标为:

$$L_{\mathrm{NLL}}(\theta)=-\mathbb{E}_{(\mathbf{x},y^*)\sim\mathcal{D}}\Big[\sum_{t=1}^{L}\log\pi_\theta(s_t^*\mid\mathbf{x},s_{<t}^*)\Big] \tag{2}$$

NLL 稳定、锚定在被观测行为上、不需要 RM,提供 RL 微调所基于的 base policy。

3.3 Group Relative Policy Optimization(GRPO)

GRPO 用 group-level 奖励统计取代 PPO 的 value network。对每个 prompt $\mathbf{x}$,从 $\pi_{\theta_{\mathrm{old}}}$ 采样 $K$ 条 rollout $\{y_1,\dots,y_K\}$,逐条打分 $r_k=\mathrm{RM}(y_k,\mathbf{x})$。group-relative advantage:

$$A_k=\frac{r_k-\bar r}{\sigma_r+\epsilon} \tag{3}$$

其中 $\bar r,\sigma_r$ 是组均值与标准差。以 importance ratio $w_k(\theta)=\pi_\theta(y_k\mid\mathbf{x})/\pi_{\theta_{\mathrm{old}}}(y_k\mid\mathbf{x})$,GRPO 优化 clip 后的代理目标:

$$L_{\mathrm{GRPO}}(\theta)=-\mathbb{E}_{\mathbf{x},\{y_k\}\sim\pi_{\theta_{\mathrm{old}}}}\Big[\frac{1}{K}\sum_{k=1}^{K}\min\big(w_kA_k,\ \mathrm{clip}(w_k,1-\epsilon,1+\epsilon)A_k\big)\Big] \tag{4}$$

这个 token-level ratio clip 正是 AdaGRPO 在 §5 抬到 sample-level 的机制。

4 RM 有条件地有用:困难 + 高判别样本

在提出方法前,作者先做一个纯实证测试:RM 是否提供有用的训练信号?答案是「有条件的」——这一发现直接决定 AdaGRPO 该 clip 什么。

4.1 协议

对 held-out 集的每个 prompt $\mathbf{x}$,用 beam width $K$ 跑 beam search 得候选集 $\mathcal{R}=\{y_1,\dots,y_K\}$。分别按两种方式排序:(1) 按 beam 的 top-down log-prob 降序(LLM order),(2) 按 reward 分数降序(RM order),记录 ground-truth 在两种排序里的位置 $\mathrm{idx}_{\mathrm{LLM}}$ 与 $\mathrm{idx}_{\mathrm{RM}}$。定义 RM 的影响(influence)

$$\Delta=\mathrm{idx}_{\mathrm{LLM}}-\mathrm{idx}_{\mathrm{RM}}$$

$\Delta>0$ 表示 RM 把 ground-truth 往前推(有帮助),$\Delta<0$ 表示推远(有害)。注意:本分析用 beam search 以保证可复现,而 GRPO 训练用 sampling,二者有分布差异,所以下面的分层规律是「指示性」而非「对训练时条件的直接测量」,但它们恰恰动机化(motivate) 了 clip 的设计(clip 本身在 §6 端到端验证)。

4.2 全样本上 RM 的聚合影响接近零

Table 1:全样本下 ground-truth 平均位置(LLM vs RM 排序)。 $\Delta>0$ 表示 RM 有帮助。

Beam width $K$ Avg $\mathrm{idx}_{\mathrm{LLM}}$ Avg $\mathrm{idx}_{\mathrm{RM}}$ $\Delta$
50 15.79 15.31 +0.48
128 35.57 35.86 −0.28

分析:聚合影响在 $K=50$ 时近零、在 $K=128$ 时转负。这种退化与曝光偏置一致——更大的 beam width 会surface 出更多 RM 从未被校准过的 out-of-distribution 候选。一个固定的 NLL–GRPO 混合(uniformly 信任 RM)继承的正是这个近零的净信号——所以「均匀施加」从一开始就注定低效

4.3 RM 只在困难样本上提供强引导

把样本按 LLM difficulty 切分:若 ground-truth 落在 LLM 排序的 top-$\lfloor\tau K\rfloor$ 之外则记为 HARD,否则 EASY(与后面 clip 条件 $f_1$ 同一划分)。

Table 2:仅 HARD 样本上的 ground-truth 平均位置。

$K$ Avg $\mathrm{idx}_{\mathrm{LLM}}$ Avg $\mathrm{idx}_{\mathrm{RM}}$ $\Delta$ Coverage
50 30.07 18.66 +11.41 42.2%
128 77.09 46.33 +30.77 33.9%

分析:在 HARD 分区上 RM 把 ground-truth 位置改善了 11.4($K=50$)与 30.8($K=128$),而且收益随候选集增大而增大——与聚合趋势完全相反。在 EASY 分区上影响近零甚至为负,正是它把聚合均值拉了下来。RM 是有条件有价值的,而那个条件(策略自身的不确定性)在训练时是可观测的。

4.4 RM 可判别性进一步翻倍逐样本影响(代价是覆盖率)

难度是必要但不充分条件。HARD 样本里仍有一些是「RM 不可靠」的——ground-truth 落在 RM 训练分布之外。于是加第二个条件(对应 clip 的 $f_2$):只保留 RM 把 ground-truth 排进 top-$\lfloor\tau K\rfloor$ 每个 in-batch 负例都掉到 bottom-$\lfloor\rho K\rfloor$ 的 HARD 样本——此时 RM 对「相关 vs 无关」有清晰分离。

Table 3:同时施加两个条件后的影响。

$K$ $\Delta$ Coverage
50 +23.24 11.6%
128 +59.93 13.4%

分析:可判别性条件把逐样本影响大约再翻一倍($K=50$:60 名 → 23 名;$K=128$:约翻倍),但覆盖率掉到只剩 12–13%。clip 解决的正是这个 precision–coverage 权衡:把 RL 更新花在高影响的少数样本上,其余退回监督。

5 方法:AdaGRPO

Figure 2: AdaGRPO 总览。两个 rank-based 诊断——policy-side difficulty $f_1$ 与 reward-model discriminability $f_2$——在每个训练样本上评估,合取成一个二值 sample-level clip,在实例粒度上决定 GRPO loss 是否被准入更新(否则 clip 到零)。

AdaGRPO 瞄准「RM 只在一个真子集上提供有信息梯度」的机制。它保留监督 NLL 作为静止锚(stationary anchor),而对每个实例的 GRPO 项做一个 sample-level clip:要么原样通过、要么 clip 到零,clip 决策由该实例自己 rollout group 上的诊断驱动。逐实例目标:

$$L_i(\theta)=L_{\mathrm{NLL}}^{(i)}(\theta)+\lambda\,\alpha_i\,L_{\mathrm{GRPO}}^{(i)}(\theta),\qquad \alpha_i\in\{0,1\} \tag{5}$$

其中 $\lambda>0$ 是全局缩放系数,$\alpha_i$ 是实例 $i$ 的 clip 系数,由 rollout group 上两个 rank-based 诊断决定。$\alpha_i$ 是 detached 的(无梯度流经它的计算),所以 clip 只是重塑优化 landscape,不引入有偏的代理梯度。$\alpha_i=0$ 时 clip 掉 GRPO 项、留下纯监督更新;$\alpha_i=1$ 时在实例 $i$ 上施加完整 GRPO 修正。

为何推荐里的难度估计是非平凡的。推荐场景的「样本难度」与推理任务里的对应物根本不同:(1) 推理里有 policy-independent 的「难」概念、有 pass-rate 这种干净的二值操作代理;推荐里没有——难度与当前参数化、时变目录、用户特异历史纠缠;(2) 推荐的 reward 是稠密连续的(production ranker 给每条 rollout 打连续分),pass-rate 式代理失效。这逼出门控 sample-level clip 的三条 desiderata:(i) 可从 rollout 统计量计算,不依赖额外模型/启发式;(ii) 独立于稀疏的 correctness 信号(iii) 即便所有 rollout 都拿到非平凡 reward 也有意义。下面的 rank-based 诊断同时满足三条,且复用 GRPO 已经物化的同一个 rollout group——对 clip 不增加任何采样开销。

Rank-threshold 超参数。两个诊断都把 rollout group 大小 $K$ 转成两个标量秩阈值:prominence fraction $\tau\in(0,1)$ 与 suppression fraction $\rho\in(0,1)$,$\tau<\rho$。阈值 $\lfloor\tau K\rfloor$ 标出排序诊断池的 top-$\tau$ 部分,$\lfloor\rho K\rfloor$ 标出它互补的尾部。默认 $\tau=1/3$(top-tertile)、$\rho=0.9$(bottom-decile),全程沿用,并经实验验证跨任务稳健。把阈值表达成 $K$ 的分数使 clip 对 rollout 数 scale-free。

5.1 Policy-side 诊断:difficulty $f_1$

对每个 prompt $\mathbf{x}_i$,从 reference policy $\pi_{\theta_{\mathrm{old}}}$ 抽 $K$ 条 rollout $\mathcal{R}_i=\{y_i^{(1)},\dots,y_i^{(K)}\}$。设 $y_i^\star$ 为监督集里的 ground-truth target。在 $\pi_{\theta_{\mathrm{old}}}$ 下用 teacher forcing 算 $y_i^\star$ 的长度归一化 log-likelihood,插进 $K$ 条 rollout 已算好的 log-likelihood 集合并降序排,得 policy-side 诊断池

$$\mathcal{P}_i^{\pi}=\mathrm{Sort}_{\downarrow}\big(\{\,\ell_\pi(y):y\in\mathcal{R}_i\cup\{y_i^\star\}\,\}\big) \tag{6}$$

其中 $\ell_\pi(y)$ 是 $\pi_{\theta_{\mathrm{old}}}$ 下的长度归一化 log-prob。设 $\mathrm{rk}_\pi(y_i^\star)$ 为 $y_i^\star$ 在 $\mathcal{P}_i^\pi$ 里的 1-indexed 排名,difficulty 诊断

$$f_1^{(i)}=\mathbb{1}\big[\mathrm{rk}_\pi(y_i^\star)>\lfloor\tau K\rfloor\big] \tag{7}$$

当 ground-truth 落在策略自身排序的 top-$\tau$ 之外时它点火(=1),表明策略尚未把高 likelihood 赋给正确目标——此时单靠监督梯度的纠正信号有限,GRPO 项值得保留。反之 ground-truth 已在 top-$\tau$ 内时,实例已被 $L_{\mathrm{NLL}}$ 很好服务,GRPO 项冗余,应被 clip。

5.2 Reward-side 诊断:reliability $f_2$

仅靠难度不足以准入 GRPO:一个困难实例可能恰恰是 RM 缺乏判别保真度的那种,此时 policy-gradient 信号是主动误导的、必须 clip。于是加第二个诊断,探测 RM 能否把 ground-truth 与语境无关的干扰项分开。

对实例 $i$,构造负例集 $\mathcal{Z}_i=\{z_i^{(1)},\dots,z_i^{(M)}\}$:从同一 mini-batch 的其它实例均匀采 $M$ 条 rollout(实验中 $M=5$)。这些是 contrastive probe:对 $\mathbf{x}_i$ 而言语境无关、但语法合理的模型生成。用 RM 给 $y_i^\star$ 和 $\mathcal{Z}_i$ 每个元素打分(注意 $r(\cdot\mid\mathbf{x}_i)$ 都条件在 $\mathbf{x}_i$ 上),插进 $\mathcal{R}_i$ 已算好的 reward 集合降序排,得 reward-side 诊断池

$$\mathcal{P}_i^{r}=\mathrm{Sort}_{\downarrow}\big(\{\,r(y\mid\mathbf{x}_i):y\in\mathcal{R}_i\cup\{y_i^\star\}\cup\mathcal{Z}_i\,\}\big) \tag{8}$$

reliability 诊断 $f_2$ 是两个秩约束的合取——ground-truth prominence 与 distractor suppression

$$f_2^{(i)}=\mathbb{1}\big[\mathrm{rk}_r(y_i^\star)\le\lfloor\tau K\rfloor\big]\cdot\mathbb{1}\big[\min_{m\in[M]}\mathrm{rk}_r(z_i^{(m)})>\lfloor\rho K\rfloor\big] \tag{9}$$

第一个因子(ground-truth prominence)要求 RM 把 ground-truth 排进 reward 排序的 top-$\tau$;第二个因子(distractor suppression)要求每个干扰项都掉进 bottom-$(1-\rho)$ 部分。两者合起来认证「干净的 rank separation」——把语境相关与无关项分开。任一子条件被破坏,RM 在该实例上就被判为局部 miscalibrate,$f_2^{(i)}=0$,无论它的难度如何都 clip。

5.3 sample-level clip 与 sample-domain trust region

clip 系数是两个诊断的合取:

$$\alpha_i=f_1^{(i)}\cdot f_2^{(i)} \tag{10}$$

GRPO loss 当且仅当两个诊断同时为 1 才存活:实例对当前策略同时是困难的被一个局部可靠的 RM 信号支撑。其余实例 clip 到零、只贡献监督更新。两个诊断刻出一张互补的失败分类法——一边是「冗余监督」($f_1=0$),一边是「不可靠奖励」($f_2=0$),都被 clip 掉,只准入两关都过的实例。

sample-domain trust region。这条规则把 PPO 的 clip 原则从 ratio 域推广到 sample 域:PPO clip importance-sampling ratio 来 bound 每步更新幅度;AdaGRPO clip 整个 per-sample loss 来排除 policy-gradient 信号冗余或不可靠的实例。两者都定义一个 certified-safe trust region,但 AdaGRPO 的 trust region 定义在哪些样本可以说话,而非 每个样本能走多远

设计性质

  • 超参精简(hyperparameter-lean):唯一自由量是 rank-threshold 分数 $\tau,\rho$,都相对 $K$ 定义、跨任务经验稳定;
  • 构造即可解释(interpretable by construction):每个 clip 决策是二值的、无歧义地归入 GRPO-active 集或其补集,两个诊断直接暴露某实例为何被 clip(诊断即解释);
  • 无全局 RM 质量假设:clip 只在两个诊断局部认证 RM 可信处准入 GRPO loss,是一条保守、实例级的准入规则。

6 实验

6.1 实验设置

  • 数据:大规模电商平台的专有交互日志,训练集约 175K 条 user–item 交互序列(取一周窗口),评估在随后两周的 held-out 测试集。训练规模刻意小于 同平台 SFT 用的语料(后者在 $10^8$ 量级)。两个原因:(i) 电商流量强非平稳,预实验里把训练窗口扩到数月会因 user intent / 目录构成的 concept drift 反而损伤 held-out HR;(ii) 标准 GRPO recipe 在更大 RL 训练集下触发 reward hacking(HR@10 骤降、RM artefact 被利用),稳健修法仍在开发——故限定到一个保守工作点,让所有 baseline 与 AdaGRPO 在同一基础上公平对比(更长训练 horizon 列为开放问题,见 §7 局限)。
  • Base model:decoder-only LLM,在 user–item 序列上做 SFT;物品表示为从层次化商品分类导出的 SID。除非另说,每个 rollout group $K=50$,reward-side 诊断用 $M=5$ 条 in-batch 负例。
  • Reward model:用一个 production encoder–decoder Transformer ranker 的 CTR head,它在 logged click/purchase 信号上经多任务 + MoE 训练,输出层 AUC ≈ 0.76——一个有信息但不完美的 reward 信号。
  • Baselines:四个训练变体。Base = SFT-only;GRPO = 标准 policy-gradient(用 RM 分数);GRPO+NLL = 用一个在验证集调好的常数混合系数 $\lambda$ 的混合目标;AdaGRPO = 本文 clip 目标,分两档——w. $f_1$(仅 difficulty 条件)与 w. $f_1$&$f_2$(difficulty + discriminability 双条件)。
  • 指标:offline 报 HR@$k$、ClkRwd@$k$、OrdRwd@$k$($k\in\{1,10,50\}$)。HR 衡量与 held-out next-item target 的一致性;ClkRwd / OrdRwd 衡量 RM 在 click / order 目标下的偏好。online 报 effective IPV、UCTR、dwell time,以及被曝光/被点击的三级品类数(多样性诊断)。Hallucination = 生成不映射到合法物品的 SID 的比例。

6.2 Offline 结果

Figure 3: 2500 步 offline 训练动态。标准 GRPO 抬高 RM 分数但伴随 HR@10 下降与 hallucination 上升(过拟合到 RM);GRPO+NLL 用固定混合系数减轻部分退化但消不掉后期 hallucination 上升;AdaGRPO 在中间步达到最佳 checkpoint,把 HR@10 从 Base 的 11.01% 提到 12.18% 且 hallucination 控在 ≤0.22%;加上 $f_2$ 进一步降方差、改善 HR–reward–hallucination 三方权衡。

Table 4:最终 checkpoint 的 offline 表现(应读作「稳定性对比」而非「最佳 checkpoint 选择」——Figure 3 才是最佳中间 checkpoint)。

Method HR@1 HR@10 HR@50 ClkRwd@1 ClkRwd@10 ClkRwd@50 OrdRwd@1 OrdRwd@10 OrdRwd@50 Halluc.%↓
Base 2.31 11.01 24.44 0.1232 0.1981 0.2403 0.2575 0.4247 0.5212 0.08
GRPO 2.20 10.39 22.49 0.1402 0.2158 0.2556 0.2915 0.4450 0.5260 0.89
GRPO+NLL 2.30 11.06 24.14 0.1629 0.2391 0.2747 0.2976 0.4479 0.5280 0.59
AdaGRPO w. $f_1$ 2.40 11.48 25.12 0.1521 0.2345 0.2710 0.2958 0.4589 0.5451 0.31
AdaGRPO w. $f_1$&$f_2$ 2.46 11.63 25.43 0.1508 0.2331 0.2698 0.2950 0.4617 0.5487 0.27

三条关键观察:

  1. 纯 reward GRPO 抬高 RM 分数但后期坍缩:GRPO 稳步抬高 ClkRwd / OrdRwd,但策略最终在 over-optimization 下坍缩——最终 HR@10、HR@50 从 Base 的 11.01% / 24.44% 退到 10.39% / 22.49%,同时 hallucination 从 0.08% 暴涨到 0.89%。这说明「只优化 RM」会主动破坏策略对 held-out target 检索的结构性知识。
  2. 固定混合目标更稳但仍不足:GRPO+NLL 相对纯 GRPO 减缓了检索指标下滑,大致维持住 Base(最终 HR@10 11.06%),但 hallucination 仍向上漂移、训练末达 0.59%。这印证了 clip 的中心前提——单个全局混合系数无法刻画样本级的 RM 可靠度差异,于是它不可避免地在 RM 无信息的实例上把噪声泄进梯度。值得注意:GRPO+NLL 在 ClkRwd 上达到峰值(相对 $f_1$&$f_2$ 变体),与 clip 的设计意图一致——clip 在不可靠 reward 区域withhold RL 更新以保长期生成质量,代价是绝对 ClkRwd 上一个温和、可接受的下降。
  3. AdaGRPO 保稳并改善 HR–reward–hallucination 三方权衡:与 baseline 不同,AdaGRPO 在不坍缩的前提下安全抬升性能。沿训练轨迹,AdaGRPO(w. $f_1$&$f_2$)在中间步达到最佳 checkpoint HR@10 12.18%(vs Base 11.01%)且 hallucination ≤0.22%(Figure 3);在最终 checkpoint 它仍是 final 模型里检索最好的(HR@10 11.63%、HR@50 25.43%)且 hallucination 控在 0.27%。对比两行 AdaGRPO:加上 discriminability 条件 $f_2$ 把 hallucination 从 0.31% 进一步降到 0.27% 并改善 HR,印证了 reward-discriminability 诊断的价值。

6.3 难度分层分析

把测试集按「ground-truth 在 base 模型 rollout 下的排名」分成五个等质量 bin(0–20% 最易,80–100% 最难),报最终 checkpoint 的 per-bin HR@10。

Table 5:难度分层 HR@10(%)。 $\Delta$ = AdaGRPO − GRPO+NLL(按论文表中所印数值转录)。

Difficulty bin GRPO+NLL AdaGRPO $\Delta$
0–20%(最易) 24.31 24.16 −0.015
20–40% 12.83 12.90 +0.007
40–60% 8.47 8.64 +0.017
60–80% 5.21 5.38 +0.017
80–100%(最难) 2.48 2.49 +0.001

分析:收益最大处在中等难度区(40–80%),相对 GRPO+NLL 最高 +0.017;最易 bin 上略负(−0.015),最难 bin 上近零(+0.001)。这与 clip 的预期行为一致——它在「策略不确定且 reward 可靠」处准入 RL 更新、在「策略已自信」处 clip、在「rollout 集离 RM 可靠区太远」处也 clip。作者强调这应读作诊断性证据而非对因果机制的完整验证。

6.4 在线 A/B 实验

Table 6:在线 A/B(每个数字是相对其同期 production 对照的 lift)。 GRPO+NLL 跑 01/03–15/03,AdaGRPO 跑 24/03–31/03;两个实验对照不同,列间不可直接横比,仅为紧凑并列。上标 $*$ 表示 $p_{\mathrm{value}}<0.05$。

Metric GRPO+NLL AdaGRPO
Eff. IPV +0.09% +0.43%$^*$
Strict IPV +0.14% +0.35%$^*$
UCTR −0.09% +0.27%$^*$
Dwell time +0.01% +0.23%$^*$
Exposed cats. +0.14%$^*$ +0.25%$^*$
Clicked cats. +0.16%$^*$ +0.28%$^*$

分析:GRPO+NLL 在用户参与度指标上只有小而统计不显著的变化(尽管 offline reward 指标改善),说明更高的 RM 分数本身不一定转化为可度量的用户参与收益。AdaGRPO 在 effective IPV、UCTR、dwell time 上取得统计显著的正向提升,并增加了被曝光/被点击的三级品类数——说明 clip 没有把策略坍缩到一小撮 reward-favored 品类上。online 与 offline 结论一致:把 GRPO 更新 clip 到局部可靠的实例,提升了 reward-model 训练的有用性。但因两实验在不同时间窗、对不同同期对照运行,证据应视为「各方法相对自身对照的 production 支持」,而非 GRPO+NLL 与 AdaGRPO 之间的确定性 head-to-head 因果对比。

7 核心贡献总结

  1. 诊断性发现:通过分层分析(§4)揭示,把 production ranker 当 RM 时,其对 ground-truth 排名的聚合影响接近零甚至为负,但这是一个被构成性效应掩盖的均值——RM 的价值是有条件的,仅在「策略不确定 + RM 可判别」的样本上显著,且这两个条件在 GRPO rollout 时可计算。
  2. 方法贡献 AdaGRPO:把 reward 引导从「均匀压力」重构为「选择性准入」。以 NLL 为静止锚,对 GRPO 项施加一个 detached 的二值 sample-level clip,由两个 rank-based 诊断(policy-side difficulty $f_1$ + reward-side reliability $f_2$)的合取门控。把 PPO 的 clip 从 ratio 域抬到 sample 域,超参精简(仅 $\tau,\rho$)、构造即可解释、不对 RM 质量作全局假设。
  3. 实证验证:大规模电商数据上,offline 把 HR@10 从 11.01% 提到最佳 12.18%、hallucination 压到 ≤0.22%,并保持 final-checkpoint 最强;online A/B 取得 effective IPV +0.43% 等统计显著的参与度提升。
  4. 观念贡献:RL 用于生成式推荐的中心挑战不是设计更强的奖励,而是辨别奖励何时可信

8 与已归档相关工作的对比

GenRec GenRec: A Preference-Oriented Generative Framework (JD.com, 2026-04-16)

关系:显式引用([26]),同一团队的直接前作,但本文未做方法级表格对比 · 已加载对方精读

  • 同源关系:GenRec 与本文是 JD.com 同一团队工作(Yanyan Zou、Kewei Xu、Junbo Qi、Shengjie Li 同时署名两篇),GenRec 是本文的直接前作/底座
  • 共同关注的问题:GR 的 SFT 只在「模仿行为日志」,缺乏对用户满意度的直接优化;naive 用 RL(GRPO)对齐会 reward hacking——策略生成 RM 打分高但无关/非法的 SID 组合。两篇 root cause 一致。
  • 相近的技术骨架:GenRec 的 GRPO-SR 把 GRPO 与一项 NLL 正则(Supervised Regularization) 用常数权重 $\alpha$ 组合(其目标 $\mathcal{L}_{\text{GRPO-SR}}=\text{GRPO} - \alpha\cdot\text{NLL}_{\mathcal{D}^+}$),并对 reward 加 gate($\mathcal{G}_i=\mathbb{1}(s_i>\tau)$,分数过阈才有效,否则抹零)防 hack。这正是本文 Table 4 里 GRPO+NLL baseline 的化身——一个全局固定混合系数的 NLL–GRPO 目标。
  • 本文的差异与推进:本文的核心论点恰恰是「单个全局混合/gate 系数无法刻画样本级的 RM 可靠度差异」(§6.2 第 2 条),于是把 GenRec 的「固定全局混合 + 标量 reward gate」升级为 per-sample 二值 clip,由 policy-difficulty $f_1$ × reward-reliability $f_2$ 两个 rank-based 诊断决定每个实例是否准入 GRPO 项。GenRec 的 gate 作用在「单条 rollout 的 reward 是否够高」(reward 域的硬阈),AdaGRPO 的 clip 作用在「整个实例是否值得且可信地用 RL」(sample 域的 rank 诊断)。可以说本文是把 GenRec 经验式的「NLL anchor + reward gate」做了机制化、诊断化的细化。
  • 可比的实验差异:GenRec 在 JD 首页 feed 5.6 亿序列上做 PW-NTP SFT + GRPO-SR,月级 A/B 取得 click +9.5% / transaction +8.7%;本文刻意把 RL 训练集缩到 175K(避免 concept drift 与 reward hacking),聚焦 RL 目标本身的稳健性,A/B 报 effective IPV +0.43% 等更细粒度参与度指标。两篇在「训练规模哲学」上互补——一个做全量上线框架、一个做 RL 目标的受控研究。

ReCast ReCast: Recasting Learning Signals for RL in Generative Recommendation (Huawei, 2026-04-24)

关系:独立并发(本文未引用 ReCast,两者殊途同归)· 已加载对方精读

  • 共同关注的问题:两篇都直击「GRPO 的 group-relative 信号在生成式推荐里并非自动可用的学习单元」这一同构 root cause。ReCast 观测到 sparse-hit 下约 85% 的 group 是 all-zero、96% 响应零奖励——组内无正负边界、advantage 全为 0;本文 Figure 1(a) 描述的「简单样本 advantage 坍缩到 0、RM 噪声主导」是同一退化现象的另一侧切面。两篇都认定:问题不在「奖励怎么算」,而在「这个 group 能否构成可靠的 policy-improvement 信号」。
  • 相近的技术骨架:两篇都保留外层 RL 框架不动(rollout 采样 + KL/clip 三件套),只在 within-group / per-instance 层面做干预,且都用层次化 SID 的秩结构来构造诊断信号(ReCast 的结构核 $\phi$ 用三元组前缀匹配;本文的 $f_1/f_2$ 用 rank-threshold $\tau,\rho$)。
  • 本文的差异与推进——殊途同归的对立解法:面对同一个「退化 group」,ReCast 选择 repair-and-keep:all-zero 时注入 ground-truth anchor 替换掉最不 informative 的负例,把组拽回「至少一对正负」的最小可学态,再做「最强正例 + 最难 near-miss」的边界对比更新——目标是让梯度继续流动AdaGRPO 选择 gate-and-drop:当实例「太易」(策略已自信、advantage 近零)或「RM 局部不可信」时,直接 clip 掉 GRPO 项、退回纯 NLL 监督——目标是让不可靠的梯度不要流动。一个救活信号、一个掐断信号,构成一组漂亮的对照。
  • 可比的方法差异:ReCast 的触发条件是「reward 稀疏/全零」(二值 hit reward 场景),不显式处理 RM 的可信度/校准问题;AdaGRPO 的 $f_2$ 专门探测 RM 是否把 ground-truth 与干扰项分开(dense continuous reward + exposure-biased RM 场景)。换言之 ReCast 解决「信号太稀疏不可学」,AdaGRPO 解决「信号有但可能误导」。两者若结合(先 repair 救活 all-zero 组,再用 reliability 诊断 gate 掉 RM 不可信的组)可能是有意思的后续方向。

9 讨论与局限性

clip 不是 naive filtering。它只作用在 GRPO 项上,NLL 项对所有实例始终活跃——即便被 clip 的样本仍通过监督维持模型的推荐行为。clip 作用在秩分位($\lfloor\tau K\rfloor,\lfloor\rho K\rfloor$)而非绝对分数幅度,决策取决于实例在诊断池里的相对位置,是一条保守的实例级准入规则,而非「RM 正确」的证明。$f_1,f_2$ 是 policy uncertainty 与 RM discriminability 的可计算代理,存活的 clip 只表示该实例「适合一次 GRPO 更新」,并不表示 RM 被完美校准或因果对齐。该原则适用于「有监督 target、reward 信号有噪、rollout 诊断能检出局部有信息引导」的场景;缺乏 ranked 候选集、可识别 ground-truth、或有意义 in-batch 负例的领域则需要替代诊断。

局限:(1) 引入了超参 $\tau,\rho,\lambda,M$,需基于验证集调;(2) $f_2$ 对 batch composition 敏感(in-batch 负例来自同一 mini-batch);(3) 依赖 ground-truth target($f_1/f_2$ 都要 $y^\star$);(4) online 评估只在单一 production 设置、且两个实验对不同同期对照——需要跨用户分群、物品流行度、目录新鲜度的更多 A/B 才能确立更广的稳健性结论;(5) 更长训练 horizon 下 GRPO reward hacking 的稳健修法仍是开放问题(本文刻意用小 RL 训练集回避了 concept drift)。

值得借鉴的设计:把「trust region」从 ratio 域(PPO/GRPO 的 per-token clip)抬到 sample 域(per-instance 准入),是一个简洁且可解释的范式;用 rollout group 已有的统计量「免费」算诊断、不加采样开销;用「policy 不确定性 × RM 可判别性」的合取来定义「何时该信奖励」,对任何「RM 来自有偏 production 信号」的 RLHF/RL-rec 场景都有迁移价值。