← Back to list
TAWin

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

生成式推荐 Meta
Abstract — Reading 8 Rating —
2026-04-24
Wentao Shi, Qifan Wang, Chen Chen, Fei Liu, Dongfang Liu, Xu Liu, Wanli Ma, Junfeng Pan, Linhong Zhu, Fuli Feng
University of Science and Technology of China, Meta AI, Rochester Institute of Technology
形式化证明 GRPO+二值奖励=AUC、+beam-search=OPAUC,提出 WPAUC 与 Recall@K 的精确双边界以及可微 soft 窗口重加权方法 TAWin,在四个公开数据集上跨 backbone/optimizer/encoding 一致 SOTA
评分原因
精读评分:理论扎实(4 条引理 + 2 条命题 + 1 条主定理 + 完整 Appendix B-E 证明)把 GRPO/beam-search/AUC/OPAUC/WPAUC/Recall@K 串成了一条可验证的等价链;TAWin 是从 WPAUC 推出的可微 drop-in,跨 backbone/optimizer/encoding 的泛化实验充分;扣分点:无线上 A/B、单段窗口、超参较多
rl pretrained-lm academic

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

研究动机与背景

LLM-based 生成式推荐(TIGER 系、OneRec 系、BigRec/ReRe 系)正逐步替代传统的"打分式 + 重排"管线:以用户历史交互序列为 prompt,用 LLM 直接生成下一个目标 item 的 token 序列,由 trie / RQ-VAE 约束到合法 item 词表。Post-SFT 阶段越来越依赖 RL 后训练(GRPO 及其衍生 DAPO、GSPO)来直接对齐 Top-$K$ 推荐指标。

在这一套 RL 管线里,负样本是怎么生成的实质决定了 policy 朝哪个方向走。已有工作(Tan et al., 2025;Zhou et al., 2025b;Kong et al., 2025)实证报告:用 constrained beam search 解码出来的负样本进入 GRPO,比直接 constrained random sampling 有非常稳定的 Top-$K$ 提升。本文图 1(a) 在 Toys / Industrial / Office 三个数据集上做了完整复现,Beam Search 在 Recall@3 上一致优于 Random Sampling,本文方法 TAWin 进一步显著领先(约 +5-10% relative)。

Figure 1: Performance comparison and partial AUC illustration.

为什么 beam search 负样本更好这件事,过去的解释停留在"beam search 提供更 informative 的训练信号"这种信息论层面的描述,缺少能直接指导算法设计的形式化论证。本文要做的事情正是把这个 gap 补上:在 GRPO + 二值奖励 + constrained 解码这一套设定下,给"负采样分布"和"被隐式优化的排序指标"建立可验证的等价关系,并由此推出一个可控的 Top-$K$ 对齐目标。

作者给出两条核心论断:

  • Optimizing LLM-based recommenders with GRPO algorithms (Guo et al., 2025) under binary reward is theoretically equivalent to maximizing the AUC metric——但 AUC 与 Top-$K$ 指标的相关性较弱,所以默认 GRPO 不天然 Top-$K$ 对齐;
  • Incorporating hard negative items generated by beam search into GRPO shifts the objective toward One-way Partial AUC (OPAUC)——把 FPR 限制在低端,因此与 Top-$K$ 对齐变好,"hard negatives 有效"得到了机制层面的解释。

但 OPAUC 也并不完美:对每个具体 $K$,OPAUC 只是一个上界约束,没法精确控制对齐到目标 $K$ 的强度。基于此,作者提出 WPAUC(Windowed Partial AUC),把 FPR 区间从 $[0, \alpha+d]$ 收窄到一个滑动窗口 $[\alpha, \alpha+d]$,并证明 WPAUC 对 Recall@$K$ 给出比 OPAUC 严格更紧的双边界。配套的优化方法是 TAWin(Threshold-Adjusted Windowed reweight):用一个温度可控、可微的 soft Top-$K$ 算子,在 beam-search 候选负样本上做窗口化软重加权,避免"硬截断"带来的样本浪费和梯度方差。

总体框架与符号

把 LLM 推荐写成约束生成形式。对每个用户 $u$,交互历史 $H_u = \{i_1, \dots, i_n\}$ 中每个 item 用其文本(如 title)做 verbalization;目标是生成 ground-truth target $i_t$ 在受约束 item 词表 $\mathcal{I}$ 下对应的 token 序列:

$$Y = \mathcal{G}(\pi_\theta, H_u, \mathcal{I}), \quad i = \phi(Y), \tag{1}$$

其中 $\mathcal{G}$ 是约束生成策略(constrained random sampling 或 constrained beam search,详见下文),$\phi(\cdot)$ 是 token 序列到 item ID 的反序列化。两类约束生成在 Appendix A 给出形式定义:

  • Constrained Random Sampling:对当前 prefix $y_{\lt j}$,从 base LM 分布 $\pi_\theta(\cdot \mid y_{\lt j}, H_u)$ 中仅在合法下一 token 集合 $\mathcal{A}(y_{\lt j}; \mathcal{I})$ 上重归一化采样;
  • Constrained Beam Search:维护宽度为 $B$ 的 beam,每步只在合法 token 上扩展,按累计 log-likelihood $h_\theta(y_{1:j}; H_u) = \sum_{t=1}^{j} \log \pi_\theta(y_t \mid y_{\lt t}, H_u)$ 选 Top-$B$,最终返回 $B$ 条完整序列。详细伪码见原文 Algorithm 1。

GRPO 阶段为每个 prompt 采样 $G$ 个候选 $\{i_m\}_{m=1}^G$,按规则性奖励

$$R_\text{rule}(i_m, i_t) = \begin{cases} 1, & \text{if } i_m = i_t \\ 0, & \text{otherwise} \end{cases} \tag{2}$$

打分。组内归一化得到 token-level advantage $\hat{A}_{m,j} = (r_m - \text{mean}) / \text{std}$,用 PPO clip 替代损失更新(忽略 KL 正则项):

$$\mathcal{J}(\theta) = \mathbb{E}_{H_u, \{i_m\}\sim \pi_\text{old}(\cdot\mid H_u)}\Bigl[\frac{1}{G}\sum_{m=1}^G \frac{1}{|Y_m|}\sum_{j=1}^{|Y_m|} \min(\rho_{m,j,u} \hat{A}_{m,j}, \text{clip}(\rho_{m,j,u}, 1-\epsilon, 1+\epsilon)\hat{A}_{m,j})\Bigr], \tag{3}$$

其中 $\rho_{m,j,u} = \pi_\theta(y_{m,j}|y_{m,\lt j}, H_u) / \pi_\text{old}(y_{m,j}|y_{m,\lt j}, H_u)$。整个训练流程的示意见图 2:rollout 由 LLM 通过 random / beam 解码产出,进 rule-based reward → GRPO 更新。Random sampling 隐式优化 AUC;beam search 把 OPAUC 提上来;TAWin 在 beam-search 候选上加上窗口化重加权,进一步把 WPAUC 提上来。

Figure 2: Overview of GRPO training for LLM-based recommenders, showing how negative sampling strategy implicitly determines the optimization target.

AUC、OPAUC 与 WPAUC 的精确定义

对用户 $u$,设正例集 $\mathcal{I}_u^+$、负例集 $\mathcal{I}_u^-$($n^- = |\mathcal{I}_u^-|$),item $i$ 的预测分数

$$f_{u,i} = \prod_{j=1}^{|Y|} \pi_\theta(y_j \mid y_{\lt j}, H_u), \quad i = \phi(Y) \tag{5}$$

即受约束生成下整个 token 序列的联合概率。

AUC(标准定义):

$$\text{AUC} = \Pr_{i^+ \sim \mathcal{I}_u^+, i^- \sim \mathcal{I}_u^-}[f_{u,i^+} \gt f_{u,i^-}]. \tag{4}$$

OPAUC $(\alpha+d)$:把负样本限制在分数最高的 $\alpha + d$ 分位(即 FPR $\leq \alpha+d$)。形式上,定义阈值 $\eta_{\alpha+d}$ 使 $\Pr_{i^- \sim \mathcal{I}_u^-}[f_{u,i^-} \geq \eta_{\alpha+d}] = \alpha + d$,仅在 $\{i^- : f_{u,i^-} \geq \eta_{\alpha+d}\}$ 上算 AUC。直观上,OPAUC 对应 ROC 曲线的左侧带状区域 $\mathbb{A} + \mathbb{B}$(图 1(b))。

WPAUC $(\alpha, d)$:把降序排好的负样本 $f_{u, i_{(1)}^-} \geq \dots \geq f_{u, i_{(n^-)}^-}$ 截出窗口

$$\mathcal{W}_u^-(\alpha, d) := \{i_{(\sigma)}^- \in \mathcal{I}_u^- : \lceil \alpha n^-\rceil \lt \sigma \leq \lceil (\alpha + d) n^-\rceil\}, \tag{11}$$

WPAUC 就是只在该窗口与正例之间算 AUC:

$$\text{WPAUC}_u(\alpha, d) = \Pr_{i^+ \sim \mathcal{I}_u^+, i^- \sim \mathcal{W}_u^-(\alpha, d)}[f_{u,i^+} \gt f_{u,i^-}]. \tag{12}$$

OPAUC 和 AUC 都是 WPAUC 的特例:$\text{OPAUC}(\alpha+d) = \text{WPAUC}(0, \alpha+d)$,$\text{AUC} = \text{WPAUC}(0, 1)$。WPAUC 对应 ROC 曲线上的窗口区域 $\mathbb{B}$(图 1(b))。

核心理论:负采样如何隐式塑形 GRPO 目标

Lemma 3.1:GRPO 的 pairwise 重写

陈述:在 binary reward 与 constrained random sampling 假设下,GRPO 目标 $\mathcal{J}(\theta)$(公式 3)可以重写为:

$$\mathcal{J}(\theta) = \mathbb{E}_{H_u}\sqrt{p(H_u)(1 - p(H_u))} \cdot \mathbb{E}_{Y^+ \sim \pi^+_\text{old}, Y^- \sim \pi^-_\text{old}}[s_\theta^+(Y^+, H_u) - s_\theta^-(Y^-, H_u)], \tag{7}$$

其中 $p(H_u) := \Pr_{Y \sim \pi_\text{old}(\cdot|H_u)}[r(Y \mid H_u) = 1]$,$\pi^+_\text{old}$ / $\pi^-_\text{old}$ 是 old policy 在产生正 / 负 rollout 条件下的条件分布,

$$s_\theta^\pm(Y^\pm, H_u) := \frac{1}{|Y|}\sum_{j=1}^{|Y|}\begin{cases}\min(\rho_{j,u}, 1+\epsilon), & (+) \\ \max(\rho_{j,u}, 1-\epsilon), & (-)\end{cases} \tag{8}$$

是 token-level 的 clipped 似然比。

完整证明在 Appendix B。证明的关键步骤:population-normalized advantage 把 $\hat{A}_{m,j}$ 写成 $r_m \mapsto \pm\sqrt{(1-p)/p}$ / $\mp\sqrt{p/(1-p)}$ 的两种形态,再分别在正例 / 负例事件上拆开期望,最终把 GRPO 写成"正例 token-clipped 推力"减去"负例 token-clipped 推力"。

直观解释:GRPO + 二值奖励的本质是正负样本之间的 token-level pairwise push。每一步训练都在让正样本的 likelihood 比负样本更高一点,对应 AUC 视角下的"pairwise concordance"目标。

从 sequence-level 到 item-level

把 sequence 通过 $\phi$ 映射回 item:$i^+ = \phi(Y^+)$,$i^- = \phi(Y^-)$。注意到 $s_\theta^+$ 和 $s_\theta^-$ 在对应的 item score $f_{u,i^+}$、$f_{u,i^-}$ 上是单调非减的,因此 GRPO 的方向梯度等价于一个 item-level pairwise ranking push

$$\Pr_{i^+ \sim \mathcal{I}_u^+, i^- \sim \mathbb{P}_\text{neg}(\cdot|u)}[f_{u,i^+} \gt f_{u,i^-}], \tag{9}$$

其中 $\mathbb{P}_\text{neg}(\cdot \mid u)$ 是由解码策略决定的隐式负采样分布:换 random / beam,就换了 $\mathbb{P}_\text{neg}$,从而换了被隐式优化的排序目标。这是本文整套理论的支点:RL 解码策略 $\Leftrightarrow$ 负采样分布 $\Leftrightarrow$ 被隐式优化的排序目标

Lemma 3.2:Beam Search 等价于 hard-negative quantile 采样

陈述:在 beam width $B \to \infty$ 的极限下,constrained beam search 恰好等价于"按 $f_{u,i^-}$ 排序后取前 $\eta_{\alpha+d}$ 分位数"——即从

$$\mathcal{Q}_u^-(\alpha + d) = \{i^- \in \mathcal{I}_u^- : f_{u, i^-} \geq \eta_{\alpha+d}\} \tag{10}$$

中均匀采样负例。

证明在 Appendix C。核心论证:约束生成下,item score $f_{u,i}$ 等于受约束 token 序列的联合概率(公式 44);当 $B$ 足够大时,beam search 在每一深度都保留所有合法 prefix,最终返回的 Top-$K$ completed sequences 严格按 $f_{u,i}$ 排序。

实践解读:有限 $B$ 时是近似——beam 越宽越接近"取最高分负样本",但即使中等 $B$,beam search 也明显偏向 $f_{u,i^-}$ 高端,这与"hard negative mining"的直觉吻合。关键 takeaway 是:beam search 不是均匀负采样,它有强烈的 high-score 偏置

Proposition 3.3:GRPO + beam search = OPAUC

把 Lemma 3.2 的 $\mathbb{P}_\text{hard}(\cdot \mid u) = \text{Uniform}(\mathcal{Q}_u^-(\alpha + d))$ 代入 Lemma 3.1 的 pairwise objective(公式 9):

$$\Pr_{i^+ \sim \mathcal{I}_u^+, i^- \sim \mathbb{P}_\text{hard}(\cdot|u)}[f_{u,i^+} \gt f_{u,i^-}].$$

由 OPAUC 的定义(仅在 $f_{u, i^-} \geq \eta_{\alpha+d}$ 的负样本上算 pairwise rank),这正是 $\text{OPAUC}(\alpha + d)$。证明在 Appendix D。

至此第一个核心理论叙事闭合

  • Random sampling → 隐式 AUC;
  • Beam search → 隐式 OPAUC($\alpha + d = K / n^-$ 时即 Top-$K$ 邻域)。

对 Top-$K$ 对齐的意义:Shi et al. (2023) 已经证明 OPAUC 与 Top-$K$ 排序的相关性比 AUC 强(因为 Top-$K$ 错排只发生在 ROC 曲线左侧)。所以 beam search 的优势不是"信息更多",而是它把 GRPO 的目标从 AUC 切换到了一个 Top-$K$ 对齐更好的 partial-AUC 子目标

WPAUC:从上界到窗口的精度提升

设计动机

OPAUC 把 FPR 限制在 $[0, \alpha + d]$ 这种"前缀"形态——它给出的是"FPR 不超过 $\alpha+d$"这一上界约束。对每个具体的 Top-$K$(即每个具体的 $\alpha + d = K / n^-$ ),上界并不是一个紧约束。本文的关键洞察是:用一个滑动窗口 $[\alpha, \alpha + d]$ 替代前缀,能更精确地刻画"我希望优化的那段 ROC"。

Theorem 3.4:WPAUC 给出更紧的 Recall@K 双边界

设有 $n^+$ 个正例、$n^-$ 个负例($n^+ \lt K$,$n^- \gt K$),任意打分函数 $f$ 排序。取

$$\alpha = \frac{K - n^+}{n^-}, \quad d = \frac{n^+}{n^-}, \tag{13}$$

则有:

$$\frac{\lceil n^+(1 - \sqrt{1-w})\rceil}{n^+} \leq \text{Recall@}K \leq \frac{\lfloor n^+ \sqrt{w}\rfloor}{n^+}, \tag{14}$$

其中 $w = \text{WPAUC}(\alpha, d)$。对同一 $K$,公式 (14) 的区间严格紧于由 OPAUC$(\alpha + d)$ 给出的对应边界(证明在 Appendix E)。

证明的几何意象:把 ranks 中的"top-$K$ prefix"分成"上界硬负 $\mathcal{H}^-$"(rank $1 \dots K-n$)和"窗口负 $\mathcal{W}^-$"(rank $K-n+1 \dots K$)。OPAUC 是这两块的混合统计 $\text{OPAUC}(\alpha+d) = (K-n)/K \cdot A + n/K \cdot B$,其中 $B = \text{WPAUC}(\alpha, d)$。给定 OPAUC $= o$,$B$ 只能被定位到一个非退化区间 $[o, \min(1, K \cdot o / n)]$,因此基于 OPAUC 推 Recall@$K$ 必须对 $B$ 的不确定性兜底;而直接用 $B$(即 WPAUC)则没有这个不确定性,区间自然更紧。

Lemma 3.5:单正例时 WPAUC = Recall@K

更极端的情况:用户只有一个正例 $i^+$,$K \geq 2$,取 $\alpha = (K-1)/n^-$、$d = 1/n^-$(窗口宽度恰好为一个负样本),则

$$\text{WPAUC}(\alpha, d) = \text{Recall@}K. \tag{15}$$

这条引理把 WPAUC 直接锚到了 Recall@$K$ 上:在单正例(typical next-item recommendation)下,TAWin 优化 WPAUC 就是在直接优化 Recall@$K$,等价关系而非近似。

实证验证:Top-K 与 WPAUC 的相关性

为了验证 Theorem 3.4 的 Top-$K$ 对齐效果,作者做了 Monte Carlo 模拟:每次生成 10 个正例 + 200 个负例的随机排序,遍历 $(\alpha, d) \in [0, 1]^2$ 网格,对 $K \in \{5, 10, 20\}$ 三种情况计算 Recall@$K$ 与 WPAUC$(\alpha, d)$ 在 10000 次试验上的 Pearson 相关系数。结果见图 3:

Figure 3: Pearson correlation between Recall@K and WPAUC(α, d), for K∈{5, 10, 20}.

观察到两条规律:

  • 对每个固定 $K$,相关系数在某个 $(\alpha, d)$ 处取得最大值(红星),最大相关系数 0.9462 / 0.9615 / 0.9647($K=5,10,20$),均接近 1;
  • 最大值随 $K$ 单调右移:$K$ 越大,最优 $\alpha$ 越大(即窗口起点越深入低分负例尾),$d$ 大致稳定。这与 Theorem 3.4 完全一致。

这说明 WPAUC$(\alpha, d)$ 是一个可以通过参数选择对齐到具体 $K$ 的可控替代指标——比 OPAUC 多了一个"窗口起点"的控制旋钮。

TAWin:可微的 soft 窗口重加权

为什么需要 soft

WPAUC 的 RL 实现的"硬法"是对 beam-search 候选做 hard 截断,只保留落在窗口 $[\alpha, \alpha+d]$ 内的负样本。这在工程上有两个明显问题: 1. 样本浪费:rollout 是昂贵的(单条候选需要 $L \times G$ 次 LLM forward),硬丢弃落在窗口外的样本意味着大量 RL 计算被浪费; 2. 梯度方差:截断是不连续的,候选样本是否被纳入更新会随分数微小变化突变,造成梯度方差爆炸,训练不稳。

TAWin 的设计目标因此是:用一个温度可控的 soft 窗口算子,在 rollout 出来的所有 beam 候选上构造一组连续权重,既保留窗口的 inductive bias,又不丢弃样本、不引入硬截断。

Soft Top-K 选择算子

记候选向量 $x \in \mathbb{R}^n$。Hard Top-$K$ 算子 $T_K(x) \in \{0,1\}^n$ 是 $K$-hot indicator。Soft Top-$K$ 算子 $S_{K,\tau}(x) \in [0,1]^n$ 满足:

$$\Delta_K^{n-1} := \{p \in [0,1]^n : \sum_{i=1}^n p_i = K\}. \tag{16}$$

要求两条性质:(i) 单调性:$x_i \geq x_j \Rightarrow [S_{K,\tau}(x)]_i \geq [S_{K,\tau}(x)]_j$;(ii) 一致性:$\lim_{\tau \to 0^+} S_{K,\tau}(x) = T_K(x)$(温度趋零退化为硬 Top-$K$)。

按 Su (2024) 的 clipped exponential 实例化:

$$\mathcal{T}_{K,\tau}(x) := \min\Bigl(\mathbf{1}, \exp\bigl(\frac{x - \lambda(x)\mathbf{1}}{\tau}\bigr)\Bigr), \quad \text{s.t.} \sum_i \mathcal{T}_{K,\tau}(x)_i = K, \tag{17}$$

其中阈值 $\lambda(x)$ 唯一确定整体质量为 $K$。把 $x$ 排序 $x_{(1)} \geq \dots \geq x_{(n)}$,存在一个 $m \lt K$ 使 $x_{(m)} \geq \lambda \geq x_{(m+1)}$,此时闭式解:

$$\lambda(x) = \tau \log\Bigl(\sum_{i=m+1}^{n}\exp(\tfrac{x_{(i)}}{\tau})\Bigr) - \tau \log(K - m), \tag{18}$$

通过对 $m \in \{0, \dots, K-1\}$ 短扫描即可定位 $m$。当 $\tau \to 0^+$,$\mathcal{T}_{K,\tau}$ 趋近于硬 Top-$K$ 选择器。

TAWin 的窗口构造

对 user $u$ 的 beam-search 候选负样本 $\mathcal{Y}_u^- = \{Y_1, \dots, Y_n\}$($n$ 是候选数,对应实验中 $n = 16$),按模型得分 $f$ 升序映射到 rank $\sigma_u(Y) \in \{1, \dots, n\}$(得分越高 rank 越小)。归一化 rank $\tilde{\sigma}(\sigma) := (\sigma - 1)/(n - 1) \in [0,1]$,并设一个目标窗口的低 FPR 边界 anchor $\sigma_*$(对应 WPAUC 中的 $\alpha$)。

每个候选基于 rank 距离 anchor 的距离,得到 logit:

$$x_u(Y) := -|\tilde{\sigma}(\sigma_u(Y)) - \tilde{\sigma}(\sigma_*)|. \tag{19}$$

距离 anchor 越近 logit 越大。把所有候选的 logits 喂进 soft Top-$K$ 算子:

$$w_u = \mathcal{T}_{K,\tau}([x_u(Y_1), \dots, x_u(Y_G)]). \tag{20}$$

这里 $K$ 控制窗口宽度(对应 WPAUC 中的 $d$),$\sigma_*$ 控制窗口起点(对应 $\alpha$)。$\tau \to 0^+$ 时 $w_u$ 退化为硬窗口选择器;$\tau$ 大则平滑过渡。

最终权重函数:

$$\omega_u(Y) = \begin{cases} 1, & Y \in \mathcal{Y}_u^+ \\ \text{Rescale}(w_u)_{\sigma_u(Y)}, & Y \in \mathcal{Y}_u^- \end{cases} \tag{21}$$

其中 $\text{Rescale}(w_u)_\sigma = n \cdot w_{u,\sigma} / \sum_{\sigma'=1}^{n} w_{u, \sigma'}$ 做 mass normalization 保证总权重不变。正样本权重恒为 1,所有窗口塑形只发生在负样本上。详细伪码见 Appendix F 的 Algorithm 2。

TAWin 的 RL 目标

把 $\omega_u(Y_m)$ 作为 sequence-level reweighting,乘进 GRPO 的 PPO clipped 目标:

$$\mathcal{J}_\text{TAWin}(\theta) = \mathbb{E}_{H_u, Y_m}\Bigl[\frac{1}{n}\sum_{m=1}^{n}\omega_u(Y_m) \cdot \frac{1}{|Y_m|}\sum_{j=1}^{|Y_m|} \min\bigl(\rho_{m,j,u}\hat{A}_{m,j}, \text{clip}(\rho_{m,j,u}, 1-\epsilon, 1+\epsilon)\hat{A}_{m,j}\bigr)\Bigr], \tag{22}$$

其中 $\rho_{m,j,u}$ 同 GRPO。形式上 TAWin 是 GRPO 的一个 drop-in:rollout 与外层 KL 不动,只把 advantage 乘了一个 user-side 计算出的 token-invariant reweighting 系数。这个 reweighting 唯一目的是让 RL 把"概率质量"重点搬到目标 Top-$K$ 窗口对应的负样本对照上去。

实验设置

数据集:四个真实公开数据集——Amazon Review (Lakkaraju et al., 2013) 的 Toys / Industrial / Office 三个子类目,以及 Yelp (2021)。预处理沿用 Tan et al. (2025):固定时间窗(Toys/Office 2016-10 至 2018-11,Industrial 1996-10 至 2018-11,Yelp 2021),过滤掉缺失/低质量元数据 item,迭代 $K=5$ core filtering,sliding window 取最多 10 个历史 item,按时间戳 8:1:1 分 train/valid/test。Dataset 统计如下:

Datasets Toys Industrial Office Yelp
Items 11,252 3,685 3,459 8,785
Train 112,754 36,259 38,924 77,097
Valid 14,095 4,532 4,866 9,637
Test 14,095 4,533 4,866 9,638

注意"Industrial"是 Amazon 的 Industrial & Scientific 子类目,不是工业部署数据——本文没有线上 A/B 实验。

指标:Recall@$K$(R@$K$)和 Normalized Discounted Cumulative Gain(N@$K$),其中 $K \in \{1, 3\}$。Top-$K$ 列表通过 constrained beam search 在 $\pi_\theta$ 上生成 $\mathcal{R}_u^K = \{\phi(Y_1), \dots, \phi(Y_K)\}$ 后按 model likelihood 排序得到。

Baselines 三大类:

  • 传统序列推荐:GRU4Rec、Caser、SASRec;
  • 生成式推荐:TIGER、LC-Rec、MiniOneRec;
  • LLM-based 推荐:BigRec、D3、S-DPO、ReRe。

实现细节:所有 LLM-based recommender(含 TAWin)都用 Qwen2.5-0.5B 作 backbone。SFT 用 lr $3 \times 10^{-4}$、AdamW,最多 10 epochs early stopping。RL 阶段 lr $1 \times 10^{-5}$、batch size 512、$n = 16$ 候选、KL 系数 $\beta = 1 \times 10^{-3}$、训练 2 epochs(从 vanilla Qwen2.5-0.5B SFT checkpoint 初始化)。TAWin 自身超参:$K \in \{1, 2\}$、$\tau \in \{1/2, 1/3, 1/4, 1/5, 1/6\}$、anchor $\sigma_* \in \{0, 1, 2\}$,全网格搜索。硬件 8× H800。

主要实验结果(RQ1)

Table 1 是四个数据集 × $K \in \{1, 3\}$ 的完整 SOTA 对比。

Method Toys R@1 Toys R@3 Toys N@3 Industrial R@1 Industrial R@3 Industrial N@3 Office R@1 Office R@3 Office N@3 Yelp R@1 Yelp R@3 Yelp N@3
GRU4Rec 0.0090 0.0169 0.0135 0.0461 0.0657 0.0576 0.0384 0.0631 0.0529 0.0074 0.0164 0.0125
Caser 0.0125 0.0219 0.0180 0.0371 0.0624 0.0523 0.0450 0.0734 0.0614 0.0079 0.0217 0.0158
SASRec 0.0216 0.0359 0.0298 0.0567 0.0761 0.0682 0.0641 0.0923 0.0807 0.0074 0.0175 0.0133
TIGER 0.0224 0.0383 0.0305 0.0632 0.0852 0.0742 0.0624 0.0986 0.0852 0.0068 0.0154 0.0113
LC-Rec 0.0253 0.0406 0.0341 0.0727 0.0986 0.0877 0.0900 0.1196 0.1074 0.0094 0.0174 0.0140
MiniOneRec 0.0271 0.0458 0.0378 0.0831 0.1100 0.0990 0.0972 0.1219 0.1137 0.006 0.0163 0.0120
BigRec 0.0329 0.0510 0.0433 0.0732 0.1012 0.0895 0.0861 0.1201 0.1048 0.0092 0.0187 0.0148
D3 0.0371 0.0612 0.0512 0.0810 0.1103 0.0980 0.0810 0.1204 0.1040 0.0120 0.0309 0.0228
S-DPO 0.0275 0.0534 0.0449 0.0635 0.1032 0.0906 0.0390 0.1169 0.1033 0.0189 0.0342 0.0395
ReRe 0.0411 0.0709 0.0583 0.0783 0.1184 0.1115 0.0830 0.1304 0.1115 0.0206 0.0360 0.0295
TAWin 0.0471 0.0761 0.0639 0.0904 0.1237 0.1099 0.0961 0.1341 0.1187 0.0227 0.0370 0.0301

主要观察:

  • TAWin 全表 SOTA:在所有 4 数据集 × 3 指标共 12 项 cell 上均是最佳,相对 LLM-based 类 baseline(BigRec / D3 / S-DPO / ReRe)平均提升约 5.5%,相对生成式 baseline 类平均 +52%,相对传统序列模型 +84.9%。
  • LLM-based > 生成式 > 传统:分层规律稳定,作者归因于 LLM 自带的语义先验和世界知识增强了 user interest modeling。
  • RL 优于 SFT:MiniOneRec(含 RL)vs TIGER(SFT)平均 +22.6%;TAWin vs BigRec(SFT)平均 +49.4%。这与原文叙事一致——RL 显式建模相对偏好,比 likelihood-based SFT 与推荐目标对齐更好。

TAWin 的 Top-K 控制机制(RQ2)

Anchor σ* 的单峰行为

图 4 在 Industrial / Office 两个数据集上扫描 anchor $\sigma_* \in \{0, 1, ..., 8\}$,画出 R@1 / R@3 / R@5 三条曲线(相对最佳值的 100% 归一化)。

Figure 4: TAWin sensitivity to anchor σ_*. Each curve shows a unimodal trend, with optimal σ_* shifting upward as target K grows.

两条关键观察:

  • 对每条 R@$K$ 曲线,相对性能随 $\sigma_*$ 都是 unimodal 的:anchor 太小(窗口起点压在 ROC 顶端)和太大(窗口太靠后、丢失对正例的对比)都会损失性能;
  • 最优 anchor 随 $K$ 增大而右移:R@1 在 $\sigma_* = 1$(Industrial)或 $\sigma_* = 0$(Office)取峰;R@5 在 $\sigma_* = 6$ 或 $\sigma_* = 4$ 取峰。这与 Theorem 3.4 的"最优 $\alpha$ 随 $K$ 单调增"完全吻合,说明 TAWin 真的可以通过超参控制具体目标 $K$ 的对齐

这是本文区别于其他 hard-negative 方法的关键 demo——不仅"hard 一点更好",而是"窗口位置可调",提供了显式 Top-$K$ 控制旋钮。

泛化性分析(RQ3)

Backbone 泛化

图 5 在 Industrial / Office 上对比 ReRe vs TAWin,覆盖 Qwen2.5-0.5B/3B/7B 与 Llama-3.2-1B 四种 backbone。TAWin 在所有 backbone 上都超过 ReRe,且差距随模型规模并不衰减——说明窗口塑形是 model-agnostic 的,并具备一定的 scaling 友好性。

Optimizer 泛化

Table 2 把 GRPO 换成 DAPO 和 GSPO 重做实验:

Algorithm Method Toys R@1 Toys R@3 Toys N@3 Industrial R@1 Industrial R@3 Industrial N@3 Office R@1 Office R@3 Office N@3
DAPO ReRe 0.0416 0.0711 0.0588 0.0814 0.1202 0.1039 0.0832 0.1276 0.1098
DAPO TAWin 0.0471 0.0737 0.0626 0.0875 0.1248 0.1089 0.0910 0.1317 0.1149
GSPO ReRe 0.0404 0.0717 0.0585 0.0736 0.1166 0.0988 0.0816 0.1284 0.1094
GSPO TAWin 0.0463 0.0750 0.0631 0.0867 0.1224 0.1073 0.9556 0.1305 0.1163

(Office DAPO 行的 0.9556 看起来是排版异常;其余 cell TAWin 全部领先。)

DAPO 和 GSPO 都是 GRPO 衍生的 RL 优化器,本身仍属"组内归一化 + 似然比 clip"框架。Lemma 3.1 的 pairwise 重写对它们也成立,因此 TAWin 的窗口塑形可以平移,结果一致优于 ReRe。

Item-encoding 泛化

Table 3 把 TAWin 应用到 MiniOneRec 的 SID-based 编码上(标记为 MiniOneRec-TAWin),对比 MiniOneRec 自身的 SFT 与 GRPO 训练:

Dataset Method R@1 R@3 N@3
Industrial MiniOneRec - SFT 0.0726 0.0986 0.0877
Industrial MiniOneRec - GRPO 0.0831 0.1100 0.0989
Industrial MiniOneRec - TAWin 0.0862 0.1158 0.1033
Office MiniOneRec - SFT 0.0900 0.1196 0.1074
Office MiniOneRec - GRPO 0.0969 0.1325 0.1174
Office MiniOneRec - TAWin 0.0974 0.1378 0.1253

即使把底层 item 表征从 title-based 换成 semantic-ID-based,TAWin 仍在 GRPO 之上一致提升。这印证了 TAWin 的核心机制是 RL 阶段的"目标塑形",与 item encoder 无关

重加权消融:TAWin vs ReRe* (Appendix H)

文中把 ReRe 的另一种变体——ReRe* with ranking reward——也纳入了对比。Proposition H.1 形式化证明:在 one-positive-per-group 假设下,ReRe 的 ranking reward 等价于 GRPO advantage 的一个确定的 rank-dependent 重加权*:

$$\hat{A}_k = \omega_k \hat{A}_k^{(0)}, \quad \omega_t = \frac{1 - \bar{R}}{1 - 1/G}, \quad \omega_k = \frac{R_\text{rank}(e_k, e_\star) - \bar{R}}{-1/G} \quad (k \neq t). \tag{65}$$

也就是说 ReRe* 也是一种"sequence-level reweighting",但它的权重函数是 rank 的固定函数(启发式),没有显式的 Top-$K$ 对齐目标。Table 5(Appendix)显示 TAWin 在四个数据集所有指标上都打败 ReRe*:

Method Toys R@1 Toys R@3 Toys N@3 Industrial R@1 ... Yelp N@3
ReRe* 0.0442 0.0740 0.0615 0.0882 ... 0.0295
TAWin 0.0471 0.0761 0.0639 0.0904 ... 0.0301

作者的总结是:ReRe 是一个没有显式 Top-$K$ 对齐目标的启发式重加权;TAWin 是从 WPAUC 推出的有显式低 FPR 窗口对齐目标的可微重加权*。两者的实验差异印证了"有理论根据的目标塑形"优于"启发式 rank-based reweighting"。

核心贡献总结

  1. Theoretical Analysis(机制层面):首次形式化证明 binary-reward GRPO + constrained random sampling 等价于 AUC 最大化(Lemma 3.1);beam-search 把 GRPO 的隐式目标从 AUC 推到 OPAUC(Proposition 3.3)。这是"hard negatives 为什么有效"的第一性原理解释。

  2. Methodological Innovation(指标设计):提出 WPAUC$(\alpha, d)$,用滑动窗口替换前缀,证明它对 Recall@$K$ 给出严格更紧的双边界(Theorem 3.4),并在单正例时与 Recall@$K$ 完全等价(Lemma 3.5)。

  3. Practical Algorithm(可微实现):提出 TAWin,用 Su (2024) 的 clipped exponential soft Top-$K$ 算子在 beam-search 候选上构造连续窗口权重,避免硬截断带来的样本浪费和梯度方差。是一个 plug-in 的 GRPO drop-in,跨 backbone(0.5B–7B)、跨 RL optimizer(GRPO/DAPO/GSPO)、跨 item encoding(title / semantic ID)一致有效。

  4. Empirical Validation:在 Toys / Industrial / Office / Yelp 四个数据集上全面 SOTA,对 ReRe(最强 LLM-based baseline)平均 +5.5%,对生成式类平均 +52%。Anchor $\sigma_*$ 的扫描实验直接验证了 Theorem 3.4 的"最优 $\alpha$ 随 $K$ 单调右移"预测。

与已归档相关工作的对比

ReCast ReCast: Recasting Learning Signals for RL in Generative Recommendation (Huawei, 2026-04-24)

关系:独立并发(同一日发布,互不引用)· 已加载对方精读

  • 共同关注的问题:两篇都把矛头对准 GRPO 在 LLM-based 生成式推荐 RL 阶段within-group signal 与 Top-$K$ 推荐目标对齐不足这一 root cause。两篇都接受 outer RL 框架(KL 正则 + clipped policy gradient)不动,只重构组内的 advantage / weight 构造作为 plug-in。
  • 相近的技术骨架:两篇都把 GRPO 的"全组 reward 归一化"重写成一个对正负样本子集做差异化重加权的形式,从而显式控制学习信号的"形状"。技术骨架抽象出来都是「对 rollout 候选做选择性 reweight」。
  • 差异化的诊断 root cause:本文(TAWin)认为问题出在 decoding-induced negative sampling distribution(被隐式优化的排序指标是 AUC 而不是 Top-$K$),于是把"窗口位置"作为可调旋钮;ReCast 认为问题出在 group-level learnability degeneracy(85% group 全零、13% 单 hit),于是把"先用 ground-truth anchor 修复组、再做最强正 vs 最难负的边界对比"作为机制。
  • 本文的差异与推进:TAWin 提供了 WPAUC ↔ Recall@$K$ 的精确指标层等价(Theorem 3.4 + Lemma 3.5),有"窗口位置控制 Top-$K$"的可解释 hyperparameter ($\sigma_*$, $K$, $\tau$);ReCast 强调的是"搜索宽度 $G$ 与 actor 更新宽度解耦"的 cost-efficiency 视角,更面向 sparse-hit 场景的 sample budget 优化。两者实质上是同一类问题(GRPO 的 within-group signal 设计)的两个互补正交角度。
  • 可比的方法 / 实验差异:TAWin 用 4 个 Amazon/Yelp 公开数据集 + Qwen2.5-0.5B/3B/7B 全 grid;ReCast 用 OpenOneRec 设置(不同的开放生成推荐管线)。两文使用的"strongest LLM-based baseline"也分别是 ReRe 和 OpenOneRec,没有直接 head-to-head;可以预期两种思路联用(先 ReCast 修组 + 再 TAWin 加窗口 reweight)会产生进一步增益。

讨论与局限性

值得借鉴的设计

  • "RL 解码策略 ↔ 隐式负采样分布 ↔ 被隐式优化的排序指标"这一三元等价是非常清晰的分析框架,可以推广到任何 sample-based RL post-training(不只是推荐),帮助回答"为什么换 sampler 就能改性能"。
  • WPAUC 是一个被低估的指标设计:把"前缀"换成"窗口"看似 trivial,但带来了 Recall@$K$ 的精确锚定。在任何需要"对齐特定阈值或 cutoff"的场景下都值得套用(如 retrieval 的 P@K、广告的 CTR 阈值等)。
  • TAWin 的 "soft Top-$K$ 算子做 reweighting" 模式,与 ReCast 的 "anchor 注入修复 + 边界对比" 模式,都示范了 GRPO 之上的"sequence-level reweighting drop-in"是性价比极高的改造点。

局限

  • 没有线上 A/B 实验:所有实验都在 Amazon Review / Yelp 公开数据集上,"Industrial"是 Amazon 子类目而非真实工业部署。LLM-based 推荐在工业环境的延迟、吞吐、长 tail 表现没有验证。
  • backbone 仅到 7B:没有探索 30B+ 规模上 TAWin 是否仍有同等增益;soft Top-$K$ 算子在大候选数 $n$ 下的稳定性也未细测。
  • 超参较多:TAWin 引入 $K$ / $\sigma_*$ / $\tau$ 三个新超参,需 grid search。Theorem 3.4 提供了 $\sigma_*$ 随 $K$ 单调右移的方向性指引,但还没有给出闭式最优值。
  • 窗口形态是单段:实际 ROC 曲线上可能存在多段感兴趣区域(如同时关注 R@1 和 R@10),单窗口塑形难以同时对齐。多窗口 / 加权窗口是自然的扩展。
  • 理论建立在 $B \to \infty$ 极限:Lemma 3.2 的"beam search = top-$d$ quantile"在有限 $B$ 下只是近似,论文没有给出有限 $B$ 下的非渐近误差界。

与 OPAUC 系列工作的关系:本文站在 Shi et al. (2023, 2024) 的"OPAUC 与 Top-$K$ 对齐"以及 Yang et al. (2019, 2021, 2022) 的 partial AUC 优化工作之上。WPAUC 可以看作是把"上界约束"细化为"区间约束"的自然下一步,对比 SVM_PAUC^tight、TPAUC、Lower-Left Partial AUC 等工作,本文最大的新意在于把它精确套到了 LLM-based RL 推荐的 GRPO 设定下,并用 soft Top-$K$ 算子给出了第一个可微高效的实现。