1. 研究背景与动机¶
多模态序列推荐(Multimodal Sequential Recommendation, MSR)利用图像、标题等多模态信号建模用户兴趣演化。近期研究尝试将 Group Relative Policy Optimization (GRPO) 引入 LLM-based 推荐系统以提升推理与偏好对齐能力,但将 GRPO 扩展到多模态大语言模型(MLLM)面临两个核心挑战:
挑战 1:视觉 token 带来的效率瓶颈。 如 Figure 1(a) 所示,单张图像经视觉编码后产生约 196 个 visual token,token 总数随历史长度和候选集大小线性增长,使 GRPO 的 group-based rollout 计算代价极高。而视觉 token 相比纯文本模型的增益有限,成本却显著增加。
挑战 2:CoT 数据的奖励膨胀(Reward Inflation)。 现有 CoT 监督方法中,数据构建可能无意引入与目标物品相关的信号(标签泄漏),导致训练奖励虚高但测试时 HR 和 NDCG 反而下降(Figure 1(b)),模型走捷径学习而非真正推理。
2. 方法:MLLMRec-R1¶
MLLMRec-R1 是一个高效稳定的 GRPO 推理框架,包含三个核心模块:多模态 CoT 构建、混合粒度数据增强、轻量级奖励规则。
2.1 问题形式化¶
给定用户 $u \in \mathcal{U}$ 的交互序列 $S^u = \{v_1^u, v_2^u, \cdots, v_t^u\}$,目标是预测下一个交互物品 $v_{t+1}^u$。系统取最近 $K$ 次交互作为上下文,构建候选集 $C^u = \{v_{t+1}^u\} \cup \mathcal{N}^u$(含目标物品和采样负样本),将 $(S^u, C^u)$ 序列化为包含角色声明、最近观看列表、候选列表和输出格式约束的 instruction prompt。
训练采用两阶段范式:先 SFT 对齐指令格式,再 GRPO 强化学习优化排序能力。
2.2 SFT 阶段¶
SFT 损失为标准的最大似然:
$$\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x,y) \sim \mathcal{D}} \left[ \log \pi_\phi(y \mid x) \right] \tag{1}$$
其中 $x$ 为 instruction prompt,$y$ 为 output response。SFT 将预训练 LLM 适配为推荐指令跟随者,为后续 GRPO 提供稳定的策略初始化。
2.3 GRPO 阶段¶
GRPO 不依赖显式的 chosen-rejected 对,而是在同一 prompt 下采样一组响应 $\{o_1, o_2, \ldots, o_G\} \sim \pi_{\theta_{\text{old}}}(\cdot \mid x)$,利用组内相对优势更新策略:
$$\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{x \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(O|q)} \left\{ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left(\frac{\pi_\theta(o_{i,t} \mid x, o_{i,\lt t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid x, o_{i,\lt t})} \hat{A}_{i,t}, \; \text{clip}\left(\frac{\pi_\theta(o_{i,t} \mid x, o_{i,\lt t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid x, o_{i,\lt t})}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_{i,t} \right) \right\} - \beta \, D_{\text{KL}}\left[\pi_\theta \| \pi_\phi\right] \tag{2}$$
其中 $\varepsilon$ 控制 PPO 式 clipping 范围,$\beta$ 加权 KL 散度正则化项(约束策略不偏离 SFT 策略 $\pi_\phi$ 过远)。Token 级优势 $\hat{A}_{i,t}$ 由序列级奖励减去组均值基线得到:
$$\hat{A}_{i,t} = r(x, o_i, y) - \frac{1}{G} \sum_{j=1}^{G} r(x, o_j, y)$$
同一序列内所有 token 共享相同的 $\hat{A}_{i,t}$。
2.4 多模态 Chain-of-Thought (MCoT) 构建¶
核心思路:离线将视觉信号压缩为文本,避免在线阶段昂贵的 visual token 计算,同时保留多模态语义增益。Pipeline 分三步(Figure 2):
Step 1: Caption 生成。 使用 MLLM(如 Qwen-VL)为每个物品 $v$ 的封面图 $I_v$ 和标题 $T_v$ 生成细粒度文本描述:
$$c_v \sim p_\theta(c \mid m_v) = p_\theta(c \mid I_v, t_v) \tag{3}$$
Caption 要求视觉接地(visually grounded)、不超过 50 词、不重复标题。
Step 2: Pseudo-CoT 构建。 给定用户历史的多模态上下文 $\{m_{v_1^u}, m_{v_2^u}, \ldots, m_{v_t^u}\}$(不包含目标物品信息),利用 MLLM 按结构化步骤约束生成 pseudo-CoT:
$$r^u \sim p_\theta\left(r \mid m_{v_{i,t}^u}, \Omega_{\text{step}}\right) \tag{4}$$
步骤包括:提取偏好信号 -> 推断偏好模式 -> 提出候选 -> 总结。Pseudo-CoT 不用于最终训练,而是作为"模态桥接"步骤,将多模态信息组织为文本化推理轨迹。
Step 3: CoT Refinement。 将 caption 和 pseudo-CoT 输入更强的纯文本推理模型 DeepSeek-R1 进行精炼:
$$\tilde{r}^u \sim p_\delta\left(\tilde{r} \mid c_{v_{i,t}^u}, r^u, \Omega_{\text{step}}\right) \tag{5}$$
精炼过程中不暴露目标物品信息,避免事后归因式的"解释"。精炼后的 CoT 具有更强的推理深度和多模态偏好挖掘能力。
关于 CoT 构建的定位: 作者明确强调,MCoT 数据构建不是唯一或最优方案,而是作为 GRPO 式后训练的关键前置条件——为 RL 训练提供高质量监督信号。
2.5 混合粒度数据增强(Mixed-grained Data Augmentation, MDA)¶
MDA 通过两重一致性过滤筛选高质量 CoT 样本,减少 GRPO 更新中的噪声梯度:
模态一致性(Modality Consistency): 对用户历史中每个交互物品 $v$,将其多模态输入 $m_v = \{I_v, T_v\}$ 映射为语义嵌入 $e_v$,文本嵌入 $z_{c_v^u}$,计算标题-图像对的平均余弦相似度:
$$s_u' = \frac{1}{t} \sum_{i=1}^{t} \text{sim}\left(\mathbf{e}_{c_{v_i^u}}, \mathbf{z}_{c_{v_i^u}^u}\right) \tag{6}$$
较低的模态一致性意味着标题歧义、视觉噪声或跨模态不匹配。
预测一致性(Prediction Consistency): 将精炼 CoT 中预测的下一物品 profile $\hat{p}^u$ 编码为文本嵌入 $\mathbf{r}^u = f_m(\hat{p}^u)$,与目标物品嵌入计算相似度:
$$s_u'' = \text{sim}(\mathbf{z}_{v_{t+1}^u}, \mathbf{r}^u)$$
若预测的 next-item profile 与实际目标不一致,说明 CoT 推理链低质量。
两个信号通过 sigmoid 组合为序列级分数:
$$\tau_p = \text{Quantile}\left(\{s_u\}_{u \in \mathcal{U}}, p\right), \quad s_u = \sigma(s_u' + s_u'') \tag{7}$$
按 retention ratio $p$ 取分位数阈值 $\tau_p$,分数高于 $\tau_p$ 的样本进入高置信集 $\mathcal{R}$。
混合训练集构建: 对每个训练样本,若其精炼 CoT $\tilde{r}^u \in \mathcal{R}$ 则附加 CoT,否则退化为标准无 CoT 的 prompt。混合比例 $p$ 在 SFT 阶段设为 0.1,GRPO 阶段设为 0.05(RL 对噪声更敏感)。这种"小而高质量"策略让模型从少量高质量 CoT 学习细粒度偏好线索,同时大量标准样本避免过拟合 CoT 捷径。
2.6 轻量级奖励规则¶
奖励函数分解为格式检查和命中检查,$O(1)$ 复杂度,无需额外奖励模型:
- Format check: 输出必须遵循
[ITEM_xxxx] Title <think>...</think>格式。不合格 $R_{\text{fmt}}(o) = -1.0$,合格 $R_{\text{fmt}}(o) = +0.3$。 - Hit check: 若预测的
[ITEM_xxxx]匹配目标物品 $y$,$R_{\text{hit}}(o, y) = +1.0$,否则奖励保持不变。
$$R(o) = R_{\text{fmt}}(o) + \mathbb{1}[\text{hit}(o, y)] \cdot 1.0 \tag{8}$$
模型可在 <think>...</think> 中自由生成推理过程,但不对此部分计算奖励。设计理由:(1) 自由形式推理难以可靠评估,奖励推理可能鼓励模板化或幻觉式解释;(2) CoT 过滤已控制数据质量;(3) 聚焦可验证的格式和命中信号提升训练稳定性。
2.7 时间复杂度分析¶
离线 CoT 构建为一次性过程。在线阶段,SFT 复杂度 $O(NT^2d)$,GRPO 为主要瓶颈:每个 prompt 采样 $G$ 个平均长度 $|o|$ 的输出,需前向+反向传播,复杂度 $O(NG|o|^2d)$。轻量级奖励仅增加 $O(NG)$ 的字符串匹配开销。总复杂度:
$$O\left(NT^2d + NG|o|^2d\right)$$
3. 实验设置¶
3.1 数据集¶
| Dataset | #Users | #Items | #Interactions | Density |
|---|---|---|---|---|
| Microlens | 25,411 | 41,081 | 223,263 | $2.1 \times 10^{-4}$ |
| Netflix | 13,187 | 17,366 | 68,933 | $3.0 \times 10^{-4}$ |
| Movielens | 6,040 | 3,952 | 1,000,209 | $4.2 \times 10^{-2}$ |
- Microlens:短视频推荐数据集,使用标题和图像。平均交互 8.79。
- Netflix:Kaggle 电影推荐数据集,极度稀疏,每用户平均仅 5.23 次交互。
- Movielens-1M:经典电影推荐数据集,含标题、年份、海报。非常稠密,平均序列长度 165.56。
数据集按 7:1:2 划分训练/验证/测试集。所有模型仅使用最近 9 次交互,最后一次为预测目标。
3.2 实现细节¶
- Backbone LLM: Qwen3-VL-8B-Instruct(MLLM,用于 CoT 数据构建)+ DeepSeek-R1(纯文本推理模型,用于 CoT 精炼)
- 训练配置: LoRA rank=16,学习率 1e-5,梯度累积 8 步
- SFT: per-device batch size=2,Movielens/Netflix 3 epochs,Microlens 5 epochs
- GRPO: per-device batch size=4,Movielens/Microlens 3 epochs,Netflix 2 epochs;temperature=0.9,top-p=0.9,group size $G$=8
- 评估: 标准候选集 $k$=9(共 10 个候选),指标为 HR@k 和 NDCG@k($k \in \{3, 5\}$);所有结果为 5 次运行平均值
- 8x RTX PRO 6000 GPU
3.3 Baseline 方法¶
- Traditional RS: GRU4Rec, SASRec, LightGCN, CL4SRec
- Multimodal RS: LATTICE, MoRec, BM3, AB-Rec
- LLM-based RS: TallRec, LLaRA, SPRec, RecZero
- MLLM-based RS: MSRBench, MLLM-MSR, MLLMRec-R1 (Ours)
4. 实验结果¶
4.1 标准候选集性能对比(Table 1)¶
| Model | Year | Movielens-1M ||| Microlens ||| Netflix ||| |-------|------|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5| | GRU4Rec | ICLR'16 | 0.5507 | 0.7131 | 0.4762 | 0.5236 | 0.5080 | 0.6440 | 0.4369 | 0.4756 | 0.5152 | 0.7152 | 0.3659 | 0.4494 | | SASRec | ICDM'18 | 0.6073 | 0.7498 | 0.5090 | 0.5638 | 0.5243 | 0.6597 | 0.4439 | 0.4958 | 0.5560 | 0.7570 | 0.4042 | 0.4786 | | LightGCN | SIGIR'20 | 0.5808 | 0.7167 | 0.4894 | 0.5330 | 0.5138 | 0.6604 | 0.4344 | 0.4913 | 0.5430 | 0.7420 | 0.3928 | 0.4702 | | CL4SRec | ICDE'22 | 0.6221 | 0.7557 | 0.5306 | 0.5861 | 0.5482 | 0.6826 | 0.4694 | 0.5186 | 0.5788 | 0.7873 | 0.4374 | 0.5091 | | LATTICE | MM'21 | 0.6131 | 0.7558 | 0.5223 | 0.5762 | 0.5306 | 0.6612 | 0.4531 | 0.5036 | 0.5635 | 0.7955 | 0.4110 | 0.5038 | | MoRec | SIGIR'23 | 0.6059 | 0.7552 | 0.5074 | 0.5642 | 0.5267 | 0.6515 | 0.4537 | 0.4970 | 0.5742 | 0.7725 | 0.4277 | 0.4887 | | BM3 | WWW'23 | 0.6222 | 0.7618 | 0.5259 | 0.5788 | 0.5421 | 0.6836 | 0.4749 | 0.5291 | 0.5825 | 0.8155 | 0.4213 | 0.5358 | | AB-Rec | KDD'25 | 0.6194 | 0.7513 | 0.5219 | 0.5787 | 0.5426 | 0.6740 | 0.4645 | 0.5125 | 0.5865 | 0.8094 | 0.4390 | 0.5243 | | TallRec | Recsys'23 | 0.6139 | 0.7324 | 0.5236 | 0.5613 | 0.5243 | 0.6597 | 0.4439 | 0.4958 | 0.5690 | 0.7885 | 0.4174 | 0.4967 | | LLaRA | SIGIR'24 | 0.6172 | 0.7490 | 0.5201 | 0.5681 | 0.5213 | 0.6799 | 0.4423 | 0.5080 | 0.5650 | 0.7700 | 0.4072 | 0.4854 | | SPRec | WWW'25 | 0.6273 | 0.7598 | 0.5290 | 0.5738 | 0.5473 | 0.6798 | 0.4690 | 0.5138 | 0.5765 | 0.7982 | 0.4250 | 0.5167 | | RecZero | NIPS'25 | 0.6595 | 0.7664 | 0.5639 | 0.6067 | 0.6032 | 0.7062 | 0.5166 | 0.5648 | 0.6520 | 0.8205 | 0.5195 | 0.5857 | | MSRBench | WWW'25 | 0.6272 | 0.7507 | 0.5288 | 0.5743 | 0.5543 | 0.6897 | 0.4739 | 0.5258 | 0.5720 | 0.7820 | 0.4295 | 0.5029 | | MLLM-MSR | AAAI'25 | 0.6261 | 0.7563 | 0.5313 | 0.5827 | 0.5547 | 0.6734 | 0.4655 | 0.5181 | 0.5910 | 0.8080 | 0.4429 | 0.5272 | | MLLMRec-R1 | Ours | 0.7630 | 0.8368 | 0.6524 | *0.6784 | 0.6627 | 0.7906 | *0.5845 | 0.6365 | 0.7150 | *0.8670 | 0.5902 | 0.6293*** | | Improv. % | | 15.69% | 9.19% | 15.82% | 11.82% | 9.86% | 11.95% | 13.14% | 12.69% | 9.66% | 5.67% | 13.61% | 7.44% |
实验结论:
- MLLMRec-R1 在所有三个数据集、所有指标上均显著超越所有 baseline(p < 0.05)。
- 相对提升:Microlens 15.82%、Netflix 13.14%、Movielens 13.61%(以 NG@3 计)。
- 传统方法局限: 依赖充足交互数据,在稀疏场景(Netflix)表现受限。CL4SRec 通过对比学习缓解冷启动,但仍落后于 LLM 方法。
- LLM 方法局限: SFT/DPO 方法忽视采样负样本的难度不均衡,DPO 反复强化由简单负样本主导的对比。纯文本 LLM 无法利用图像信息解决标题歧义。RecZero 同样使用 GRPO 但不建模多模态 CoT,性能显著低于 MLLMRec-R1。
- MLLMRec-R1 优势: NG@3 的更大提升表明 top-rank 质量显著改善,多模态 CoT 提供细粒度偏好信号,GRPO 组内相对优势学习更好建模用户偏好。
4.2 大规模候选集性能(Table 4,候选集大小=100)¶
| Dataset | Model | HR@5 | HR@10 | NG@5 | NG@10 |
|---|---|---|---|---|---|
| Movielens | CL4SRec | 0.1427 | 0.1991 | 0.1084 | 0.1198 |
| TallRec | 0.1317 | 0.1930 | 0.0930 | 0.1108 | |
| RecZero | 0.1963 | 0.2418 | 0.1432 | 0.1530 | |
| MLLMRec-R1 | 0.2444 | 0.2983 | 0.1806 | 0.1969 | |
| Improv. % | 24.50% | 23.37% | 26.12% | 28.69% | |
| Netflix | CL4SRec | 0.1080 | 0.1872 | 0.0671 | 0.0937 |
| TallRec | 0.0980 | 0.1790 | 0.0591 | 0.0836 | |
| RecZero | 0.1963 | 0.2418 | 0.1432 | 0.1530 | |
| MLLMRec-R1 | 0.1715 | 0.2560 | 0.1199 | 0.1512 | |
| Improv. % | 38.87% | 15.06% | 56.91% | 41.84% |
实验结论: 在大规模候选集设置下,MLLMRec-R1 相对优势更加明显,尤其 Netflix 上 NG@5 提升达 56.91%。排除了 MLLM-based baseline(其视觉 token 开销使大规模推理不可行),进一步证明了视觉信号文本化策略的实用价值。
4.3 消融实验(Table 2)¶
| Variant | Movielens-1M ||| Microlens ||| Netflix ||| |---------|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5| | w/o ALL | 0.6172 | 0.7490 | 0.5201 | 0.5019 | 0.6530 | 0.6530 | 0.4283 | 0.4855 | 0.5650 | 0.7700 | 0.4072 | 0.4854 | | w/o GRPO | 0.6139 | 0.7324 | 0.5236 | 0.5191 | 0.6582 | 0.6582 | 0.4397 | 0.4928 | 0.5690 | 0.8010 | 0.4174 | 0.5064 | | w/o MDA | 0.6465 | 0.7593 | 0.5824 | 0.6035 | 0.6799 | 0.6799 | 0.5441 | 0.6505 | 0.8145 | 0.8145 | 0.5098 | 0.5771 | | w/o MCoT | 0.6665 | 0.7767 | 0.5978 | 0.6287 | 0.7051 | 0.7051 | 0.5174 | 0.5625 | 0.6605 | 0.8280 | 0.5177 | 0.5899 | | w/o CoT Refinement | 0.6924 | 0.7791 | 0.5933 | 0.6239 | 0.7558 | 0.7558 | 0.5418 | 0.5893 | 0.6870 | 0.8249 | 0.5314 | 0.5806 | | w/o Pseudo-CoT | 0.7095 | 0.7864 | 0.6039 | 0.6267 | 0.7526 | 0.7526 | 0.5439 | 0.5887 | 0.6810 | 0.8280 | 0.5329 | 0.5872 | | w/o Caption | 0.7243 | 0.8021 | 0.6230 | 0.6435 | 0.7623 | 0.7623 | 0.5616 | 0.6109 | 0.6965 | 0.8415 | 0.5518 | 0.6067 | | MLLMRec-R1 | 0.7630 | 0.8368 | 0.6524 | *0.6784 | 0.7906 | 0.7906 | *0.5845 | 0.6365 | 0.7150 | *0.8670 | 0.5902 | 0.6293*** |
消融结论: 1. 去除 GRPO(w/o GRPO)性能大幅下降,接近去除所有组件(w/o ALL),说明 RL 阶段是核心。没有 GRPO,模型无法通过组内相对优势学习可靠排序。 2. 去除 MCoT(w/o MCoT)显著下降,说明纯文本 RL 可改善推荐但受限于缺乏高质量多模态 CoT 数据。 3. 去除 MDA(w/o MDA)下降明显,将所有 CoT 无差别注入训练反而因噪声和捷径学习损害泛化。 4. CoT 构建流水线的细粒度消融: Caption 和 Pseudo-CoT 均贡献正向效果,pseudo-CoT 贡献更大(提供显式偏好线索和可复用推理模式)。单独去除 CoT refinement 而保留 pseudo-CoT 会显著降低性能,可能因为潜在信息冲突。
4.4 不同历史长度的影响(Table 5,Movielens)¶
| Length | Model | HR@5 | HR@10 | NG@5 | NG@10 |
|---|---|---|---|---|---|
| 5 | CL4SRec | 0.5919 | 0.7492 | 0.4822 | 0.5452 |
| TallRec | 0.5993 | 0.7566 | 0.4935 | 0.5592 | |
| RecZero | 0.6161 | 0.7275 | 0.5436 | 0.5639 | |
| MLLMRec-R1 | 0.7119 | 0.8353 | 0.6077 | 0.6574 | |
| Improv. % | 15.55% | 10.40% | 11.79% | 16.58% | |
| 10 | CL4SRec | 0.6221 | 0.7557 | 0.5306 | 0.5861 |
| TallRec | 0.6139 | 0.7324 | 0.5236 | 0.5613 | |
| RecZero | 0.6595 | 0.7664 | 0.5639 | 0.6067 | |
| MLLMRec-R1 | 0.7630 | 0.8368 | 0.6524 | 0.6784 | |
| Improv. % | 15.69% | 9.19% | 15.82% | 11.82% | |
| 20 | CL4SRec | 0.6224 | 0.7521 | 0.5469 | 0.5817 |
| TallRec | 0.5637 | 0.7199 | 0.4765 | 0.5391 | |
| RecZero | 0.6325 | 0.7455 | 0.5613 | 0.5958 | |
| MLLMRec-R1 | 0.7433 | 0.8369 | 0.6404 | 0.6760 | |
| Improv. % | 17.52% | 12.26% | 14.09% | 13.46% |
实验结论: LLM-based 模型在 $t=10$ 达到峰值,$t=20$ 反而下降(更长历史引入弱相关信号和噪声)。传统序列模型在 $t=10$ 和 $t=20$ 表现相近(更依赖局部模式)。MLLMRec-R1 在所有历史长度下均保持显著优势。
4.5 不同 Backbone 规模的影响(Figure 5)¶
在 Qwen3-1.7B / 4B / 8B / 14B 四种规模上实验。更大模型在所有数据集上一致优于小模型,说明大模型更好地利用多模态 CoT 数据与 GRPO 优化。1.7B 模型性能较弱,可能因过度严格的指令微调导致输出与 top-k 候选不对齐。
4.6 超参数敏感性(Figure 6)¶
- Group size $G$: $G$ 从 2 增到 8,HR 和 NDCG 均改善,更大组提供更稳定的相对优势信号。
- 过滤比 $p$: 过度激进过滤(更小 $p$)在部分数据集上轻微下降,过少过滤则引入噪声。
- KL 系数 $\beta$: 中等值表现最佳,反映限制策略漂移(稳定性)与允许探索性更新(有效性)之间的权衡。
4.7 CoT 数据质量评估(Figure 8)¶
采用 GPT-5.2-thinking、Claude-4.5-thinking 和人类标注者在 5 个维度评估 200 个 CoT 样本:模态一致性、预测一致性、信号密度、泄漏风险、覆盖难度。CoT Refinement 在所有维度上均优于 Pseudo-CoT,尤其在降低标签泄漏风险方面提升显著。
4.8 Case Study(Figure 7)¶
以 Movielens 用户 1127 为例:
- GRPO w/o MCoT & MDA 输出基于浅层共现信号(如"Friday the 13th"系列重复),命中错误目标。
- MLLMRec-R1 在
<think>中识别出用户偏好"经典严肃叙事和道德张力"的视觉线索(单色、低饱和度美学、严肃角色中心构图),正确预测目标电影 "All Quiet on the Western Front"。
5. 核心贡献总结¶
- 首个面向多模态序列推荐的 GRPO 框架:通过离线视觉信号文本化解决效率瓶颈,使 MLLM-based MSR 可实际训练。
- 三阶段 MCoT 构建流水线(Caption -> Pseudo-CoT -> CoT Refinement):避免标签泄漏,产生高质量推理监督。
- 混合粒度数据增强:双重一致性过滤 + 低混合比注入,抑制奖励膨胀和捷径学习。
- 轻量级奖励规则:$O(1)$ 格式+命中检查,无需额外奖励模型,训练稳定。
- 在三个公开数据集上全面超越 SOTA,大规模候选集下优势更显著。