MLLMRec-R1 — Archivist

1. 研究背景与动机¶

多模态序列推荐（Multimodal Sequential Recommendation, MSR）利用图像、标题等多模态信号建模用户兴趣演化。近期研究尝试将 Group Relative Policy Optimization (GRPO) 引入 LLM-based 推荐系统以提升推理与偏好对齐能力，但将 GRPO 扩展到多模态大语言模型（MLLM）面临两个核心挑战：

挑战 1：视觉 token 带来的效率瓶颈。 如 Figure 1(a) 所示，单张图像经视觉编码后产生约 196 个 visual token，token 总数随历史长度和候选集大小线性增长，使 GRPO 的 group-based rollout 计算代价极高。而视觉 token 相比纯文本模型的增益有限，成本却显著增加。

挑战 2：CoT 数据的奖励膨胀（Reward Inflation）。 现有 CoT 监督方法中，数据构建可能无意引入与目标物品相关的信号（标签泄漏），导致训练奖励虚高但测试时 HR 和 NDCG 反而下降（Figure 1(b)），模型走捷径学习而非真正推理。

2. 方法：MLLMRec-R1¶

MLLMRec-R1 是一个高效稳定的 GRPO 推理框架，包含三个核心模块：多模态 CoT 构建、混合粒度数据增强、轻量级奖励规则。

2.1 问题形式化¶

给定用户 $u \in \mathcal{U}$ 的交互序列 $S^u = \{v_1^u, v_2^u, \cdots, v_t^u\}$，目标是预测下一个交互物品 $v_{t+1}^u$。系统取最近 $K$ 次交互作为上下文，构建候选集 $C^u = \{v_{t+1}^u\} \cup \mathcal{N}^u$（含目标物品和采样负样本），将 $(S^u, C^u)$ 序列化为包含角色声明、最近观看列表、候选列表和输出格式约束的 instruction prompt。

训练采用两阶段范式：先 SFT 对齐指令格式，再 GRPO 强化学习优化排序能力。

2.2 SFT 阶段¶

SFT 损失为标准的最大似然：

$$\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x,y) \sim \mathcal{D}} \left[ \log \pi_\phi(y \mid x) \right] \tag{1}$$

其中 $x$ 为 instruction prompt，$y$ 为 output response。SFT 将预训练 LLM 适配为推荐指令跟随者，为后续 GRPO 提供稳定的策略初始化。

2.3 GRPO 阶段¶

GRPO 不依赖显式的 chosen-rejected 对，而是在同一 prompt 下采样一组响应 $\{o_1, o_2, \ldots, o_G\} \sim \pi_{\theta_{\text{old}}}(\cdot \mid x)$，利用组内相对优势更新策略：

$$\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{x \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(O|q)} \left\{ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left(\frac{\pi_\theta(o_{i,t} \mid x, o_{i,\lt t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid x, o_{i,\lt t})} \hat{A}_{i,t}, \; \text{clip}\left(\frac{\pi_\theta(o_{i,t} \mid x, o_{i,\lt t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid x, o_{i,\lt t})}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_{i,t} \right) \right\} - \beta \, D_{\text{KL}}\left[\pi_\theta \| \pi_\phi\right] \tag{2}$$

其中 $\varepsilon$ 控制 PPO 式 clipping 范围，$\beta$ 加权 KL 散度正则化项（约束策略不偏离 SFT 策略 $\pi_\phi$ 过远）。Token 级优势 $\hat{A}_{i,t}$ 由序列级奖励减去组均值基线得到：

$$\hat{A}_{i,t} = r(x, o_i, y) - \frac{1}{G} \sum_{j=1}^{G} r(x, o_j, y)$$

同一序列内所有 token 共享相同的 $\hat{A}_{i,t}$。

2.4 多模态 Chain-of-Thought (MCoT) 构建¶

核心思路：离线将视觉信号压缩为文本，避免在线阶段昂贵的 visual token 计算，同时保留多模态语义增益。Pipeline 分三步（Figure 2）：

Step 1: Caption 生成。 使用 MLLM（如 Qwen-VL）为每个物品 $v$ 的封面图 $I_v$ 和标题 $T_v$ 生成细粒度文本描述：

$$c_v \sim p_\theta(c \mid m_v) = p_\theta(c \mid I_v, t_v) \tag{3}$$

Caption 要求视觉接地（visually grounded）、不超过 50 词、不重复标题。

Step 2: Pseudo-CoT 构建。 给定用户历史的多模态上下文 $\{m_{v_1^u}, m_{v_2^u}, \ldots, m_{v_t^u}\}$（不包含目标物品信息），利用 MLLM 按结构化步骤约束生成 pseudo-CoT：

$$r^u \sim p_\theta\left(r \mid m_{v_{i,t}^u}, \Omega_{\text{step}}\right) \tag{4}$$

步骤包括：提取偏好信号 -> 推断偏好模式 -> 提出候选 -> 总结。Pseudo-CoT 不用于最终训练，而是作为"模态桥接"步骤，将多模态信息组织为文本化推理轨迹。

Step 3: CoT Refinement。 将 caption 和 pseudo-CoT 输入更强的纯文本推理模型 DeepSeek-R1 进行精炼：

$$\tilde{r}^u \sim p_\delta\left(\tilde{r} \mid c_{v_{i,t}^u}, r^u, \Omega_{\text{step}}\right) \tag{5}$$

精炼过程中不暴露目标物品信息，避免事后归因式的"解释"。精炼后的 CoT 具有更强的推理深度和多模态偏好挖掘能力。

关于 CoT 构建的定位： 作者明确强调，MCoT 数据构建不是唯一或最优方案，而是作为 GRPO 式后训练的关键前置条件——为 RL 训练提供高质量监督信号。

2.5 混合粒度数据增强（Mixed-grained Data Augmentation, MDA）¶

MDA 通过两重一致性过滤筛选高质量 CoT 样本，减少 GRPO 更新中的噪声梯度：

模态一致性（Modality Consistency）： 对用户历史中每个交互物品 $v$，将其多模态输入 $m_v = \{I_v, T_v\}$ 映射为语义嵌入 $e_v$，文本嵌入 $z_{c_v^u}$，计算标题-图像对的平均余弦相似度：

$$s_u' = \frac{1}{t} \sum_{i=1}^{t} \text{sim}\left(\mathbf{e}_{c_{v_i^u}}, \mathbf{z}_{c_{v_i^u}^u}\right) \tag{6}$$

较低的模态一致性意味着标题歧义、视觉噪声或跨模态不匹配。

预测一致性（Prediction Consistency）： 将精炼 CoT 中预测的下一物品 profile $\hat{p}^u$ 编码为文本嵌入 $\mathbf{r}^u = f_m(\hat{p}^u)$，与目标物品嵌入计算相似度：

$$s_u'' = \text{sim}(\mathbf{z}_{v_{t+1}^u}, \mathbf{r}^u)$$

若预测的 next-item profile 与实际目标不一致，说明 CoT 推理链低质量。

两个信号通过 sigmoid 组合为序列级分数：

$$\tau_p = \text{Quantile}\left(\{s_u\}_{u \in \mathcal{U}}, p\right), \quad s_u = \sigma(s_u' + s_u'') \tag{7}$$

按 retention ratio $p$ 取分位数阈值 $\tau_p$，分数高于 $\tau_p$ 的样本进入高置信集 $\mathcal{R}$。

混合训练集构建： 对每个训练样本，若其精炼 CoT $\tilde{r}^u \in \mathcal{R}$ 则附加 CoT，否则退化为标准无 CoT 的 prompt。混合比例 $p$ 在 SFT 阶段设为 0.1，GRPO 阶段设为 0.05（RL 对噪声更敏感）。这种"小而高质量"策略让模型从少量高质量 CoT 学习细粒度偏好线索，同时大量标准样本避免过拟合 CoT 捷径。

2.6 轻量级奖励规则¶

奖励函数分解为格式检查和命中检查，$O(1)$ 复杂度，无需额外奖励模型：

Format check： 输出必须遵循 [ITEM_xxxx] Title <think>...</think> 格式。不合格 $R_{\text{fmt}}(o) = -1.0$，合格 $R_{\text{fmt}}(o) = +0.3$。
Hit check： 若预测的 [ITEM_xxxx] 匹配目标物品 $y$，$R_{\text{hit}}(o, y) = +1.0$，否则奖励保持不变。

$$R(o) = R_{\text{fmt}}(o) + \mathbb{1}[\text{hit}(o, y)] \cdot 1.0 \tag{8}$$

模型可在 <think>...</think> 中自由生成推理过程，但不对此部分计算奖励。设计理由：(1) 自由形式推理难以可靠评估，奖励推理可能鼓励模板化或幻觉式解释；(2) CoT 过滤已控制数据质量；(3) 聚焦可验证的格式和命中信号提升训练稳定性。

2.7 时间复杂度分析¶

离线 CoT 构建为一次性过程。在线阶段，SFT 复杂度 $O(NT^2d)$，GRPO 为主要瓶颈：每个 prompt 采样 $G$ 个平均长度 $|o|$ 的输出，需前向+反向传播，复杂度 $O(NG|o|^2d)$。轻量级奖励仅增加 $O(NG)$ 的字符串匹配开销。总复杂度：

$$O\left(NT^2d + NG|o|^2d\right)$$

3. 实验设置¶

3.1 数据集¶

Dataset	#Users	#Items	#Interactions	Density
Microlens	25,411	41,081	223,263	$2.1 \times 10^{-4}$
Netflix	13,187	17,366	68,933	$3.0 \times 10^{-4}$
Movielens	6,040	3,952	1,000,209	$4.2 \times 10^{-2}$

Microlens：短视频推荐数据集，使用标题和图像。平均交互 8.79。
Netflix：Kaggle 电影推荐数据集，极度稀疏，每用户平均仅 5.23 次交互。
Movielens-1M：经典电影推荐数据集，含标题、年份、海报。非常稠密，平均序列长度 165.56。

数据集按 7:1:2 划分训练/验证/测试集。所有模型仅使用最近 9 次交互，最后一次为预测目标。

3.2 实现细节¶

Backbone LLM： Qwen3-VL-8B-Instruct（MLLM，用于 CoT 数据构建）+ DeepSeek-R1（纯文本推理模型，用于 CoT 精炼）
训练配置： LoRA rank=16，学习率 1e-5，梯度累积 8 步
SFT： per-device batch size=2，Movielens/Netflix 3 epochs，Microlens 5 epochs
GRPO： per-device batch size=4，Movielens/Microlens 3 epochs，Netflix 2 epochs；temperature=0.9，top-p=0.9，group size $G$=8
评估： 标准候选集 $k$=9（共 10 个候选），指标为 HR@k 和 NDCG@k（$k \in \{3, 5\}$）；所有结果为 5 次运行平均值
8x RTX PRO 6000 GPU

3.3 Baseline 方法¶

Traditional RS： GRU4Rec, SASRec, LightGCN, CL4SRec
Multimodal RS： LATTICE, MoRec, BM3, AB-Rec
LLM-based RS： TallRec, LLaRA, SPRec, RecZero
MLLM-based RS： MSRBench, MLLM-MSR, MLLMRec-R1 (Ours)

4. 实验结果¶

4.1 标准候选集性能对比（Table 1）¶

| Model | Year | Movielens-1M ||| Microlens ||| Netflix ||| |-------|------|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5| | GRU4Rec | ICLR'16 | 0.5507 | 0.7131 | 0.4762 | 0.5236 | 0.5080 | 0.6440 | 0.4369 | 0.4756 | 0.5152 | 0.7152 | 0.3659 | 0.4494 | | SASRec | ICDM'18 | 0.6073 | 0.7498 | 0.5090 | 0.5638 | 0.5243 | 0.6597 | 0.4439 | 0.4958 | 0.5560 | 0.7570 | 0.4042 | 0.4786 | | LightGCN | SIGIR'20 | 0.5808 | 0.7167 | 0.4894 | 0.5330 | 0.5138 | 0.6604 | 0.4344 | 0.4913 | 0.5430 | 0.7420 | 0.3928 | 0.4702 | | CL4SRec | ICDE'22 | 0.6221 | 0.7557 | 0.5306 | 0.5861 | 0.5482 | 0.6826 | 0.4694 | 0.5186 | 0.5788 | 0.7873 | 0.4374 | 0.5091 | | LATTICE | MM'21 | 0.6131 | 0.7558 | 0.5223 | 0.5762 | 0.5306 | 0.6612 | 0.4531 | 0.5036 | 0.5635 | 0.7955 | 0.4110 | 0.5038 | | MoRec | SIGIR'23 | 0.6059 | 0.7552 | 0.5074 | 0.5642 | 0.5267 | 0.6515 | 0.4537 | 0.4970 | 0.5742 | 0.7725 | 0.4277 | 0.4887 | | BM3 | WWW'23 | 0.6222 | 0.7618 | 0.5259 | 0.5788 | 0.5421 | 0.6836 | 0.4749 | 0.5291 | 0.5825 | 0.8155 | 0.4213 | 0.5358 | | AB-Rec | KDD'25 | 0.6194 | 0.7513 | 0.5219 | 0.5787 | 0.5426 | 0.6740 | 0.4645 | 0.5125 | 0.5865 | 0.8094 | 0.4390 | 0.5243 | | TallRec | Recsys'23 | 0.6139 | 0.7324 | 0.5236 | 0.5613 | 0.5243 | 0.6597 | 0.4439 | 0.4958 | 0.5690 | 0.7885 | 0.4174 | 0.4967 | | LLaRA | SIGIR'24 | 0.6172 | 0.7490 | 0.5201 | 0.5681 | 0.5213 | 0.6799 | 0.4423 | 0.5080 | 0.5650 | 0.7700 | 0.4072 | 0.4854 | | SPRec | WWW'25 | 0.6273 | 0.7598 | 0.5290 | 0.5738 | 0.5473 | 0.6798 | 0.4690 | 0.5138 | 0.5765 | 0.7982 | 0.4250 | 0.5167 | | RecZero | NIPS'25 | 0.6595 | 0.7664 | 0.5639 | 0.6067 | 0.6032 | 0.7062 | 0.5166 | 0.5648 | 0.6520 | 0.8205 | 0.5195 | 0.5857 | | MSRBench | WWW'25 | 0.6272 | 0.7507 | 0.5288 | 0.5743 | 0.5543 | 0.6897 | 0.4739 | 0.5258 | 0.5720 | 0.7820 | 0.4295 | 0.5029 | | MLLM-MSR | AAAI'25 | 0.6261 | 0.7563 | 0.5313 | 0.5827 | 0.5547 | 0.6734 | 0.4655 | 0.5181 | 0.5910 | 0.8080 | 0.4429 | 0.5272 | | MLLMRec-R1 | Ours | 0.7630 | 0.8368 | 0.6524 | *0.6784 | 0.6627 | 0.7906 | *0.5845 | 0.6365 | 0.7150 | *0.8670 | 0.5902 | 0.6293*** | | Improv. % | | 15.69% | 9.19% | 15.82% | 11.82% | 9.86% | 11.95% | 13.14% | 12.69% | 9.66% | 5.67% | 13.61% | 7.44% |

实验结论：

MLLMRec-R1 在所有三个数据集、所有指标上均显著超越所有 baseline（p < 0.05）。
相对提升：Microlens 15.82%、Netflix 13.14%、Movielens 13.61%（以 NG@3 计）。
传统方法局限： 依赖充足交互数据，在稀疏场景（Netflix）表现受限。CL4SRec 通过对比学习缓解冷启动，但仍落后于 LLM 方法。
LLM 方法局限： SFT/DPO 方法忽视采样负样本的难度不均衡，DPO 反复强化由简单负样本主导的对比。纯文本 LLM 无法利用图像信息解决标题歧义。RecZero 同样使用 GRPO 但不建模多模态 CoT，性能显著低于 MLLMRec-R1。
MLLMRec-R1 优势： NG@3 的更大提升表明 top-rank 质量显著改善，多模态 CoT 提供细粒度偏好信号，GRPO 组内相对优势学习更好建模用户偏好。

4.2 大规模候选集性能（Table 4，候选集大小=100）¶

Dataset	Model	HR@5	HR@10	NG@5	NG@10
Movielens	CL4SRec	0.1427	0.1991	0.1084	0.1198
	TallRec	0.1317	0.1930	0.0930	0.1108
	RecZero	0.1963	0.2418	0.1432	0.1530
	MLLMRec-R1	0.2444	0.2983	0.1806	0.1969
	Improv. %	24.50%	23.37%	26.12%	28.69%
Netflix	CL4SRec	0.1080	0.1872	0.0671	0.0937
	TallRec	0.0980	0.1790	0.0591	0.0836
	RecZero	0.1963	0.2418	0.1432	0.1530
	MLLMRec-R1	0.1715	0.2560	0.1199	0.1512
	Improv. %	38.87%	15.06%	56.91%	41.84%

实验结论： 在大规模候选集设置下，MLLMRec-R1 相对优势更加明显，尤其 Netflix 上 NG@5 提升达 56.91%。排除了 MLLM-based baseline（其视觉 token 开销使大规模推理不可行），进一步证明了视觉信号文本化策略的实用价值。

4.3 消融实验（Table 2）¶

| Variant | Movielens-1M ||| Microlens ||| Netflix ||| |---------|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5| | w/o ALL | 0.6172 | 0.7490 | 0.5201 | 0.5019 | 0.6530 | 0.6530 | 0.4283 | 0.4855 | 0.5650 | 0.7700 | 0.4072 | 0.4854 | | w/o GRPO | 0.6139 | 0.7324 | 0.5236 | 0.5191 | 0.6582 | 0.6582 | 0.4397 | 0.4928 | 0.5690 | 0.8010 | 0.4174 | 0.5064 | | w/o MDA | 0.6465 | 0.7593 | 0.5824 | 0.6035 | 0.6799 | 0.6799 | 0.5441 | 0.6505 | 0.8145 | 0.8145 | 0.5098 | 0.5771 | | w/o MCoT | 0.6665 | 0.7767 | 0.5978 | 0.6287 | 0.7051 | 0.7051 | 0.5174 | 0.5625 | 0.6605 | 0.8280 | 0.5177 | 0.5899 | | w/o CoT Refinement | 0.6924 | 0.7791 | 0.5933 | 0.6239 | 0.7558 | 0.7558 | 0.5418 | 0.5893 | 0.6870 | 0.8249 | 0.5314 | 0.5806 | | w/o Pseudo-CoT | 0.7095 | 0.7864 | 0.6039 | 0.6267 | 0.7526 | 0.7526 | 0.5439 | 0.5887 | 0.6810 | 0.8280 | 0.5329 | 0.5872 | | w/o Caption | 0.7243 | 0.8021 | 0.6230 | 0.6435 | 0.7623 | 0.7623 | 0.5616 | 0.6109 | 0.6965 | 0.8415 | 0.5518 | 0.6067 | | MLLMRec-R1 | 0.7630 | 0.8368 | 0.6524 | *0.6784 | 0.7906 | 0.7906 | *0.5845 | 0.6365 | 0.7150 | *0.8670 | 0.5902 | 0.6293*** |

消融结论： 1. 去除 GRPO（w/o GRPO）性能大幅下降，接近去除所有组件（w/o ALL），说明 RL 阶段是核心。没有 GRPO，模型无法通过组内相对优势学习可靠排序。 2. 去除 MCoT（w/o MCoT）显著下降，说明纯文本 RL 可改善推荐但受限于缺乏高质量多模态 CoT 数据。 3. 去除 MDA（w/o MDA）下降明显，将所有 CoT 无差别注入训练反而因噪声和捷径学习损害泛化。 4. CoT 构建流水线的细粒度消融： Caption 和 Pseudo-CoT 均贡献正向效果，pseudo-CoT 贡献更大（提供显式偏好线索和可复用推理模式）。单独去除 CoT refinement 而保留 pseudo-CoT 会显著降低性能，可能因为潜在信息冲突。

4.4 不同历史长度的影响（Table 5，Movielens）¶

Length	Model	HR@5	HR@10	NG@5	NG@10
5	CL4SRec	0.5919	0.7492	0.4822	0.5452
	TallRec	0.5993	0.7566	0.4935	0.5592
	RecZero	0.6161	0.7275	0.5436	0.5639
	MLLMRec-R1	0.7119	0.8353	0.6077	0.6574
	Improv. %	15.55%	10.40%	11.79%	16.58%
10	CL4SRec	0.6221	0.7557	0.5306	0.5861
	TallRec	0.6139	0.7324	0.5236	0.5613
	RecZero	0.6595	0.7664	0.5639	0.6067
	MLLMRec-R1	0.7630	0.8368	0.6524	0.6784
	Improv. %	15.69%	9.19%	15.82%	11.82%
20	CL4SRec	0.6224	0.7521	0.5469	0.5817
	TallRec	0.5637	0.7199	0.4765	0.5391
	RecZero	0.6325	0.7455	0.5613	0.5958
	MLLMRec-R1	0.7433	0.8369	0.6404	0.6760
	Improv. %	17.52%	12.26%	14.09%	13.46%

实验结论： LLM-based 模型在 $t=10$ 达到峰值，$t=20$ 反而下降（更长历史引入弱相关信号和噪声）。传统序列模型在 $t=10$ 和 $t=20$ 表现相近（更依赖局部模式）。MLLMRec-R1 在所有历史长度下均保持显著优势。

4.5 不同 Backbone 规模的影响（Figure 5）¶

在 Qwen3-1.7B / 4B / 8B / 14B 四种规模上实验。更大模型在所有数据集上一致优于小模型，说明大模型更好地利用多模态 CoT 数据与 GRPO 优化。1.7B 模型性能较弱，可能因过度严格的指令微调导致输出与 top-k 候选不对齐。

4.6 超参数敏感性（Figure 6）¶

Group size $G$： $G$ 从 2 增到 8，HR 和 NDCG 均改善，更大组提供更稳定的相对优势信号。
过滤比 $p$： 过度激进过滤（更小 $p$）在部分数据集上轻微下降，过少过滤则引入噪声。
KL 系数 $\beta$： 中等值表现最佳，反映限制策略漂移（稳定性）与允许探索性更新（有效性）之间的权衡。

4.7 CoT 数据质量评估（Figure 8）¶

采用 GPT-5.2-thinking、Claude-4.5-thinking 和人类标注者在 5 个维度评估 200 个 CoT 样本：模态一致性、预测一致性、信号密度、泄漏风险、覆盖难度。CoT Refinement 在所有维度上均优于 Pseudo-CoT，尤其在降低标签泄漏风险方面提升显著。

4.8 Case Study（Figure 7）¶

以 Movielens 用户 1127 为例：

GRPO w/o MCoT & MDA 输出基于浅层共现信号（如"Friday the 13th"系列重复），命中错误目标。
MLLMRec-R1 在 <think> 中识别出用户偏好"经典严肃叙事和道德张力"的视觉线索（单色、低饱和度美学、严肃角色中心构图），正确预测目标电影 "All Quiet on the Western Front"。

5. 核心贡献总结¶

首个面向多模态序列推荐的 GRPO 框架：通过离线视觉信号文本化解决效率瓶颈，使 MLLM-based MSR 可实际训练。
三阶段 MCoT 构建流水线（Caption -> Pseudo-CoT -> CoT Refinement）：避免标签泄漏，产生高质量推理监督。
混合粒度数据增强：双重一致性过滤 + 低混合比注入，抑制奖励膨胀和捷径学习。
轻量级奖励规则：$O(1)$ 格式+命中检查，无需额外奖励模型，训练稳定。
在三个公开数据集上全面超越 SOTA，大规模候选集下优势更显著。