← Back to list
MLLMRec-R1

MLLMRec-R1: Incentivizing Reasoning Capability in Large Language Models for Multimodal Sequential Recommendation

生成式推荐 学术
Abstract 8 Reading 7 Rating —
2026-03-06
Yu Wang, Yonghui Yang, Le Wu, Jiancan Wu, Hefei Xu, Hui Lin
Hefei University of Technology, National University of Singapore, University of Science and Technology of China, China Academy of Electronic and Information Technology
提出 MLLMRec-R1,通过文本化视觉信号、高质量多模态 CoT 构建和混合粒度数据增强,实现首个面向多模态序列推荐的高效稳定 GRPO 训练框架
pretrained-lm rl process-supervision academic

1. 研究背景与动机

多模态序列推荐(Multimodal Sequential Recommendation, MSR)利用图像、标题等多模态信号建模用户兴趣演化。近期研究尝试将 Group Relative Policy Optimization (GRPO) 引入 LLM-based 推荐系统以提升推理与偏好对齐能力,但将 GRPO 扩展到多模态大语言模型(MLLM)面临两个核心挑战:

挑战 1:视觉 token 带来的效率瓶颈。 如 Figure 1(a) 所示,单张图像经视觉编码后产生约 196 个 visual token,token 总数随历史长度和候选集大小线性增长,使 GRPO 的 group-based rollout 计算代价极高。而视觉 token 相比纯文本模型的增益有限,成本却显著增加。

挑战 2:CoT 数据的奖励膨胀(Reward Inflation)。 现有 CoT 监督方法中,数据构建可能无意引入与目标物品相关的信号(标签泄漏),导致训练奖励虚高但测试时 HR 和 NDCG 反而下降(Figure 1(b)),模型走捷径学习而非真正推理。

2. 方法:MLLMRec-R1

MLLMRec-R1 是一个高效稳定的 GRPO 推理框架,包含三个核心模块:多模态 CoT 构建、混合粒度数据增强、轻量级奖励规则。

2.1 问题形式化

给定用户 $u \in \mathcal{U}$ 的交互序列 $S^u = \{v_1^u, v_2^u, \cdots, v_t^u\}$,目标是预测下一个交互物品 $v_{t+1}^u$。系统取最近 $K$ 次交互作为上下文,构建候选集 $C^u = \{v_{t+1}^u\} \cup \mathcal{N}^u$(含目标物品和采样负样本),将 $(S^u, C^u)$ 序列化为包含角色声明、最近观看列表、候选列表和输出格式约束的 instruction prompt

训练采用两阶段范式:先 SFT 对齐指令格式,再 GRPO 强化学习优化排序能力。

2.2 SFT 阶段

SFT 损失为标准的最大似然:

$$\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x,y) \sim \mathcal{D}} \left[ \log \pi_\phi(y \mid x) \right] \tag{1}$$

其中 $x$ 为 instruction prompt,$y$ 为 output response。SFT 将预训练 LLM 适配为推荐指令跟随者,为后续 GRPO 提供稳定的策略初始化。

2.3 GRPO 阶段

GRPO 不依赖显式的 chosen-rejected 对,而是在同一 prompt 下采样一组响应 $\{o_1, o_2, \ldots, o_G\} \sim \pi_{\theta_{\text{old}}}(\cdot \mid x)$,利用组内相对优势更新策略:

$$\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{x \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(O|q)} \left\{ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left(\frac{\pi_\theta(o_{i,t} \mid x, o_{i,\lt t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid x, o_{i,\lt t})} \hat{A}_{i,t}, \; \text{clip}\left(\frac{\pi_\theta(o_{i,t} \mid x, o_{i,\lt t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid x, o_{i,\lt t})}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_{i,t} \right) \right\} - \beta \, D_{\text{KL}}\left[\pi_\theta \| \pi_\phi\right] \tag{2}$$

其中 $\varepsilon$ 控制 PPO 式 clipping 范围,$\beta$ 加权 KL 散度正则化项(约束策略不偏离 SFT 策略 $\pi_\phi$ 过远)。Token 级优势 $\hat{A}_{i,t}$ 由序列级奖励减去组均值基线得到:

$$\hat{A}_{i,t} = r(x, o_i, y) - \frac{1}{G} \sum_{j=1}^{G} r(x, o_j, y)$$

同一序列内所有 token 共享相同的 $\hat{A}_{i,t}$。

2.4 多模态 Chain-of-Thought (MCoT) 构建

核心思路:离线将视觉信号压缩为文本,避免在线阶段昂贵的 visual token 计算,同时保留多模态语义增益。Pipeline 分三步(Figure 2):

Step 1: Caption 生成。 使用 MLLM(如 Qwen-VL)为每个物品 $v$ 的封面图 $I_v$ 和标题 $T_v$ 生成细粒度文本描述:

$$c_v \sim p_\theta(c \mid m_v) = p_\theta(c \mid I_v, t_v) \tag{3}$$

Caption 要求视觉接地(visually grounded)、不超过 50 词、不重复标题。

Step 2: Pseudo-CoT 构建。 给定用户历史的多模态上下文 $\{m_{v_1^u}, m_{v_2^u}, \ldots, m_{v_t^u}\}$(不包含目标物品信息),利用 MLLM 按结构化步骤约束生成 pseudo-CoT:

$$r^u \sim p_\theta\left(r \mid m_{v_{i,t}^u}, \Omega_{\text{step}}\right) \tag{4}$$

步骤包括:提取偏好信号 -> 推断偏好模式 -> 提出候选 -> 总结。Pseudo-CoT 不用于最终训练,而是作为"模态桥接"步骤,将多模态信息组织为文本化推理轨迹。

Step 3: CoT Refinement。 将 caption 和 pseudo-CoT 输入更强的纯文本推理模型 DeepSeek-R1 进行精炼:

$$\tilde{r}^u \sim p_\delta\left(\tilde{r} \mid c_{v_{i,t}^u}, r^u, \Omega_{\text{step}}\right) \tag{5}$$

精炼过程中不暴露目标物品信息,避免事后归因式的"解释"。精炼后的 CoT 具有更强的推理深度和多模态偏好挖掘能力。

关于 CoT 构建的定位: 作者明确强调,MCoT 数据构建不是唯一或最优方案,而是作为 GRPO 式后训练的关键前置条件——为 RL 训练提供高质量监督信号。

2.5 混合粒度数据增强(Mixed-grained Data Augmentation, MDA)

MDA 通过两重一致性过滤筛选高质量 CoT 样本,减少 GRPO 更新中的噪声梯度:

模态一致性(Modality Consistency): 对用户历史中每个交互物品 $v$,将其多模态输入 $m_v = \{I_v, T_v\}$ 映射为语义嵌入 $e_v$,文本嵌入 $z_{c_v^u}$,计算标题-图像对的平均余弦相似度:

$$s_u' = \frac{1}{t} \sum_{i=1}^{t} \text{sim}\left(\mathbf{e}_{c_{v_i^u}}, \mathbf{z}_{c_{v_i^u}^u}\right) \tag{6}$$

较低的模态一致性意味着标题歧义、视觉噪声或跨模态不匹配。

预测一致性(Prediction Consistency): 将精炼 CoT 中预测的下一物品 profile $\hat{p}^u$ 编码为文本嵌入 $\mathbf{r}^u = f_m(\hat{p}^u)$,与目标物品嵌入计算相似度:

$$s_u'' = \text{sim}(\mathbf{z}_{v_{t+1}^u}, \mathbf{r}^u)$$

若预测的 next-item profile 与实际目标不一致,说明 CoT 推理链低质量。

两个信号通过 sigmoid 组合为序列级分数:

$$\tau_p = \text{Quantile}\left(\{s_u\}_{u \in \mathcal{U}}, p\right), \quad s_u = \sigma(s_u' + s_u'') \tag{7}$$

按 retention ratio $p$ 取分位数阈值 $\tau_p$,分数高于 $\tau_p$ 的样本进入高置信集 $\mathcal{R}$。

混合训练集构建: 对每个训练样本,若其精炼 CoT $\tilde{r}^u \in \mathcal{R}$ 则附加 CoT,否则退化为标准无 CoT 的 prompt。混合比例 $p$ 在 SFT 阶段设为 0.1,GRPO 阶段设为 0.05(RL 对噪声更敏感)。这种"小而高质量"策略让模型从少量高质量 CoT 学习细粒度偏好线索,同时大量标准样本避免过拟合 CoT 捷径。

2.6 轻量级奖励规则

奖励函数分解为格式检查命中检查,$O(1)$ 复杂度,无需额外奖励模型:

  • Format check: 输出必须遵循 [ITEM_xxxx] Title <think>...</think> 格式。不合格 $R_{\text{fmt}}(o) = -1.0$,合格 $R_{\text{fmt}}(o) = +0.3$。
  • Hit check: 若预测的 [ITEM_xxxx] 匹配目标物品 $y$,$R_{\text{hit}}(o, y) = +1.0$,否则奖励保持不变。

$$R(o) = R_{\text{fmt}}(o) + \mathbb{1}[\text{hit}(o, y)] \cdot 1.0 \tag{8}$$

模型可在 <think>...</think> 中自由生成推理过程,但不对此部分计算奖励。设计理由:(1) 自由形式推理难以可靠评估,奖励推理可能鼓励模板化或幻觉式解释;(2) CoT 过滤已控制数据质量;(3) 聚焦可验证的格式和命中信号提升训练稳定性。

2.7 时间复杂度分析

离线 CoT 构建为一次性过程。在线阶段,SFT 复杂度 $O(NT^2d)$,GRPO 为主要瓶颈:每个 prompt 采样 $G$ 个平均长度 $|o|$ 的输出,需前向+反向传播,复杂度 $O(NG|o|^2d)$。轻量级奖励仅增加 $O(NG)$ 的字符串匹配开销。总复杂度:

$$O\left(NT^2d + NG|o|^2d\right)$$

3. 实验设置

3.1 数据集

Dataset #Users #Items #Interactions Density
Microlens 25,411 41,081 223,263 $2.1 \times 10^{-4}$
Netflix 13,187 17,366 68,933 $3.0 \times 10^{-4}$
Movielens 6,040 3,952 1,000,209 $4.2 \times 10^{-2}$
  • Microlens:短视频推荐数据集,使用标题和图像。平均交互 8.79。
  • Netflix:Kaggle 电影推荐数据集,极度稀疏,每用户平均仅 5.23 次交互。
  • Movielens-1M:经典电影推荐数据集,含标题、年份、海报。非常稠密,平均序列长度 165.56。

数据集按 7:1:2 划分训练/验证/测试集。所有模型仅使用最近 9 次交互,最后一次为预测目标。

3.2 实现细节

  • Backbone LLM: Qwen3-VL-8B-Instruct(MLLM,用于 CoT 数据构建)+ DeepSeek-R1(纯文本推理模型,用于 CoT 精炼)
  • 训练配置: LoRA rank=16,学习率 1e-5,梯度累积 8 步
  • SFT: per-device batch size=2,Movielens/Netflix 3 epochs,Microlens 5 epochs
  • GRPO: per-device batch size=4,Movielens/Microlens 3 epochs,Netflix 2 epochs;temperature=0.9,top-p=0.9,group size $G$=8
  • 评估: 标准候选集 $k$=9(共 10 个候选),指标为 HR@k 和 NDCG@k($k \in \{3, 5\}$);所有结果为 5 次运行平均值
  • 8x RTX PRO 6000 GPU

3.3 Baseline 方法

  • Traditional RS: GRU4Rec, SASRec, LightGCN, CL4SRec
  • Multimodal RS: LATTICE, MoRec, BM3, AB-Rec
  • LLM-based RS: TallRec, LLaRA, SPRec, RecZero
  • MLLM-based RS: MSRBench, MLLM-MSR, MLLMRec-R1 (Ours)

4. 实验结果

4.1 标准候选集性能对比(Table 1)

| Model | Year | Movielens-1M ||| Microlens ||| Netflix ||| |-------|------|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5| | GRU4Rec | ICLR'16 | 0.5507 | 0.7131 | 0.4762 | 0.5236 | 0.5080 | 0.6440 | 0.4369 | 0.4756 | 0.5152 | 0.7152 | 0.3659 | 0.4494 | | SASRec | ICDM'18 | 0.6073 | 0.7498 | 0.5090 | 0.5638 | 0.5243 | 0.6597 | 0.4439 | 0.4958 | 0.5560 | 0.7570 | 0.4042 | 0.4786 | | LightGCN | SIGIR'20 | 0.5808 | 0.7167 | 0.4894 | 0.5330 | 0.5138 | 0.6604 | 0.4344 | 0.4913 | 0.5430 | 0.7420 | 0.3928 | 0.4702 | | CL4SRec | ICDE'22 | 0.6221 | 0.7557 | 0.5306 | 0.5861 | 0.5482 | 0.6826 | 0.4694 | 0.5186 | 0.5788 | 0.7873 | 0.4374 | 0.5091 | | LATTICE | MM'21 | 0.6131 | 0.7558 | 0.5223 | 0.5762 | 0.5306 | 0.6612 | 0.4531 | 0.5036 | 0.5635 | 0.7955 | 0.4110 | 0.5038 | | MoRec | SIGIR'23 | 0.6059 | 0.7552 | 0.5074 | 0.5642 | 0.5267 | 0.6515 | 0.4537 | 0.4970 | 0.5742 | 0.7725 | 0.4277 | 0.4887 | | BM3 | WWW'23 | 0.6222 | 0.7618 | 0.5259 | 0.5788 | 0.5421 | 0.6836 | 0.4749 | 0.5291 | 0.5825 | 0.8155 | 0.4213 | 0.5358 | | AB-Rec | KDD'25 | 0.6194 | 0.7513 | 0.5219 | 0.5787 | 0.5426 | 0.6740 | 0.4645 | 0.5125 | 0.5865 | 0.8094 | 0.4390 | 0.5243 | | TallRec | Recsys'23 | 0.6139 | 0.7324 | 0.5236 | 0.5613 | 0.5243 | 0.6597 | 0.4439 | 0.4958 | 0.5690 | 0.7885 | 0.4174 | 0.4967 | | LLaRA | SIGIR'24 | 0.6172 | 0.7490 | 0.5201 | 0.5681 | 0.5213 | 0.6799 | 0.4423 | 0.5080 | 0.5650 | 0.7700 | 0.4072 | 0.4854 | | SPRec | WWW'25 | 0.6273 | 0.7598 | 0.5290 | 0.5738 | 0.5473 | 0.6798 | 0.4690 | 0.5138 | 0.5765 | 0.7982 | 0.4250 | 0.5167 | | RecZero | NIPS'25 | 0.6595 | 0.7664 | 0.5639 | 0.6067 | 0.6032 | 0.7062 | 0.5166 | 0.5648 | 0.6520 | 0.8205 | 0.5195 | 0.5857 | | MSRBench | WWW'25 | 0.6272 | 0.7507 | 0.5288 | 0.5743 | 0.5543 | 0.6897 | 0.4739 | 0.5258 | 0.5720 | 0.7820 | 0.4295 | 0.5029 | | MLLM-MSR | AAAI'25 | 0.6261 | 0.7563 | 0.5313 | 0.5827 | 0.5547 | 0.6734 | 0.4655 | 0.5181 | 0.5910 | 0.8080 | 0.4429 | 0.5272 | | MLLMRec-R1 | Ours | 0.7630 | 0.8368 | 0.6524 | *0.6784 | 0.6627 | 0.7906 | *0.5845 | 0.6365 | 0.7150 | *0.8670 | 0.5902 | 0.6293*** | | Improv. % | | 15.69% | 9.19% | 15.82% | 11.82% | 9.86% | 11.95% | 13.14% | 12.69% | 9.66% | 5.67% | 13.61% | 7.44% |

实验结论:

  • MLLMRec-R1 在所有三个数据集、所有指标上均显著超越所有 baseline(p < 0.05)。
  • 相对提升:Microlens 15.82%、Netflix 13.14%、Movielens 13.61%(以 NG@3 计)。
  • 传统方法局限: 依赖充足交互数据,在稀疏场景(Netflix)表现受限。CL4SRec 通过对比学习缓解冷启动,但仍落后于 LLM 方法。
  • LLM 方法局限: SFT/DPO 方法忽视采样负样本的难度不均衡,DPO 反复强化由简单负样本主导的对比。纯文本 LLM 无法利用图像信息解决标题歧义。RecZero 同样使用 GRPO 但不建模多模态 CoT,性能显著低于 MLLMRec-R1。
  • MLLMRec-R1 优势: NG@3 的更大提升表明 top-rank 质量显著改善,多模态 CoT 提供细粒度偏好信号,GRPO 组内相对优势学习更好建模用户偏好。

4.2 大规模候选集性能(Table 4,候选集大小=100)

Dataset Model HR@5 HR@10 NG@5 NG@10
Movielens CL4SRec 0.1427 0.1991 0.1084 0.1198
TallRec 0.1317 0.1930 0.0930 0.1108
RecZero 0.1963 0.2418 0.1432 0.1530
MLLMRec-R1 0.2444 0.2983 0.1806 0.1969
Improv. % 24.50% 23.37% 26.12% 28.69%
Netflix CL4SRec 0.1080 0.1872 0.0671 0.0937
TallRec 0.0980 0.1790 0.0591 0.0836
RecZero 0.1963 0.2418 0.1432 0.1530
MLLMRec-R1 0.1715 0.2560 0.1199 0.1512
Improv. % 38.87% 15.06% 56.91% 41.84%

实验结论: 在大规模候选集设置下,MLLMRec-R1 相对优势更加明显,尤其 Netflix 上 NG@5 提升达 56.91%。排除了 MLLM-based baseline(其视觉 token 开销使大规模推理不可行),进一步证明了视觉信号文本化策略的实用价值。

4.3 消融实验(Table 2)

| Variant | Movielens-1M ||| Microlens ||| Netflix ||| |---------|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5|HR@3|HR@5|NG@3|NG@5| | w/o ALL | 0.6172 | 0.7490 | 0.5201 | 0.5019 | 0.6530 | 0.6530 | 0.4283 | 0.4855 | 0.5650 | 0.7700 | 0.4072 | 0.4854 | | w/o GRPO | 0.6139 | 0.7324 | 0.5236 | 0.5191 | 0.6582 | 0.6582 | 0.4397 | 0.4928 | 0.5690 | 0.8010 | 0.4174 | 0.5064 | | w/o MDA | 0.6465 | 0.7593 | 0.5824 | 0.6035 | 0.6799 | 0.6799 | 0.5441 | 0.6505 | 0.8145 | 0.8145 | 0.5098 | 0.5771 | | w/o MCoT | 0.6665 | 0.7767 | 0.5978 | 0.6287 | 0.7051 | 0.7051 | 0.5174 | 0.5625 | 0.6605 | 0.8280 | 0.5177 | 0.5899 | | w/o CoT Refinement | 0.6924 | 0.7791 | 0.5933 | 0.6239 | 0.7558 | 0.7558 | 0.5418 | 0.5893 | 0.6870 | 0.8249 | 0.5314 | 0.5806 | | w/o Pseudo-CoT | 0.7095 | 0.7864 | 0.6039 | 0.6267 | 0.7526 | 0.7526 | 0.5439 | 0.5887 | 0.6810 | 0.8280 | 0.5329 | 0.5872 | | w/o Caption | 0.7243 | 0.8021 | 0.6230 | 0.6435 | 0.7623 | 0.7623 | 0.5616 | 0.6109 | 0.6965 | 0.8415 | 0.5518 | 0.6067 | | MLLMRec-R1 | 0.7630 | 0.8368 | 0.6524 | *0.6784 | 0.7906 | 0.7906 | *0.5845 | 0.6365 | 0.7150 | *0.8670 | 0.5902 | 0.6293*** |

消融结论: 1. 去除 GRPO(w/o GRPO)性能大幅下降,接近去除所有组件(w/o ALL),说明 RL 阶段是核心。没有 GRPO,模型无法通过组内相对优势学习可靠排序。 2. 去除 MCoT(w/o MCoT)显著下降,说明纯文本 RL 可改善推荐但受限于缺乏高质量多模态 CoT 数据。 3. 去除 MDA(w/o MDA)下降明显,将所有 CoT 无差别注入训练反而因噪声和捷径学习损害泛化。 4. CoT 构建流水线的细粒度消融: Caption 和 Pseudo-CoT 均贡献正向效果,pseudo-CoT 贡献更大(提供显式偏好线索和可复用推理模式)。单独去除 CoT refinement 而保留 pseudo-CoT 会显著降低性能,可能因为潜在信息冲突。

4.4 不同历史长度的影响(Table 5,Movielens)

Length Model HR@5 HR@10 NG@5 NG@10
5 CL4SRec 0.5919 0.7492 0.4822 0.5452
TallRec 0.5993 0.7566 0.4935 0.5592
RecZero 0.6161 0.7275 0.5436 0.5639
MLLMRec-R1 0.7119 0.8353 0.6077 0.6574
Improv. % 15.55% 10.40% 11.79% 16.58%
10 CL4SRec 0.6221 0.7557 0.5306 0.5861
TallRec 0.6139 0.7324 0.5236 0.5613
RecZero 0.6595 0.7664 0.5639 0.6067
MLLMRec-R1 0.7630 0.8368 0.6524 0.6784
Improv. % 15.69% 9.19% 15.82% 11.82%
20 CL4SRec 0.6224 0.7521 0.5469 0.5817
TallRec 0.5637 0.7199 0.4765 0.5391
RecZero 0.6325 0.7455 0.5613 0.5958
MLLMRec-R1 0.7433 0.8369 0.6404 0.6760
Improv. % 17.52% 12.26% 14.09% 13.46%

实验结论: LLM-based 模型在 $t=10$ 达到峰值,$t=20$ 反而下降(更长历史引入弱相关信号和噪声)。传统序列模型在 $t=10$ 和 $t=20$ 表现相近(更依赖局部模式)。MLLMRec-R1 在所有历史长度下均保持显著优势。

4.5 不同 Backbone 规模的影响(Figure 5)

在 Qwen3-1.7B / 4B / 8B / 14B 四种规模上实验。更大模型在所有数据集上一致优于小模型,说明大模型更好地利用多模态 CoT 数据与 GRPO 优化。1.7B 模型性能较弱,可能因过度严格的指令微调导致输出与 top-k 候选不对齐。

4.6 超参数敏感性(Figure 6)

  • Group size $G$: $G$ 从 2 增到 8,HR 和 NDCG 均改善,更大组提供更稳定的相对优势信号。
  • 过滤比 $p$: 过度激进过滤(更小 $p$)在部分数据集上轻微下降,过少过滤则引入噪声。
  • KL 系数 $\beta$: 中等值表现最佳,反映限制策略漂移(稳定性)与允许探索性更新(有效性)之间的权衡。

4.7 CoT 数据质量评估(Figure 8)

采用 GPT-5.2-thinking、Claude-4.5-thinking 和人类标注者在 5 个维度评估 200 个 CoT 样本:模态一致性、预测一致性、信号密度、泄漏风险、覆盖难度。CoT Refinement 在所有维度上均优于 Pseudo-CoT,尤其在降低标签泄漏风险方面提升显著。

4.8 Case Study(Figure 7)

以 Movielens 用户 1127 为例:

  • GRPO w/o MCoT & MDA 输出基于浅层共现信号(如"Friday the 13th"系列重复),命中错误目标。
  • MLLMRec-R1<think> 中识别出用户偏好"经典严肃叙事和道德张力"的视觉线索(单色、低饱和度美学、严肃角色中心构图),正确预测目标电影 "All Quiet on the Western Front"。

5. 核心贡献总结

  1. 首个面向多模态序列推荐的 GRPO 框架:通过离线视觉信号文本化解决效率瓶颈,使 MLLM-based MSR 可实际训练。
  2. 三阶段 MCoT 构建流水线(Caption -> Pseudo-CoT -> CoT Refinement):避免标签泄漏,产生高质量推理监督。
  3. 混合粒度数据增强:双重一致性过滤 + 低混合比注入,抑制奖励膨胀和捷径学习。
  4. 轻量级奖励规则:$O(1)$ 格式+命中检查,无需额外奖励模型,训练稳定。
  5. 在三个公开数据集上全面超越 SOTA,大规模候选集下优势更显著。