OneRec-Think: In-Text Reasoning for Generative Recommendation¶
1. 研究动机与核心贡献¶
大语言模型 (LLM) 的强大生成能力催生了生成式推荐范式 (Generative Retrieval, GR)。现有代表性框架如 OneRec、OneLoc、OneSug、OneSearch 等已实现端到端的统一生成式推荐,用 Transformer-based sequence-to-sequence 模型自回归地解码目标候选的标识符,取代传统多阶段 (检索+排序) 漏斗。
然而,这些模型本质上是隐式预测器 (implicit predictors),缺乏 LLM 的一个关键优势——显式、可控的推理能力。现有的 reasoning-based 推荐方法分为两类:
- 显式推理 (explicit reasoning):生成可读的推理文本,但局限于判别式任务 (discriminative tasks)
- 隐式推理 (implicit reasoning):在潜在空间中执行推理,缺乏文本可解释性
OneRec-Think 填补了这一空白,将显式推理引入生成式推荐,在统一模型中同时实现对话、推理和个性化推荐。
核心贡献¶
- 引入统一框架,弥合离散推荐 item 与连续推理空间之间的语义鸿沟,将个性化推荐无缝融入 LLM 的自然语言理解能力
- 设计新的推理范式,让模型在多步推理中实现可解释且准确的个性化推荐
- 在多个公开 benchmark 上取得 SOTA,同时工业部署中实现 APP Stay Time +0.159% 的显著提升
2. 预备知识¶
Itemic Token¶
Itemic token 是 item 的离散语义丰富表示单元,类似于自然语言中的 word token。沿用 OneRec 的做法,将每个 item $v$ 映射为一组 itemic token 序列:
$$\boldsymbol{s}_v = (s_v^1, \ldots, s_v^L)$$
这些 token 从 item 的多模态和协作内容中生成。
问题定义¶
设 $\mathcal{U}$ 和 $\mathcal{V}$ 分别为用户集合和 item 集合。每个用户 $u \in \mathcal{U}$ 有时序交互历史 $V_u = (v_1^u, v_2^u, \ldots, v_{n_u}^u)$,长度为 $n_u$。用户的交互历史用 itemic token 表示为 $S_u = (\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n})$。
传统生成式推荐器将目标定义为生成下一个 itemic token:
$$\boldsymbol{s}_{v_{n+1}} \sim P(\cdot | \boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}; \theta) \tag{1}$$
OneRec-Think 则将推理和推荐统一为单次自回归过程。给定用户历史的 prompt,模型顺序生成推理序列 $\boldsymbol{\tau} = (r_1, \ldots, r_M)$,然后生成下一个 itemic token $\boldsymbol{s}_{v_{n+1}}$:
$$\boldsymbol{\tau} \sim P(\cdot \mid \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}); \theta)$$ $$\boldsymbol{s}_{v_{n+1}} \sim P(\cdot \mid \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{\tau}; \theta) \tag{2}$$
其中 $\mathcal{P}(\cdot)$ 表示为推荐构建的有效 prompt。
3. 方法:OneRec-Think 框架¶
OneRec-Think 包含三个核心阶段:Itemic Alignment、Reasoning Activation 和 Reasoning Enhancement,以及面向工业部署的 Think-Ahead 推理架构。
3.1 Stage 1: Itemic Alignment (多任务预训练)¶
目标是将推荐知识与 LLM 的语言空间对齐,通过四个互补任务在 Next Token Prediction 下实现 itemic token 与自然语言的无缝融合:
Task 1: Interleaved User Persona Grounding 将 itemic token 与用户画像文本交错排列,包含用户静态属性、主动搜索行为、交互序列和兴趣总结。不同于先前工作只使用纯文本或孤立 item 序列,该任务创建丰富的双模态训练实例。
Task 2: Sequential Preference Modeling 核心推荐任务,从时序用户历史中学习预测下一个 item,loss 仅计算在目标 itemic token 上。
Task 3: Itemic Dense Captioning 要求模型从 itemic token 解码出 item 的文本描述,建立 itemic token 与语义特征之间的双向映射。
Task 4: General Language Modeling 在通用文本语料上继续预训练,保持模型的基础语言能力。
两阶段训练策略:
- Token Warm-up:冻结 base LLM,仅在 Interleaved User Persona Grounding 任务上训练 itemic token embedding,学习率 $5 \times 10^{-4}$。工业场景中使用 6B token 的语料。
- Multi-Task Integration:解冻所有参数,在混合任务上联合优化。开源 benchmark 训练全参数;工业场景使用 LoRA (Hu et al., 2022),学习率 $3 \times 10^{-4}$。
各任务数据配比:
| 任务类型 | 数据占比 |
|---|---|
| Interleaved User Persona Grounding | 24.30% |
| Sequential Preference Modeling | 65.73% |
| Itemic Dense Captioning | 4.94% |
| General Language Modeling | 5.03% |
3.2 Stage 2: Reasoning Activation¶
直接在工业级推荐场景中应用 CoT 推理效果不佳,因为真实用户行为序列具有噪声大和长度长的特点。本文提出监督微调框架,先从剪枝后的上下文中提取连贯推理轨迹,再以此指导在原始行为数据上的推理生成。
Bootstrapping with Pruned Contexts:
对每个用户,选取目标 item $\boldsymbol{s}_{v_{n+1}}$,构建上下文-目标对 $\langle (\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{s}_{v_{n+1}} \rangle$。然后用相似度函数 $g(\cdot, \cdot)$ 检索与目标最相关的 top-$k$ 个历史 item(实验中 $k=10$):
$$g((\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{s}_{v_{n+1}}) = (\boldsymbol{s}_{w_1}, \ldots, \boldsymbol{s}_{w_k}) \tag{3}$$
基于剪枝后的序列,让预对齐模型生成解释目标交互的推理文本 $\boldsymbol{\tau}$:
$$\boldsymbol{\tau} \sim P\left(\cdot \mid \mathcal{P}_r((\boldsymbol{s}_{w_1}, \ldots, \boldsymbol{s}_{w_k}), \boldsymbol{s}_{v_{n+1}}); \theta\right) \tag{4}$$
Learning to Reason from Noisy Sequences:
蒸馏得到的 rationale 作为监督信号,训练目标为最小化生成 rationale 和目标 item 的负对数似然:
$$\mathcal{L}_{\text{RA}} = -\left(\sum_{i=1}^{M} \log P(r_i | \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), r_{\lt i}; \theta) + \sum_{j=1}^{L} \log P(s_{v_{n+1}}^j | \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{\tau}, s_{v_{n+1}}^{\lt j}; \theta)\right) \tag{5}$$
loss 对两部分 (rationale 和 item token) 等权,模型同时学习从噪声上下文中提炼相关信息并生成连贯推理。
3.3 Stage 3: Reasoning Enhancement (强化学习)¶
使用强化学习进一步优化推理质量和推荐准确性。
Rollout-Beam Reward:
标准 pass reward 在推荐场景面临严重稀疏性问题——大多数推理 rollout 无法命中目标 item,导致奖励全为零,使得 GRPO 等算法中的组优势相互抵消。为此提出 Rollout-Beam reward,在约束 beam 内评估模型的最佳可达性能:
$$\mathcal{R}_{\text{Rollout-Beam}} = \max_{\boldsymbol{s}_{v_{n+1}} \in \mathcal{B}} \sum_{l=1}^{L} \mathbb{I}(\hat{s}_{v_{n+1}}^l = s_{v_{n+1}}^l) \tag{6}$$
其中 beam search 结果集定义为:
$$\mathcal{B} = \left\{(\hat{s}_{v_{n+1}}^{1,(j)}, \cdots, \hat{s}_{v_{n+1}}^{L,(j)})\right\}_{j=1}^{K} = \text{BeamSearch}\left(P(\boldsymbol{s}_{v_{n+1}} \mid \boldsymbol{H}, \boldsymbol{\tau}; \theta), K\right) \tag{7}$$
该设计将训练时的奖励计算与推理时的 beam search 对齐,提供更密集的学习信号。
训练细节: 使用 VERL 框架 + GRPO 算法,采样 $|G|=16$ 条 CoT 路径,每条做 $K=32$ 的 beam search 计算 reward。训练 2 epoch,学习率 1e-5,KL 散度系数 $\beta=0.001$,clip ratio $\epsilon=0.2$。
3.4 工业部署:Think-Ahead 架构¶
核心挑战是将多步推理的计算开销与实时延迟要求调和。Think-Ahead 将推理分为两个阶段:
Stage 1: Reasoning-Guided Prefix Generation (离线)
对每个用户,用完整 OneRec-Think 模型采样 $T$ 条不同推理路径:
$$\tau^{(i)} \sim P(\cdot \mid H_u; \theta) \tag{8}$$
对每条推理路径,用 beam search 解码前两个 itemic token 作为候选 prefix:
$$\mathcal{A}_u^{(i)} = \text{BeamSearch}\left(P(\hat{s}_{v_{n+1}}^1, \hat{s}_{v_{n+1}}^2 \mid H_u, \tau^{(i)}; \theta), m\right) \tag{9}$$
所有路径的 prefix 集合构成用户个性化候选空间:
$$\mathcal{C}_u = \bigcup_{i=1}^{T} \mathcal{A}_u^{(i)} \tag{10}$$
该集合($T \times m$ 个高潜 item prefix)缓存在分布式存储中。
Stage 2: Prefix-Constrained Finalization (在线)
用户请求到达时,检索 $\mathcal{C}_u$,用实时更新的 OneRec 模型 $h_{\text{online}}$ 推断最后一个 token,搜索空间被约束为候选 prefix 集:
$$\hat{s}_{v_{n+1}} = \arg\max_{\boldsymbol{s}_{v_{n+1}}} P_{h_{\text{online}}}(\boldsymbol{s}_{v_{n+1}} \mid \boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n})$$ $$\text{s.t.} \quad (\hat{s}_{v_{n+1}}^1, \hat{s}_{v_{n+1}}^2) \in \mathcal{C}_u \tag{11}$$
4. 实验¶
4.1 实验设置¶
数据集: Amazon Review Benchmark 中的三个数据集:Beauty、Toys、Sports。
Backbone: 开源 benchmark 使用 Qwen3-1.7B,词表扩展 1,024 个新 token(四级层次语义 ID,每级 256 token)+ 2 个边界 token <|item_begin|> 和 <|item_end|>。
评估指标: top-K Recall (R@K) 和 NDCG (N@K),K=5 和 10。使用 leave-one-out 策略划分数据,用户历史限制为 50 个 item。Beam width = 10。
Baselines:
- 传统序列推荐:BERT4Rec, HGN, GRU4Rec, SASRec
- 生成式推荐:TIGER, HSTU, ReaRec
4.2 整体性能 (Table 1)¶
| Dataset | Method | BERT4Rec | HGN | GRU4Rec | SASRec | TIGER | HSTU | ReaRec | OneRec-Think |
|---|---|---|---|---|---|---|---|---|---|
| Beauty | R@5 | 0.0232 | 0.0319 | 0.0395 | 0.0402 | 0.0405 | 0.0424 | 0.0450 | 0.0563 |
| R@10 | 0.0396 | 0.0536 | 0.0584 | 0.0607 | 0.0623 | 0.0652 | 0.0704 | 0.0791 | |
| N@5 | 0.0146 | 0.0196 | 0.0265 | 0.0254 | 0.0267 | 0.0280 | 0.0262 | 0.0398 | |
| N@10 | 0.0199 | 0.0266 | 0.0326 | 0.0320 | 0.0337 | 0.0353 | 0.0344 | 0.0471 | |
| Sports | R@5 | 0.0102 | 0.0183 | 0.0190 | 0.0199 | 0.0215 | 0.0268 | 0.0214 | 0.0288 |
| R@10 | 0.0175 | 0.0313 | 0.0312 | 0.0301 | 0.0347 | 0.0343 | 0.0332 | 0.0412 | |
| N@5 | 0.0065 | 0.0109 | 0.0122 | 0.0106 | 0.0137 | 0.0173 | 0.0116 | 0.0199 | |
| N@10 | 0.0088 | 0.0150 | 0.0161 | 0.0141 | 0.0179 | 0.0226 | 0.0154 | 0.0239 | |
| Toys | R@5 | 0.0215 | 0.0326 | 0.0330 | 0.0448 | 0.0337 | 0.0366 | 0.0523 | 0.0579 |
| R@10 | 0.0332 | 0.0517 | 0.0490 | 0.0626 | 0.0547 | 0.0566 | 0.0764 | 0.0797 | |
| N@5 | 0.0131 | 0.0192 | 0.0228 | 0.0300 | 0.0209 | 0.0245 | 0.0298 | 0.0412 | |
| N@10 | 0.0168 | 0.0254 | 0.0279 | 0.0358 | 0.0276 | 0.0309 | 0.0376 | 0.0482 |
结论: OneRec-Think 在所有三个数据集的所有指标上均取得最优性能。利用显式文本推理能力进行 item 生成是其显著优势来源,相比先前隐式生成机制有本质提升。具有推理能力的模型 (ReaRec 和 OneRec-Think) 在所有 benchmark 上一致优于传统序列推荐和生成式推荐器。
4.3 消融实验 (Table 2, Beauty 数据集)¶
| Training Method | R@5 | R@10 | N@5 | N@10 |
|---|---|---|---|---|
| Base | 0.0460 | 0.0654 | 0.0314 | 0.0377 |
| Base+IA | 0.0532 | 0.0735 | 0.0342 | 0.0402 |
| Base+IA+R | 0.0563 | 0.0791 | 0.0398 | 0.0471 |
结论: 每个组件都不可或缺。Itemic Alignment 通过创建 itemic token 的连贯语义表示提供基础增益;推理机制进一步带来显著提升,验证了两个组件协同解决序列推荐核心挑战。
4.4 工业实验¶
训练设置: 以 Qwen-8B 为 backbone,词表扩展 24,576 个新 token(三级层次 itemic token,每级 8,192)+ 2 个边界 token。使用 80 张旗舰 GPU 集群,每日增量训练,每天处理约 20B token。
在线 A/B 测试结果 (Table 3, 快手短视频推荐):
| Online Metrics | OneRec-Think |
|---|---|
| App Stay Time | +0.159% |
| Watch Time | +0.169% |
| Video View | +0.150% |
| Follow | +0.431% |
| Forward | +0.758% |
| Like | +0.019% |
| Collect | +0.098% |
结论: 在工业推荐系统中,0.1% 的提升即被认为是显著的。APP Stay Time +0.159% 是核心指标的重大提升。互动指标如 Video View 和 Forward 也呈积极趋势,表明用户参与度增强。
4.5 Itemic Alignment 工业消融 (Table 4)¶
BertScore 评估 User Understanding 和 Short Video Understanding benchmark:
| Benchmark | Qwen3 | Qwen3+TW | Qwen3+TW+MI |
|---|---|---|---|
| User | 0.6588 | 0.6492 | 0.7053 |
| Short Video | 0.6031 | 0.6443 | 0.7300 |
结论: 在文本丰富的 User Understanding 任务上,Token Warm-up (TW) 提供有限增益(LLM 本身可直接处理文本信息),而 Multi-Task Integration (MI) 将对齐表示转化为可操作洞察带来大幅提升。在纯 itemic token 的 Short Video Understanding 任务上,TW 和 MI 均带来逐步增益,验证了两个子阶段对最终 Itemic Alignment 效果的贡献。
5. Case Study¶
论文展示了多个有代表性的案例:
-
对话式推荐适配 (Figure 3):当用户表达负面情绪(如"心情不好"),模型检测到情感信号,策略性地从一般兴趣转向轻松正面内容,展示了通过对话主动优化观看体验的能力。
-
细粒度兴趣推理 (Figure 4):模型生成多样化推理路径,捕捉用户的细粒度偏好(如具体游戏机制、叙事模式),超越粗粒度话题匹配实现精准推荐。
-
推理一致性分析 (Figure 5):在 beam search 的不同推理步骤中,推理文本与推荐 item 之间保持强对齐,推理过程从宽泛兴趣匹配逐步细化到精确主题描述。
-
Itemic-Textual 交错推理 (Figure 6):模型实现 itemic token 锚定内容 + 文本 token 表达因果推理的交错模式,推理准确性和可解释性超越孤立模态方法。
6. 局限性¶
- 当前公开数据集的行为序列长度有限且 item 空间受限,阻碍了 Reasoning Activation 和 Enhancement 模块获得与工业数据可比的推理能力
- 在公开数据集上采用简化方案(手动构建 category-based CoT 作为 Reasoning Activation 的语义引导)以保持稳定的推理质量
- 正在构建大规模 benchmark,包含扩展行为轨迹和多样化 item 目录
7. 总结¶
OneRec-Think 通过三个关键创新将推理能力与生成式推荐桥接:层次化 itemic token 对齐、CoT 监督微调激活推理、强化学习优化推理质量。该方法将推荐系统从纯 item 预测器转变为推理感知模型,既生成可解释的推理路径又产出高质量推荐。在多个公开 benchmark 上达到 SOTA,并在快手工业场景以 APP Stay Time +0.159% 的增益验证了实际效果。