← Back to list
OneRec-Think

OneRec-Think: In-Text Reasoning for Generative Recommendation

生成式推荐 Kuaishou
Abstract 9 Reading 9 Rating —
2025-10-13
Zhanyu Liu, Shiyao Wang, Xingmei Wang, Rongzhou Zhang, Jiaxin Deng, Honghui Bao, Jinghao Zhang, Wuchao Li, Pengfei Zheng, Xiangyu Wu, Yifei Hu, Qigen Hu, Xinchen Luo, Lejian Ren, Zixing Zhang, Qianqian Wang, Kuo Cai, Yunfan Wu, Hongtao Cheng, Zexuan Cheng, Lu Ren, Huanjie Wang, Yi Su, Ruiming Tang, Kun Gai, Guorui Zhou
Kuaishou Inc.
提出 OneRec-Think 框架,通过三阶段(Itemic Alignment、Reasoning Activation、Reasoning Enhancement)将显式推理引入生成式推荐,取得公开 benchmark SOTA 及快手 APP 停留时长 +0.159%
ad-rec industrial transformer pretrained-lm rl semantic-id

OneRec-Think: In-Text Reasoning for Generative Recommendation

1. 研究动机与核心贡献

大语言模型 (LLM) 的强大生成能力催生了生成式推荐范式 (Generative Retrieval, GR)。现有代表性框架如 OneRec、OneLoc、OneSug、OneSearch 等已实现端到端的统一生成式推荐,用 Transformer-based sequence-to-sequence 模型自回归地解码目标候选的标识符,取代传统多阶段 (检索+排序) 漏斗。

然而,这些模型本质上是隐式预测器 (implicit predictors),缺乏 LLM 的一个关键优势——显式、可控的推理能力。现有的 reasoning-based 推荐方法分为两类:

  • 显式推理 (explicit reasoning):生成可读的推理文本,但局限于判别式任务 (discriminative tasks)
  • 隐式推理 (implicit reasoning):在潜在空间中执行推理,缺乏文本可解释性

OneRec-Think 填补了这一空白,将显式推理引入生成式推荐,在统一模型中同时实现对话、推理和个性化推荐。

核心贡献

  1. 引入统一框架,弥合离散推荐 item 与连续推理空间之间的语义鸿沟,将个性化推荐无缝融入 LLM 的自然语言理解能力
  2. 设计新的推理范式,让模型在多步推理中实现可解释且准确的个性化推荐
  3. 在多个公开 benchmark 上取得 SOTA,同时工业部署中实现 APP Stay Time +0.159% 的显著提升

2. 预备知识

Itemic Token

Itemic token 是 item 的离散语义丰富表示单元,类似于自然语言中的 word token。沿用 OneRec 的做法,将每个 item $v$ 映射为一组 itemic token 序列:

$$\boldsymbol{s}_v = (s_v^1, \ldots, s_v^L)$$

这些 token 从 item 的多模态和协作内容中生成。

问题定义

设 $\mathcal{U}$ 和 $\mathcal{V}$ 分别为用户集合和 item 集合。每个用户 $u \in \mathcal{U}$ 有时序交互历史 $V_u = (v_1^u, v_2^u, \ldots, v_{n_u}^u)$,长度为 $n_u$。用户的交互历史用 itemic token 表示为 $S_u = (\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n})$。

传统生成式推荐器将目标定义为生成下一个 itemic token:

$$\boldsymbol{s}_{v_{n+1}} \sim P(\cdot | \boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}; \theta) \tag{1}$$

OneRec-Think 则将推理和推荐统一为单次自回归过程。给定用户历史的 prompt,模型顺序生成推理序列 $\boldsymbol{\tau} = (r_1, \ldots, r_M)$,然后生成下一个 itemic token $\boldsymbol{s}_{v_{n+1}}$:

$$\boldsymbol{\tau} \sim P(\cdot \mid \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}); \theta)$$ $$\boldsymbol{s}_{v_{n+1}} \sim P(\cdot \mid \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{\tau}; \theta) \tag{2}$$

其中 $\mathcal{P}(\cdot)$ 表示为推荐构建的有效 prompt。

3. 方法:OneRec-Think 框架

OneRec-Think 包含三个核心阶段:Itemic AlignmentReasoning ActivationReasoning Enhancement,以及面向工业部署的 Think-Ahead 推理架构。

3.1 Stage 1: Itemic Alignment (多任务预训练)

目标是将推荐知识与 LLM 的语言空间对齐,通过四个互补任务在 Next Token Prediction 下实现 itemic token 与自然语言的无缝融合:

Task 1: Interleaved User Persona Grounding 将 itemic token 与用户画像文本交错排列,包含用户静态属性、主动搜索行为、交互序列和兴趣总结。不同于先前工作只使用纯文本或孤立 item 序列,该任务创建丰富的双模态训练实例。

Task 2: Sequential Preference Modeling 核心推荐任务,从时序用户历史中学习预测下一个 item,loss 仅计算在目标 itemic token 上。

Task 3: Itemic Dense Captioning 要求模型从 itemic token 解码出 item 的文本描述,建立 itemic token 与语义特征之间的双向映射。

Task 4: General Language Modeling 在通用文本语料上继续预训练,保持模型的基础语言能力。

两阶段训练策略:

  • Token Warm-up:冻结 base LLM,仅在 Interleaved User Persona Grounding 任务上训练 itemic token embedding,学习率 $5 \times 10^{-4}$。工业场景中使用 6B token 的语料。
  • Multi-Task Integration:解冻所有参数,在混合任务上联合优化。开源 benchmark 训练全参数;工业场景使用 LoRA (Hu et al., 2022),学习率 $3 \times 10^{-4}$。

各任务数据配比:

任务类型 数据占比
Interleaved User Persona Grounding 24.30%
Sequential Preference Modeling 65.73%
Itemic Dense Captioning 4.94%
General Language Modeling 5.03%

3.2 Stage 2: Reasoning Activation

直接在工业级推荐场景中应用 CoT 推理效果不佳,因为真实用户行为序列具有噪声大长度长的特点。本文提出监督微调框架,先从剪枝后的上下文中提取连贯推理轨迹,再以此指导在原始行为数据上的推理生成。

Bootstrapping with Pruned Contexts:

对每个用户,选取目标 item $\boldsymbol{s}_{v_{n+1}}$,构建上下文-目标对 $\langle (\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{s}_{v_{n+1}} \rangle$。然后用相似度函数 $g(\cdot, \cdot)$ 检索与目标最相关的 top-$k$ 个历史 item(实验中 $k=10$):

$$g((\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{s}_{v_{n+1}}) = (\boldsymbol{s}_{w_1}, \ldots, \boldsymbol{s}_{w_k}) \tag{3}$$

基于剪枝后的序列,让预对齐模型生成解释目标交互的推理文本 $\boldsymbol{\tau}$:

$$\boldsymbol{\tau} \sim P\left(\cdot \mid \mathcal{P}_r((\boldsymbol{s}_{w_1}, \ldots, \boldsymbol{s}_{w_k}), \boldsymbol{s}_{v_{n+1}}); \theta\right) \tag{4}$$

Learning to Reason from Noisy Sequences:

蒸馏得到的 rationale 作为监督信号,训练目标为最小化生成 rationale 和目标 item 的负对数似然:

$$\mathcal{L}_{\text{RA}} = -\left(\sum_{i=1}^{M} \log P(r_i | \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), r_{\lt i}; \theta) + \sum_{j=1}^{L} \log P(s_{v_{n+1}}^j | \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{\tau}, s_{v_{n+1}}^{\lt j}; \theta)\right) \tag{5}$$

loss 对两部分 (rationale 和 item token) 等权,模型同时学习从噪声上下文中提炼相关信息并生成连贯推理。

3.3 Stage 3: Reasoning Enhancement (强化学习)

使用强化学习进一步优化推理质量和推荐准确性。

Rollout-Beam Reward:

标准 pass reward 在推荐场景面临严重稀疏性问题——大多数推理 rollout 无法命中目标 item,导致奖励全为零,使得 GRPO 等算法中的组优势相互抵消。为此提出 Rollout-Beam reward,在约束 beam 内评估模型的最佳可达性能:

$$\mathcal{R}_{\text{Rollout-Beam}} = \max_{\boldsymbol{s}_{v_{n+1}} \in \mathcal{B}} \sum_{l=1}^{L} \mathbb{I}(\hat{s}_{v_{n+1}}^l = s_{v_{n+1}}^l) \tag{6}$$

其中 beam search 结果集定义为:

$$\mathcal{B} = \left\{(\hat{s}_{v_{n+1}}^{1,(j)}, \cdots, \hat{s}_{v_{n+1}}^{L,(j)})\right\}_{j=1}^{K} = \text{BeamSearch}\left(P(\boldsymbol{s}_{v_{n+1}} \mid \boldsymbol{H}, \boldsymbol{\tau}; \theta), K\right) \tag{7}$$

该设计将训练时的奖励计算与推理时的 beam search 对齐,提供更密集的学习信号。

训练细节: 使用 VERL 框架 + GRPO 算法,采样 $|G|=16$ 条 CoT 路径,每条做 $K=32$ 的 beam search 计算 reward。训练 2 epoch,学习率 1e-5,KL 散度系数 $\beta=0.001$,clip ratio $\epsilon=0.2$。

3.4 工业部署:Think-Ahead 架构

核心挑战是将多步推理的计算开销与实时延迟要求调和。Think-Ahead 将推理分为两个阶段:

Stage 1: Reasoning-Guided Prefix Generation (离线)

对每个用户,用完整 OneRec-Think 模型采样 $T$ 条不同推理路径:

$$\tau^{(i)} \sim P(\cdot \mid H_u; \theta) \tag{8}$$

对每条推理路径,用 beam search 解码前两个 itemic token 作为候选 prefix:

$$\mathcal{A}_u^{(i)} = \text{BeamSearch}\left(P(\hat{s}_{v_{n+1}}^1, \hat{s}_{v_{n+1}}^2 \mid H_u, \tau^{(i)}; \theta), m\right) \tag{9}$$

所有路径的 prefix 集合构成用户个性化候选空间:

$$\mathcal{C}_u = \bigcup_{i=1}^{T} \mathcal{A}_u^{(i)} \tag{10}$$

该集合($T \times m$ 个高潜 item prefix)缓存在分布式存储中。

Stage 2: Prefix-Constrained Finalization (在线)

用户请求到达时,检索 $\mathcal{C}_u$,用实时更新的 OneRec 模型 $h_{\text{online}}$ 推断最后一个 token,搜索空间被约束为候选 prefix 集:

$$\hat{s}_{v_{n+1}} = \arg\max_{\boldsymbol{s}_{v_{n+1}}} P_{h_{\text{online}}}(\boldsymbol{s}_{v_{n+1}} \mid \boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n})$$ $$\text{s.t.} \quad (\hat{s}_{v_{n+1}}^1, \hat{s}_{v_{n+1}}^2) \in \mathcal{C}_u \tag{11}$$

4. 实验

4.1 实验设置

数据集: Amazon Review Benchmark 中的三个数据集:Beauty、Toys、Sports。

Backbone: 开源 benchmark 使用 Qwen3-1.7B,词表扩展 1,024 个新 token(四级层次语义 ID,每级 256 token)+ 2 个边界 token <|item_begin|><|item_end|>

评估指标: top-K Recall (R@K) 和 NDCG (N@K),K=5 和 10。使用 leave-one-out 策略划分数据,用户历史限制为 50 个 item。Beam width = 10。

Baselines:

  • 传统序列推荐:BERT4Rec, HGN, GRU4Rec, SASRec
  • 生成式推荐:TIGER, HSTU, ReaRec

4.2 整体性能 (Table 1)

Dataset Method BERT4Rec HGN GRU4Rec SASRec TIGER HSTU ReaRec OneRec-Think
Beauty R@5 0.0232 0.0319 0.0395 0.0402 0.0405 0.0424 0.0450 0.0563
R@10 0.0396 0.0536 0.0584 0.0607 0.0623 0.0652 0.0704 0.0791
N@5 0.0146 0.0196 0.0265 0.0254 0.0267 0.0280 0.0262 0.0398
N@10 0.0199 0.0266 0.0326 0.0320 0.0337 0.0353 0.0344 0.0471
Sports R@5 0.0102 0.0183 0.0190 0.0199 0.0215 0.0268 0.0214 0.0288
R@10 0.0175 0.0313 0.0312 0.0301 0.0347 0.0343 0.0332 0.0412
N@5 0.0065 0.0109 0.0122 0.0106 0.0137 0.0173 0.0116 0.0199
N@10 0.0088 0.0150 0.0161 0.0141 0.0179 0.0226 0.0154 0.0239
Toys R@5 0.0215 0.0326 0.0330 0.0448 0.0337 0.0366 0.0523 0.0579
R@10 0.0332 0.0517 0.0490 0.0626 0.0547 0.0566 0.0764 0.0797
N@5 0.0131 0.0192 0.0228 0.0300 0.0209 0.0245 0.0298 0.0412
N@10 0.0168 0.0254 0.0279 0.0358 0.0276 0.0309 0.0376 0.0482

结论: OneRec-Think 在所有三个数据集的所有指标上均取得最优性能。利用显式文本推理能力进行 item 生成是其显著优势来源,相比先前隐式生成机制有本质提升。具有推理能力的模型 (ReaRec 和 OneRec-Think) 在所有 benchmark 上一致优于传统序列推荐和生成式推荐器。

4.3 消融实验 (Table 2, Beauty 数据集)

Training Method R@5 R@10 N@5 N@10
Base 0.0460 0.0654 0.0314 0.0377
Base+IA 0.0532 0.0735 0.0342 0.0402
Base+IA+R 0.0563 0.0791 0.0398 0.0471

结论: 每个组件都不可或缺。Itemic Alignment 通过创建 itemic token 的连贯语义表示提供基础增益;推理机制进一步带来显著提升,验证了两个组件协同解决序列推荐核心挑战。

4.4 工业实验

训练设置: 以 Qwen-8B 为 backbone,词表扩展 24,576 个新 token(三级层次 itemic token,每级 8,192)+ 2 个边界 token。使用 80 张旗舰 GPU 集群,每日增量训练,每天处理约 20B token。

在线 A/B 测试结果 (Table 3, 快手短视频推荐):

Online Metrics OneRec-Think
App Stay Time +0.159%
Watch Time +0.169%
Video View +0.150%
Follow +0.431%
Forward +0.758%
Like +0.019%
Collect +0.098%

结论: 在工业推荐系统中,0.1% 的提升即被认为是显著的。APP Stay Time +0.159% 是核心指标的重大提升。互动指标如 Video View 和 Forward 也呈积极趋势,表明用户参与度增强。

4.5 Itemic Alignment 工业消融 (Table 4)

BertScore 评估 User Understanding 和 Short Video Understanding benchmark:

Benchmark Qwen3 Qwen3+TW Qwen3+TW+MI
User 0.6588 0.6492 0.7053
Short Video 0.6031 0.6443 0.7300

结论: 在文本丰富的 User Understanding 任务上,Token Warm-up (TW) 提供有限增益(LLM 本身可直接处理文本信息),而 Multi-Task Integration (MI) 将对齐表示转化为可操作洞察带来大幅提升。在纯 itemic token 的 Short Video Understanding 任务上,TW 和 MI 均带来逐步增益,验证了两个子阶段对最终 Itemic Alignment 效果的贡献。

5. Case Study

论文展示了多个有代表性的案例:

  1. 对话式推荐适配 (Figure 3):当用户表达负面情绪(如"心情不好"),模型检测到情感信号,策略性地从一般兴趣转向轻松正面内容,展示了通过对话主动优化观看体验的能力。

  2. 细粒度兴趣推理 (Figure 4):模型生成多样化推理路径,捕捉用户的细粒度偏好(如具体游戏机制、叙事模式),超越粗粒度话题匹配实现精准推荐。

  3. 推理一致性分析 (Figure 5):在 beam search 的不同推理步骤中,推理文本与推荐 item 之间保持强对齐,推理过程从宽泛兴趣匹配逐步细化到精确主题描述。

  4. Itemic-Textual 交错推理 (Figure 6):模型实现 itemic token 锚定内容 + 文本 token 表达因果推理的交错模式,推理准确性和可解释性超越孤立模态方法。

6. 局限性

  • 当前公开数据集的行为序列长度有限且 item 空间受限,阻碍了 Reasoning Activation 和 Enhancement 模块获得与工业数据可比的推理能力
  • 在公开数据集上采用简化方案(手动构建 category-based CoT 作为 Reasoning Activation 的语义引导)以保持稳定的推理质量
  • 正在构建大规模 benchmark,包含扩展行为轨迹和多样化 item 目录

7. 总结

OneRec-Think 通过三个关键创新将推理能力与生成式推荐桥接:层次化 itemic token 对齐、CoT 监督微调激活推理、强化学习优化推理质量。该方法将推荐系统从纯 item 预测器转变为推理感知模型,既生成可解释的推理路径又产出高质量推荐。在多个公开 benchmark 上达到 SOTA,并在快手工业场景以 APP Stay Time +0.159% 的增益验证了实际效果。