OneRec-Think: In-Text Reasoning for Generative Recommendation¶

1. 研究动机与核心贡献¶

大语言模型 (LLM) 的强大生成能力催生了生成式推荐范式 (Generative Retrieval, GR)。现有代表性框架如 OneRec、OneLoc、OneSug、OneSearch 等已实现端到端的统一生成式推荐，用 Transformer-based sequence-to-sequence 模型自回归地解码目标候选的标识符，取代传统多阶段 (检索+排序) 漏斗。

然而，这些模型本质上是隐式预测器 (implicit predictors)，缺乏 LLM 的一个关键优势——显式、可控的推理能力。现有的 reasoning-based 推荐方法分为两类：

显式推理 (explicit reasoning)：生成可读的推理文本，但局限于判别式任务 (discriminative tasks)
隐式推理 (implicit reasoning)：在潜在空间中执行推理，缺乏文本可解释性

OneRec-Think 填补了这一空白，将显式推理引入生成式推荐，在统一模型中同时实现对话、推理和个性化推荐。

核心贡献¶

引入统一框架，弥合离散推荐 item 与连续推理空间之间的语义鸿沟，将个性化推荐无缝融入 LLM 的自然语言理解能力
设计新的推理范式，让模型在多步推理中实现可解释且准确的个性化推荐
在多个公开 benchmark 上取得 SOTA，同时工业部署中实现 APP Stay Time +0.159% 的显著提升

2. 预备知识¶

Itemic Token¶

Itemic token 是 item 的离散语义丰富表示单元，类似于自然语言中的 word token。沿用 OneRec 的做法，将每个 item $v$ 映射为一组 itemic token 序列：

$$\boldsymbol{s}_v = (s_v^1, \ldots, s_v^L)$$

这些 token 从 item 的多模态和协作内容中生成。

问题定义¶

设 $\mathcal{U}$ 和 $\mathcal{V}$ 分别为用户集合和 item 集合。每个用户 $u \in \mathcal{U}$ 有时序交互历史 $V_u = (v_1^u, v_2^u, \ldots, v_{n_u}^u)$，长度为 $n_u$。用户的交互历史用 itemic token 表示为 $S_u = (\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n})$。

传统生成式推荐器将目标定义为生成下一个 itemic token：

$$\boldsymbol{s}_{v_{n+1}} \sim P(\cdot | \boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}; \theta) \tag{1}$$

OneRec-Think 则将推理和推荐统一为单次自回归过程。给定用户历史的 prompt，模型顺序生成推理序列 $\boldsymbol{\tau} = (r_1, \ldots, r_M)$，然后生成下一个 itemic token $\boldsymbol{s}_{v_{n+1}}$：

$$\boldsymbol{\tau} \sim P(\cdot \mid \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}); \theta)$$ $$\boldsymbol{s}_{v_{n+1}} \sim P(\cdot \mid \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{\tau}; \theta) \tag{2}$$

其中 $\mathcal{P}(\cdot)$ 表示为推荐构建的有效 prompt。

3. 方法：OneRec-Think 框架¶

OneRec-Think 包含三个核心阶段：Itemic Alignment、Reasoning Activation 和 Reasoning Enhancement，以及面向工业部署的 Think-Ahead 推理架构。

3.1 Stage 1: Itemic Alignment (多任务预训练)¶

目标是将推荐知识与 LLM 的语言空间对齐，通过四个互补任务在 Next Token Prediction 下实现 itemic token 与自然语言的无缝融合：

Task 1: Interleaved User Persona Grounding 将 itemic token 与用户画像文本交错排列，包含用户静态属性、主动搜索行为、交互序列和兴趣总结。不同于先前工作只使用纯文本或孤立 item 序列，该任务创建丰富的双模态训练实例。

Task 2: Sequential Preference Modeling 核心推荐任务，从时序用户历史中学习预测下一个 item，loss 仅计算在目标 itemic token 上。

Task 3: Itemic Dense Captioning 要求模型从 itemic token 解码出 item 的文本描述，建立 itemic token 与语义特征之间的双向映射。

Task 4: General Language Modeling 在通用文本语料上继续预训练，保持模型的基础语言能力。

两阶段训练策略：

Token Warm-up：冻结 base LLM，仅在 Interleaved User Persona Grounding 任务上训练 itemic token embedding，学习率 $5 \times 10^{-4}$。工业场景中使用 6B token 的语料。
Multi-Task Integration：解冻所有参数，在混合任务上联合优化。开源 benchmark 训练全参数；工业场景使用 LoRA (Hu et al., 2022)，学习率 $3 \times 10^{-4}$。

各任务数据配比：

任务类型	数据占比
Interleaved User Persona Grounding	24.30%
Sequential Preference Modeling	65.73%
Itemic Dense Captioning	4.94%
General Language Modeling	5.03%

3.2 Stage 2: Reasoning Activation¶

直接在工业级推荐场景中应用 CoT 推理效果不佳，因为真实用户行为序列具有噪声大和长度长的特点。本文提出监督微调框架，先从剪枝后的上下文中提取连贯推理轨迹，再以此指导在原始行为数据上的推理生成。

Bootstrapping with Pruned Contexts：

对每个用户，选取目标 item $\boldsymbol{s}_{v_{n+1}}$，构建上下文-目标对 $\langle (\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{s}_{v_{n+1}} \rangle$。然后用相似度函数 $g(\cdot, \cdot)$ 检索与目标最相关的 top-$k$ 个历史 item（实验中 $k=10$）：

$$g((\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{s}_{v_{n+1}}) = (\boldsymbol{s}_{w_1}, \ldots, \boldsymbol{s}_{w_k}) \tag{3}$$

基于剪枝后的序列，让预对齐模型生成解释目标交互的推理文本 $\boldsymbol{\tau}$：

$$\boldsymbol{\tau} \sim P\left(\cdot \mid \mathcal{P}_r((\boldsymbol{s}_{w_1}, \ldots, \boldsymbol{s}_{w_k}), \boldsymbol{s}_{v_{n+1}}); \theta\right) \tag{4}$$

Learning to Reason from Noisy Sequences：

蒸馏得到的 rationale 作为监督信号，训练目标为最小化生成 rationale 和目标 item 的负对数似然：

$$\mathcal{L}_{\text{RA}} = -\left(\sum_{i=1}^{M} \log P(r_i | \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), r_{\lt i}; \theta) + \sum_{j=1}^{L} \log P(s_{v_{n+1}}^j | \mathcal{P}(\boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n}), \boldsymbol{\tau}, s_{v_{n+1}}^{\lt j}; \theta)\right) \tag{5}$$

loss 对两部分 (rationale 和 item token) 等权，模型同时学习从噪声上下文中提炼相关信息并生成连贯推理。

3.3 Stage 3: Reasoning Enhancement (强化学习)¶

使用强化学习进一步优化推理质量和推荐准确性。

Rollout-Beam Reward：

标准 pass reward 在推荐场景面临严重稀疏性问题——大多数推理 rollout 无法命中目标 item，导致奖励全为零，使得 GRPO 等算法中的组优势相互抵消。为此提出 Rollout-Beam reward，在约束 beam 内评估模型的最佳可达性能：

$$\mathcal{R}_{\text{Rollout-Beam}} = \max_{\boldsymbol{s}_{v_{n+1}} \in \mathcal{B}} \sum_{l=1}^{L} \mathbb{I}(\hat{s}_{v_{n+1}}^l = s_{v_{n+1}}^l) \tag{6}$$

其中 beam search 结果集定义为：

$$\mathcal{B} = \left\{(\hat{s}_{v_{n+1}}^{1,(j)}, \cdots, \hat{s}_{v_{n+1}}^{L,(j)})\right\}_{j=1}^{K} = \text{BeamSearch}\left(P(\boldsymbol{s}_{v_{n+1}} \mid \boldsymbol{H}, \boldsymbol{\tau}; \theta), K\right) \tag{7}$$

该设计将训练时的奖励计算与推理时的 beam search 对齐，提供更密集的学习信号。

训练细节： 使用 VERL 框架 + GRPO 算法，采样 $|G|=16$ 条 CoT 路径，每条做 $K=32$ 的 beam search 计算 reward。训练 2 epoch，学习率 1e-5，KL 散度系数 $\beta=0.001$，clip ratio $\epsilon=0.2$。

3.4 工业部署：Think-Ahead 架构¶

核心挑战是将多步推理的计算开销与实时延迟要求调和。Think-Ahead 将推理分为两个阶段：

Stage 1: Reasoning-Guided Prefix Generation (离线)

对每个用户，用完整 OneRec-Think 模型采样 $T$ 条不同推理路径：

$$\tau^{(i)} \sim P(\cdot \mid H_u; \theta) \tag{8}$$

对每条推理路径，用 beam search 解码前两个 itemic token 作为候选 prefix：

$$\mathcal{A}_u^{(i)} = \text{BeamSearch}\left(P(\hat{s}_{v_{n+1}}^1, \hat{s}_{v_{n+1}}^2 \mid H_u, \tau^{(i)}; \theta), m\right) \tag{9}$$

所有路径的 prefix 集合构成用户个性化候选空间：

$$\mathcal{C}_u = \bigcup_{i=1}^{T} \mathcal{A}_u^{(i)} \tag{10}$$

该集合（$T \times m$ 个高潜 item prefix）缓存在分布式存储中。

Stage 2: Prefix-Constrained Finalization (在线)

用户请求到达时，检索 $\mathcal{C}_u$，用实时更新的 OneRec 模型 $h_{\text{online}}$ 推断最后一个 token，搜索空间被约束为候选 prefix 集：

$$\hat{s}_{v_{n+1}} = \arg\max_{\boldsymbol{s}_{v_{n+1}}} P_{h_{\text{online}}}(\boldsymbol{s}_{v_{n+1}} \mid \boldsymbol{s}_{v_1}, \ldots, \boldsymbol{s}_{v_n})$$ $$\text{s.t.} \quad (\hat{s}_{v_{n+1}}^1, \hat{s}_{v_{n+1}}^2) \in \mathcal{C}_u \tag{11}$$

4. 实验¶

4.1 实验设置¶

数据集： Amazon Review Benchmark 中的三个数据集：Beauty、Toys、Sports。

Backbone： 开源 benchmark 使用 Qwen3-1.7B，词表扩展 1,024 个新 token（四级层次语义 ID，每级 256 token）+ 2 个边界 token <|item_begin|> 和 <|item_end|>。

评估指标： top-K Recall (R@K) 和 NDCG (N@K)，K=5 和 10。使用 leave-one-out 策略划分数据，用户历史限制为 50 个 item。Beam width = 10。

Baselines：

传统序列推荐：BERT4Rec, HGN, GRU4Rec, SASRec
生成式推荐：TIGER, HSTU, ReaRec

4.2 整体性能 (Table 1)¶

Dataset	Method	BERT4Rec	HGN	GRU4Rec	SASRec	TIGER	HSTU	ReaRec	OneRec-Think
Beauty	R@5	0.0232	0.0319	0.0395	0.0402	0.0405	0.0424	0.0450	0.0563
	R@10	0.0396	0.0536	0.0584	0.0607	0.0623	0.0652	0.0704	0.0791
	N@5	0.0146	0.0196	0.0265	0.0254	0.0267	0.0280	0.0262	0.0398
	N@10	0.0199	0.0266	0.0326	0.0320	0.0337	0.0353	0.0344	0.0471
Sports	R@5	0.0102	0.0183	0.0190	0.0199	0.0215	0.0268	0.0214	0.0288
	R@10	0.0175	0.0313	0.0312	0.0301	0.0347	0.0343	0.0332	0.0412
	N@5	0.0065	0.0109	0.0122	0.0106	0.0137	0.0173	0.0116	0.0199
	N@10	0.0088	0.0150	0.0161	0.0141	0.0179	0.0226	0.0154	0.0239
Toys	R@5	0.0215	0.0326	0.0330	0.0448	0.0337	0.0366	0.0523	0.0579
	R@10	0.0332	0.0517	0.0490	0.0626	0.0547	0.0566	0.0764	0.0797
	N@5	0.0131	0.0192	0.0228	0.0300	0.0209	0.0245	0.0298	0.0412
	N@10	0.0168	0.0254	0.0279	0.0358	0.0276	0.0309	0.0376	0.0482

结论： OneRec-Think 在所有三个数据集的所有指标上均取得最优性能。利用显式文本推理能力进行 item 生成是其显著优势来源，相比先前隐式生成机制有本质提升。具有推理能力的模型 (ReaRec 和 OneRec-Think) 在所有 benchmark 上一致优于传统序列推荐和生成式推荐器。

4.3 消融实验 (Table 2, Beauty 数据集)¶

Training Method	R@5	R@10	N@5	N@10
Base	0.0460	0.0654	0.0314	0.0377
Base+IA	0.0532	0.0735	0.0342	0.0402
Base+IA+R	0.0563	0.0791	0.0398	0.0471

结论： 每个组件都不可或缺。Itemic Alignment 通过创建 itemic token 的连贯语义表示提供基础增益；推理机制进一步带来显著提升，验证了两个组件协同解决序列推荐核心挑战。

4.4 工业实验¶

训练设置： 以 Qwen-8B 为 backbone，词表扩展 24,576 个新 token（三级层次 itemic token，每级 8,192）+ 2 个边界 token。使用 80 张旗舰 GPU 集群，每日增量训练，每天处理约 20B token。

在线 A/B 测试结果 (Table 3, 快手短视频推荐)：

Online Metrics	OneRec-Think
App Stay Time	+0.159%
Watch Time	+0.169%
Video View	+0.150%
Follow	+0.431%
Forward	+0.758%
Like	+0.019%
Collect	+0.098%

结论： 在工业推荐系统中，0.1% 的提升即被认为是显著的。APP Stay Time +0.159% 是核心指标的重大提升。互动指标如 Video View 和 Forward 也呈积极趋势，表明用户参与度增强。

4.5 Itemic Alignment 工业消融 (Table 4)¶

BertScore 评估 User Understanding 和 Short Video Understanding benchmark：

Benchmark	Qwen3	Qwen3+TW	Qwen3+TW+MI
User	0.6588	0.6492	0.7053
Short Video	0.6031	0.6443	0.7300

结论： 在文本丰富的 User Understanding 任务上，Token Warm-up (TW) 提供有限增益（LLM 本身可直接处理文本信息），而 Multi-Task Integration (MI) 将对齐表示转化为可操作洞察带来大幅提升。在纯 itemic token 的 Short Video Understanding 任务上，TW 和 MI 均带来逐步增益，验证了两个子阶段对最终 Itemic Alignment 效果的贡献。

5. Case Study¶

论文展示了多个有代表性的案例：

对话式推荐适配 (Figure 3)：当用户表达负面情绪（如"心情不好"），模型检测到情感信号，策略性地从一般兴趣转向轻松正面内容，展示了通过对话主动优化观看体验的能力。
细粒度兴趣推理 (Figure 4)：模型生成多样化推理路径，捕捉用户的细粒度偏好（如具体游戏机制、叙事模式），超越粗粒度话题匹配实现精准推荐。
推理一致性分析 (Figure 5)：在 beam search 的不同推理步骤中，推理文本与推荐 item 之间保持强对齐，推理过程从宽泛兴趣匹配逐步细化到精确主题描述。
Itemic-Textual 交错推理 (Figure 6)：模型实现 itemic token 锚定内容 + 文本 token 表达因果推理的交错模式，推理准确性和可解释性超越孤立模态方法。

6. 局限性¶

当前公开数据集的行为序列长度有限且 item 空间受限，阻碍了 Reasoning Activation 和 Enhancement 模块获得与工业数据可比的推理能力
在公开数据集上采用简化方案（手动构建 category-based CoT 作为 Reasoning Activation 的语义引导）以保持稳定的推理质量
正在构建大规模 benchmark，包含扩展行为轨迹和多样化 item 目录

7. 总结¶

OneRec-Think 通过三个关键创新将推理能力与生成式推荐桥接：层次化 itemic token 对齐、CoT 监督微调激活推理、强化学习优化推理质量。该方法将推荐系统从纯 item 预测器转变为推理感知模型，既生成可解释的推理路径又产出高质量推荐。在多个公开 benchmark 上达到 SOTA，并在快手工业场景以 APP Stay Time +0.159% 的增益验证了实际效果。