OneReason

OneReason Technical Report

生成式推荐 Kuaishou

Abstract 9 │ Reading 9 │ Rating —

2026-06-04

OneRec Team, Biao Yang, Boyang Ding, Chenglong Chu, Dunju Zang, Fei Pan, Han Li, Hao Jiang, Honghui Bao, Huanjie Wang, Jian Liang, Jiangxia Cao, Jiao Ou, Jiaxin Deng, Jinghao Zhang, Kun Gai, Lu Ren, Peiru Du, Pengfei Zheng, Rongzhou Zhang, Ruiming Tang, Shiyao Wang, Siyang Mao, Siyuan Lou, Teng Shi, Wei Yuan, Wenlong Xu, Xingchen Liu, Xingmei Wang, Xinqi Jin, Yan Sun, Yan Wang, Yifei Hu, Yingzhi He, Yufei Ye, Yuhao Wang, Yunhao Zhou, Yuqin Dai, Zhao Liu, Zhipeng Wei, Zhixin Ling, Ziming Li, Zixing Zhang, Ziyuan Liu

Kuaishou

快手 OneRec 团队的推理基础模型 OneReason：通过四粒度感知预训练 + 三层认知 CoT 的 SFT + 专精后统一的 RL（域内 GRPO→RFT/MOPD），首次让生成式推荐的思考模式稳定超越非思考模式，已在快手本地生活广告线上部署（ROI>5）。

评分原因

精读评分：开创性工业技术报告：首次系统性让 thinking 模式在多个真实业务推荐 benchmark 稳定超越 non-thinking，方法（四粒度感知预训练 + 三层认知 CoT + specialize-then-unify RL）扎实新颖、消融系统、四维 CoT 诊断框架有方法论价值，已工业部署（ROI>5、年化数亿元、低活用户 +13.3% Revenue）并开源 8B/0.8B；唯一明显隐患是 RQ-KMeans 码本固化对下游表征空间的长期约束。

semantic-id pretrained-lm rl knowledge-distillation process-supervision cross-domain industrial transformer

ArXiv PDF claude-opus-4-8 Archived 2026-06-22

OneReason Technical Report 精读

OneReason Technical Report 精读¶

快手 OneRec 团队的推理基础模型。核心命题：生成式推荐里"想一想再回答"的 thinking 模式长期打不过直接预测的 non-thinking 模式；OneReason 把根因归到感知（perception）与认知（cognition）两条腿都没站稳，并通过「四粒度感知预训练 + 三层认知 CoT 的 SFT + 专精后统一（specialize-then-unify）的 RL」第一次让 thinking 模式在真实工业 benchmark 上稳定超越 non-thinking 模式。已在快手本地生活广告线上部署，ROI > 5，开源 OneReason-8B / OneReason-0.8B。

Figure 1: 性能总览。(1) 相比 Qwen3-8B，OneReason-8B 保持了通用能力；(2) 在多个真实业务推荐 benchmark 上达到 SOTA；(3) thinking 模式相对 non-thinking 模式在推荐任务上展现出正向收益。右下角额外展示了"用 CoT 监督数据替换 unCoT 数据可提升 non-thinking 推理"的现象。

1. 研究动机与背景¶

1.1 两条来自 LLM 的属性¶

Transformer LLM 展现出两条值得迁移到工业推荐系统的属性：

Scaling 属性（预训练）：模型规模、数据、算力扩大时收敛 loss 呈可外推的衰减趋势（Kaplan 2020；Hoffmann 2022），多个 benchmark 同步提升。OneRec V1/V2 系列已在快手工业推荐场景验证了 scaling 属性，带来显著业务收益。
Reasoning 属性（后训练）：SFT + RL 让模型学会 CoT，形成 "think-before-answer" 范式（OpenAI o1、DeepSeek-R1），显著增强复杂问题求解能力。

1.2 一个反常现象：thinking 打不过 non-thinking¶

OneRec 模型只在纯 itemic 序列数据上训练，学到的是扁平的转移模式，没有任何底层逻辑链，无法自己解锁推理能力。本团队近期的 OneRec-Think（Liu 2025）和 OpenOneRec（Zhou 2026）引入了 interleaved itemic-text 推荐数据 + 通用域推理数据，成功把 "think-before-answer" 范式泛化到推荐任务上——但都观察到一个反常现象：

thinking 模式在推荐 benchmark 上并未显著优于 non-thinking 模式。

1.3 从 MLLM 文献找根因：感知 + 认知¶

作者转向多模态大模型（MLLM）文献，那里观察到惊人相似的 "reasoning-mode brittleness"：

Sun 2026b（Reading, Not Thinking）：文本与视觉模态对齐不足时，模型倾向于机械地"读"表层视觉文字，而非真正推理底层视觉语义——说明深度跨模态对齐是真推理的前提。
Zhou 2025a：系统综述了 MLLM 的 perception-to-cognition 路径，结论是没有稳固的感知对齐，高级交互推理无法涌现。
Jiang 2025b（Corvid）：即使模态已对齐，若 CoT trace 本身不是逻辑连贯、coarse-to-fine 的结构，推理鲁棒性仍然脆弱（幻觉、over-thinking）。

Figure 3: 同一视觉输入下 MLLM CoT 推理的三种模式。(a) 对齐失败：视觉 grounding 弱导致数错；(b) CoT 质量失败：感知对了但推理链有误；(c) 鲁棒推理：深度对齐 + 逻辑 CoT 才得到正确答案。

由此提炼出解锁真推理的两根支柱：

感知中的模态对齐（perception）：把 itemic token grounding 到底层语言语义，使其成为可指代、可组合的语义单元，而非不透明的 ID；
认知中的 CoT 质量（cognition）：在对齐之上提供连贯的 coarse-to-fine 推理轨迹，实现忠实的 think-before-answer。

1.4 推荐推理的特殊性：abductive 而非 deductive¶

第 2 节"推理设计哲学"指出推荐推理与经典 LLM 推理本质不同：经典推理（数学/代码/符号逻辑）有唯一正确答案、是演绎（deductive）的；而推荐同时存在多个合理候选，用户意图永不可直接观测，只能从长 itemic 序列中反绎（abductive）推断。因此推荐 CoT 应当：选取相关行为作为假设的兴趣点 → 压缩成可解释的偏好 → 建模兴趣点之间的时间转移 → 最后把推断出的偏好状态关联到推荐 item。

作者据此把推荐推理拆成两维四能力（也就是 OneReason-Bench 的诊断轴）：

R0 Perception（感知）：把 itemic token grounding 到语义内容，是一切的基础；
R1 Derivation（派生）：从单 item 语义推理出 item-to-item 关系；
R2 Evolution（演化）：把同一兴趣下的 item 当作时间过程来推理；
R3 Recommendation（推荐）：综合 R0-R2 在所有业务域上产生高质量决策。

1.5 三大贡献¶

预训练：构造复杂多样的 coarse-to-fine 对齐语料，强化 itemic token 感知能力（四粒度语料，共 578B token 对齐 itemic-token 与 text-token 语义空间）；
SFT：设计标准化的三层认知 CoT 结构，保证 CoT 质量；
RL：发现 thinking 在单域 RL 下能稳超 non-thinking、但混合多域 RL 下又掉回去，于是提出 specialize-then-unify 策略——先域内 RL 充分解锁 thinking，再用 RFT 或 MOPD 做跨域平衡与统一。

最终 OneReason 成为（据作者称）第一个让 thinking 模式在多个真实业务推荐 benchmark 上稳定超越 non-thinking 模式的工作；并额外发现：在相同 token 预算下，用推荐 CoT 监督替换纯 unCoT 数据，能在若干域提升 non-thinking 推理——即 CoT 监督的部分收益可迁移到直接解码。

2. OneReason-Bench：面向推理的推荐评测基准¶

把 benchmark 放在模型描述之前是有意为之：四粒度预训练、compression-then-reasoning 的 SFT、specialize-then-unify 的 RL，每一步都对应 OneReason-Bench 在 R0-R3 上暴露的具体 gap。它扩展自 OpenOneRec 的 RecIF-Bench，把评测推向多层推理。

统一任务形式化：所有任务都写成序列生成 $Y = \mathcal{F}(X)$，其中 $X$ 由任务指令 $I$ 和上下文 $C$（itemic 模式、用户画像、交互历史）组成，目标 $Y$ 可以是 itemic 模式、答案选项、自然语言回复或结构化演化链，使 R0-R3 共享同一套生成式评测协议。

Table 1 | OneReason-Bench 四层任务分类

层	任务	输入 $X$	目标 $Y$	指标
R0 感知	Item Understanding	item $i$	item 描述	LLM-as-a-Judge
	Itemic Pattern Grounding	item 描述	item $i$	Pass@K, Recall@K
	Item QA	item $i$ + 选项 $O^a$	正确选项 $o^a$	Accuracy
R1 派生	Item2Item	源 item $i$ + 候选 $O^{item}$	正确选项 $o^{item}$	Accuracy
R2 演化	Evolution Action Selection	历史 $\mathcal{H}$ + 主题 $t$	相关行为 $\mathcal{A}$	F1
	Evolution Topic Gen	历史 $\mathcal{H}$ + 主题 $t$	演化链 $\mathcal{E}_t$	Action–Logic Score
	Evolution Direct Gen	历史 $\mathcal{H}$	演化链集合 $\{\mathcal{E}\}$	Multi-Chain Action–Logic Score
R3 推荐	Single-Domain Rec（视频/商品/广告/直播）	画像 $\mathcal{P}$ + 域内历史 $\mathcal{H}^d$	下一组 item $\{i\}$	Pass@K, Recall@K
	Cross-Domain Rec	画像 $\mathcal{P}$ + 多域历史 $\mathcal{H}$	下一组 item $\{i\}$	Pass@K, Recall@K

Figure 4: 任务分类示例，每个任务给出 instruction / context / target 格式。R0 感知（item 理解、模式 grounding、item QA）、R1 派生（item2item）、R2 演化（动作选择 / 主题生成 / 直接生成）、R3 推荐（单域 / 跨域）。

评测协议：Item Understanding 复用 OpenOneRec 的 LLM-as-a-Judge（double-weighted F1）；单答选择题（Item QA、Item2Item）用 Accuracy；多答选择（Evolution Action Selection）用 F1；演化生成用 Action–Logic Score（动作对齐 + 逻辑对齐，详见附录 B.4.2，公式见 §8）；推荐与 grounding 用 Pass@K / Recall@K（生成的 itemic 模式先解码成 item ID 再在 item 粒度上计算）。此外保留 MMLU-Pro 等通用智能 sanity check，确保推荐特化不牺牲通用推理。

附录 B.3 的 Table 23 进一步表明：OneReason-Bench 是唯一同时覆盖「多域知识 / 指令遵循 / 推理中心 / 序列推荐 / 跨域推荐」五项能力的 benchmark（经典 Rec benchmark 如 Yelp/MovieLens/Amazon/KuaiSAR 只覆盖 SeqRec；RecIF-Bench 缺"推理中心"维度）。

3. 整体流水线总览¶

Figure 2: OneReason 的预训练、SFT、RL、benchmarking 全流程。预训练用多粒度推荐数据 + 通用域数据；SFT 是高质量多任务（R0-R3 + itemic instruction + general-domain），其中推荐 CoT 由 Persona Abstraction / Interest Expansion / Transition Inference 构造并经五维质量评估；RL 在四个域分别训练专家，再经 RFT（off-policy）或 MOPD（on-policy）统一。

下面按预训练 → SFT → RL → CoT 诊断 → 实验 → 部署的顺序展开。

4. 预训练流水线（Section 4）¶

4.1 Itemic Tokenizer¶

为得到紧凑且语义 grounded 的 item 嵌入，联合训练一个多模态 encoder 和一个 decoder LLM 做 item-understanding：encoder 集成 Vision Transformer（ViT）+ 从 Qwen3-VL 初始化的 LLM + 一个音频 encoder，把封面图、视频帧、文本描述、音频蒸馏成一个紧凑稠密嵌入；嵌入作为 soft prefix 喂给独立 decoder LLM，后接 item 文本描述做端到端优化。

随后用 RQ-KMeans 量化：三层 codebook、每层 8192 codes。每个 item 表示为「一个 domain-aware begin token + 三个 sub-token」，例如：

$$\texttt{<|domain\_begin|><a\_5028><b\_6733><c\_2559>}$$

其中 domain ∈ {video, prod, ad, living}（四个推荐场景）或 sid（通用域多模态数据）。与 OpenOneRec 不同，OneReason 丢弃了尾部 end token，从而减少 itemic 模式消耗的上下文长度，给推理 trace 留出更多容量——这是其 thinking 范式的工程前提。

4.2 预训练数据：四粒度推荐语料¶

先前工作（OneRec-Think、OpenOneRec）按任务类型（item captioning / 行为序列 / persona-text interleaving）组织数据并混合训练，留下三个结构性 gap：① item/user 语义表达同质、语言多样性不足；② 数据停在任务层，未显式建模 itemic token 内部的细粒度语义层级或 item 间关系逻辑；③ 用户建模依赖"完整画像→完整行为序列"的窄条件范式。OneReason 据此把语料重构成四个递进粒度，从微观 token 语义到宏观用户行为：

Figure 5: 四粒度预训练推荐语料总览，从细粒度 token 级语义到粗粒度用户行为建模。Token 粒度（单 token / 组合前缀 / part-to-whole 语义预测）、Item 粒度、Relational 粒度、User 粒度（domain-grouped 行为序列 + 时间交错行为序列）。

Token 粒度：在最细粒度对齐。除了沿用单 token 语义预测，新增两个组件：
Compositional Prefix Semantic Prediction：预测前缀 sub-token 对 <a_xxxx><b_xxxx> 的组合语义（用 LLM 汇总共享该前缀的 item 的共同语义），显式教模型 sub-token 语义如何在中间粒度合并、交互；并构造反向的 Prefix Itemic Token Grounding（给语义描述检索正确前缀对）。
Part-to-Whole Semantic Prediction：两步语义预测——先逐个 sub-token 预测细粒度语义解释，再综合成完整 item caption，强制 parts→whole 的结构化多步语义预测。
Item 粒度：把 itemic 模式与文本模态对齐，相比 OpenOneRec 的 Itemic Dense Caption 有两点推进：
Capacity-Aware Caption Coarse-Graining：三个 sub-token 只能承载粗语义，强行对齐过细 caption 会逼模型幻觉；因此先粗化 caption（去掉 OCR/ASR/型号等 code 无法恢复的噪声；把精确价格/年龄映射成价格带/语义标签；保留品类、品牌、IP、卖点、受众、材质等高区分骨架），且对 video/product/live/ad 分别设计粗化规则。
Multi-Perspective Item QA：从受众偏好、核心卖点、视觉风格、负反馈理由等多角度提问，把对齐从单一描述映射升级成多维语义审讯。
Relational 粒度：用自然语言显式解释 item 间协同连接。每条样本形如：

$$\text{Itemic\_Pattern}_0 \rightarrow \text{Textual\_Explanation}_0 \rightarrow \text{Itemic\_Pattern}_1 \rightarrow \cdots \rightarrow \text{Itemic\_Pattern}_n \tag{1}$$

涵盖直接 item-to-item 关联（$n=1$，用内部 search-after-play 表：用户看完视频后搜索并正向交互某商品）和多 item 兴趣流（$n>1$）。为扩大模态覆盖额外引入 TagNext CF Relations 和滑窗共现对；为提升 inter-item 非平凡性，构建跨用户全局 item 图、随机采样 item 链再抽 sub-chain（相邻节点语义过相似则丢弃）；为提升解释质量，用 LLM 结合中间节点 caption 生成转移解释。

User 粒度：把对齐扩展到完整序列演化。先用开源 LLM 把噪声大、模板化的原始用户画像 recaption 成流畅叙事，再设计两种格式：① Domain-Grouped Behavior Sequences（按域分组，用多轮 QA 动态展开，常用一个域的历史条件预测另一个域的行为，让文本充当主动控制信号）；② Chronologically Interleaved Behavior Sequence（严格按时间戳重排，概率性地把部分 itemic 模式替换成其 caption，形成 NL 与离散 itemic 模式深度融合的混合时间线）。

通用域语料：保留大比例通用文本（数学、代码、科学、医学、指令遵循）+ 多模态（image-text 对、图文交错文档、image-editing 三元组、text-to-image），只保留粗粒度视觉语义样本，充当正则器防止过拟合规则合成的推荐语料、并把开放世界视觉概念锚定进 itemic 空间。数据组成策略：从指令微调过的 Qwen3 backbone 继续预训练，把噪声大的模板化业务数据路由进 loss-masked context，把 loss-bearing target 留给高质量文本；有效训练目标约呈 1:1 的 QA 风格 vs free-form 比例。

4.3 推荐语料消融（Section 4.3）¶

在 0.8B 模型、固定 30B token 预算下做消融，五个配置逐步叠加（token/relational 是新增能力，item/user 是替换升级），隔离每个粒度的边际贡献：

Exp1（baseline）= 标准 OpenOneRec 数据集
Exp2 = Exp1 + Token
Exp3 = Exp2 + Item（替换 baseline caption）
Exp4 = Exp3 + Relational
Exp5 = Exp4 + User（替换 baseline user 数据）

Table 2 | 四粒度消融（Itemic Pattern Grounding 与 Cross-Domain Rec 用 pass@64，其余用 macro-F1，%）

任务		Exp1	Exp2	Exp3	Exp4	Exp5
R0 Pattern Grounding	ad	0.48	0.80	2.40	0.48	1.92
	live	0.40	1.01	1.21	1.21	1.21
	prod	2.42	5.81	5.33	2.91	5.33
	video	0.35	0.35	0.87	1.05	1.05
R0 Item Understanding	ad	16.37	37.86	31.65	29.69	32.56
	live	35.16	46.16	37.39	37.39	35.52
	prod	20.58	28.62	29.51	29.78	28.75
	video	22.56	36.76	30.77	30.77	31.63
R1 Item2Item QA		0.00	20.57	20.73	25.65	29.72
R2 Evolution Direct Gen	mixed	0.13	0.00	0.32	0.18	0.37
R3 Cross-Domain Rec	ad	9.06	8.75	9.54	8.58	10.84
	live	2.29	2.32	3.49	3.25	8.56
	product	1.15	0.94	1.29	1.54	1.65
	video	0.65	0.74	0.72	0.73	0.66

三条 key insight：① token & relational 粒度是增量（augmentation，引入 baseline 没有的新能力，如 Item2Item QA 从 0% → 20.57%）；item & user 粒度是替换升级（refine existing）。② 训练中存在能力 trade-off（加 relational 提升 R1 但暂时降 R0 retrieval，后续阶段会恢复）。③ User 粒度是终极整合器：把所有先验知识 contextualize 进时间行为，把 Cross-Live 从 3.25%→8.56%、Cross-Ad 从 8.58%→10.84% 推到峰值。

Table 3 给了一个 video 域 Item Understanding 案例：baseline（Exp1）退化成重复无内容的幻觉、编造剧名；加 token 数据（Exp2）保持类型忠实；但加 item 数据（Exp3）反而编造出具体的错误剧名（把都市言情误判成医疗剧）——说明业务 caption 残留噪声会带来新幻觉，这正是 Capacity-Aware Coarse-Graining 要解决的。

4.4 三阶段训练 recipe（Table 4）¶

Figure 7: 三阶段预训练 recipe。Stage 1 只调 itemic-pattern 相关参数（扩展词表 embedding + LM head），Stage 2&3 调全部参数。

Table 4 | 训练阶段总结

配置	Stage 1	Stage 2	Stage 3
可训练参数	扩展词表 + LM head	All	All
学习率	$2\times10^{-4}\to1\times10^{-5}$	$1\times10^{-4}\to1\times10^{-5}$	$1\times10^{-5}\to1\times10^{-6}$
Token 预算	110B	449B	19B

所有阶段用 sample packing 打包成 48K token 序列。Stage 1/2 限制单样本 ≤4K token 保吞吐，只训练新引入的 itemic embedding + LM head（其余冻结），让新嵌入"安顿"进语义空间而不扰动预训练权重；Stage 2 解冻全部参数吸收四粒度推荐知识；Stage 3 把单样本上限提到 32K token，在完整用户长历史上训练长程依赖。三阶段合计 578B token（对应结论中"用 578B token 对齐 itemic-token 与 text-token 语义空间"）。

5. SFT 流水线（Section 5）¶

预训练给了感知基础（itemic token ↔ NL，吸收协同信号）；SFT 在此之上培养推荐认知——在指令格式下操作 grounded itemic token 的能力。SFT 围绕同样的 R0-R3 层级，但有两条互补训练轴：

压缩轴（compression axis）：教模型把长噪声历史压缩成 typed persona state + 紧凑兴趣演化 motif，使后续推理在 evidence-backed 假设上比较而非在原始行为日志上；
推理轴（reasoning axis）：教动态操作——R1 派生一跳 item-item bridge、R2 跟踪时间兴趣演化、R3 做转移判断。

5.1 R0 Perception（~941K 样本）¶

把预训练建立的层级 itemic token 空间转成显式 SFT 监督。两个互补任务族：① itemic token ↔ NL 双向映射（在 instruction-style grounding 下）；② 平台内容 QA（属性识别、受众理解、负反馈分析、开放语义理解）。caption 数据覆盖 video/product/live/ad 四域，QA 数据覆盖 video/product 两域。caption 含 thinking 与 non-thinking 两个变体：thinking 变体先解释每个 itemic token 如何贡献到最终 item 含义再产出 caption（教 coarse-to-fine grounding，供 R1/R2/R3 复用语义底座）；unCoT 变体监督直接 itemic-token→caption 生成。共约 941K（682K caption + 259K QA）。

5.2 R1 Derivation（~400K 样本）¶

针对跨 item 关系派生：从理解单 item 升级到解释"为什么一个 item 自然引出另一个"——最小有用的 source-to-follow-up bridge。给一个源 item，模型要生成并论证一个合理的 follow-up itemic 答案，identify need / clue / scenario / constraint / refinement。源-目标对经教师 LLM 标注 explicitly related / explicitly unrelated / uncertain，只保留关系能被可见 item 证据（metadata、dense caption）直接支撑的对，移除依赖"受众重叠/流行度/平台共现"等弱假设的对。对高置信对，教师 LLM 进一步抽取紧凑 bridge 变量（source-side need、bridge type、abstract bridge、continuation direction、reason seed、confidence），把关系解释与目标 item 表面内容分离——防 target leakage（目标只用于一致性检查，解释必须从源侧证据写）。从 358K TagNext CF 对 + 388K after-play-search 对 refine 出约 400K。

5.3 R2 Evolution（~130K 样本）¶

针对用户兴趣演化建模：从静态偏好理解升级到时间结构化的行为解读——哪些行为是触发器、哪些后续行为修正/纠正了早期、多个事件如何累积成可解释轨迹。从全域用户时间线构造，用强 LLM 识别表示兴趣 meaningful shift/refinement/closure 的关键演化节点，转成带显式时间结构的 evolution chain；再经独立的 LLM-as-a-Judge 质量评估（11 项检查：order sensitivity、cognitive increment、trigger-source evidence、strong causal-style exclusivity、evidence closure、no-mind-reading 等）过滤伪逻辑链、随机消费链、同品类漂移、弱 grounded 转移。构造三个任务族（Evolution Action Selection / Topic Generation / Direct Generation），部分含 CoT rationale、部分保 direct-answer 保格式鲁棒。约 130K。

5.4 R3 Recommendation：推荐 CoT 的核心¶

R3 是 SFT 的组合层——R0-R2 各自训练专门能力，R3 在最终 next-interaction 预测中把它们组合起来。核心设计原则：把推荐 CoT 当作 two-axis compression plus transition judgement：

第一轴 persona-type compression：汇总稳定偏好先验、人口/生命阶段线索、时间节律、内容偏好、价格敏感度、交互深度、可能的共享设备模糊性；
第二轴 interest-evolution-type compression：识别近期轨迹 motif（触发搜索、需求扩展、参数收窄、场景延续、饱和替换、跨域回声、从浏览到购买的闭合）。

这些压缩状态降低长历史噪声，提供后续推理可操作的 typed 变量。概念层面写作三阶段协议——Persona Abstraction → Interest Expansion → Transition Inference：

$$\mathcal{C}_u = \text{Abstract}(\mathcal{P}_u, \mathcal{H}_u), \qquad \mathcal{Z}_u = \text{Expand}(\mathcal{C}_u, \mathcal{H}_u), \tag{2}$$

$$z_u^\star = \text{Infer}_{\text{trans}}(\mathcal{Z}_u \mid \mathcal{C}_u, \mathcal{H}_u, d) = \arg\max_{z\in\mathcal{Z}_u} s(z \mid \mathcal{C}_u, \mathcal{H}_u, d), \tag{3}$$

其中 $\mathcal{C}_u$ 是压缩用户状态，$\mathcal{Z}_u$ 是扩展候选兴趣假设集，$d$ 是目标域，$s(\cdot)$ 综合 evidence strength / recency / temporal continuity / persona compatibility / target-domain compatibility 打分。最终 CoT 把 text 与 itemic-token 引用交错写成，目标 itemic token 只在推理 trace 之后才发射（不进入推理 span，防泄漏）。

Persona Abstraction：把稀疏噪声行为压缩成紧凑可解释的 soft typed 先验（如中年家庭主妇、直播购物达人、共享设备用户），缩小候选兴趣方向，但最终推断仍须 grounding 在观测行为上。
Interest Expansion：从兴趣演化 motif 出发，把最 informative 的行为信号打开成一小组 evidence-grounded 假设。四条启发式保持"broad but evidence-grounded"：behavior motivation（解释 informative 行为尤其搜索意图）、temporal sensitivity（尊重事件顺序）、transition coverage（保留 plausible before-after 方向）、noise attenuation（下权常规补货/随机消费/重复曝光/一次性动作）。要求推理 trace 达到"证据支持的最细可靠粒度"（具体某款手游而非泛泛"游戏"）。

$Figure 8: Interest Expansion 宽度 $n$ 的影响。在 cross-video/product/ad/live 四域上，紧凑扩展 $n\in\{1,3,5\}$ 在 think-mode Pass@64 / Recall@64 上一致优于更宽的 10 或 20——候选集过大会引入弱分支，稀释最强转移信号。$

Transition Inference：把扩展假设与完整上下文比较，commit 到最可能的后续交互方向，复用 R1 的 local bridge 和 R2 的时间演化判断。五条约束保证 decision-oriented & leakage-safe：evidence priority、transition bridge（合法 bridge 含 feedback / bottleneck / cognitive refinement / scenario continuation / parameter narrowing / need completion，单纯主题相似不够）、granularity calibration、conflict resolution、leakage control。

5.4.2 推理 trace 质量评估（五维）¶

沿五个互补维度评估推荐推理 trace 质量：

Safety：CoT 是否直接暴露目标内容（item id、itemic token、标题等可唯一识别目标的实体）；
Consistency：trace 结论/偏好方向/行为解释是否与意图目标一致；
Logic：是否展现可迁移/可泛化推理，而非表层拼接、强行关联、单实例记忆；
Factuality：是否准确反映观测历史（无编造行为、错误归因、夸大趋势、时间混淆）；
Informativeness：是否提供有用且具体的推荐指引（兴趣方向、场景、功能、风格、属性、排除项）而不泄漏目标。

Figure 9: 推理 trace 质量在五维上的分数分布与均值剖面。Safety 均值 4.94（94.47% 评为 Excellent），Factuality 4.09，Informativeness 3.66，Consistency 3.53，Logic 3.51。

5.5 Itemic Instruction Data（~103K）¶

提升 itemic token 显式出现在输入时的指令遵循鲁棒性（预训练模型常忽略用户指令、自行解释 token 或把输入误判成兴趣分析问题）。围绕 itemic-token-grounded task execution 构造 6 个任务组：Conversion & Editing、Retrieval & Selection、Matching & Classification、Comparison & Aggregation、Generation & Verification、Instruction Control（即使 itemic token 作为干扰上下文也要遵循用户指令）。把 itemic token 当作 grounding signal 而非解释目标。约 103K。

5.6 General-Domain Data（~1.5M）¶

为防过特化，纳入 StepFun 公开的 Step-3.5-Flash-SFT，只保留标准三角色对话、去掉 tool-use trace、去掉格式损坏样本，约 1.5M 高质量 SFT 样本，作为推荐认知周围的 stabilizer。

SFT 整体规模约 3951.7K（Figure 2 圆环图），其中通用域数据约占 38%、R0/R3 各约 22-24%、R1/R2/itemic-instruction 占其余。

6. RL 流水线（Section 6）：specialize-then-unify¶

SFT 让模型模仿教师推理轨迹，性能上界仍受教师限制。直接在混合多域数据上 RL 会因不同域的用户意图、item 语义、reward landscape 差异引发跨域干扰。OneReason 采用 specialize-then-unify：

Figure 10: specialize-then-unify 流水线。SFT 模型先在四个域分别 RL 出四个专家教师（Ad/Product/Live/Video），再走两条统一路径：Path A RFT（off-policy 拒绝采样微调）、Path B MOPD（on-policy 多教师蒸馏）。

6.1 推荐导向的 GRPO（域内专精）¶

先用 GRPO 在每个域单独优化。对用户 $u$ 与上下文 $q$，采样一组推荐 rollout，每条含一个推理 trace + 生成的 itemic token：

$$\mathcal{G}_u = \{(\text{CoT}_{u,i}, \mathbf{c}_{u,i})\}_{i=1}^{G} \tag{4}$$

每条 rollout 由 outcome reward $R_{u,i}$ 评价（生成的 itemic token 是否命中目标），GRPO 在组内归一化得相对 advantage：

$$\hat{A}_{u,i} = \frac{R_{u,i} - \text{mean}(\{R_{u,k}\}_{k=1}^G)}{\text{std}(\{R_{u,k}\}_{k=1}^G) + \delta} \tag{5}$$

Rollout 设计（两阶段 rollout）：推荐命中率天然极低、候选空间巨大，每次推荐前还要先生成推理 trace，reward 覆盖代价高。为此设计两阶段 rollout（Figure 11）：对每个用户先采 $N$ 条推理 trace $\{\text{CoT}_{u,i}\}_{i=1}^N$，再以每条 trace 为条件并行生成 $K$ 条 itemic token 序列：

$$\mathbf{c}_{u,i,j} = [\langle\texttt{|domain\_begin|}\rangle, c^{(1)}_{u,i,j}, c^{(2)}_{u,i,j}, c^{(3)}_{u,i,j}] \tag{6}$$

这样只生成 $N$ 条推理 trace 就得到 $N\times K$ 条有效推荐 rollout，reward 覆盖大幅提升而额外开销很小。

$Figure 11: 推荐导向 GRPO 总览。Stage-1 每个 prompt 出 N 条 CoT，Stage-2 每条 CoT 出 K 条 itemic token，组大小 $N\times K$，乘以多样性 reward 后做 group computation。$

Reward 设计：推荐是 set-wise 优化，理想推理 trace 应覆盖多样相关 item，故 reward 同时考虑 item 准确度与多样性：

$$R_{u,i,j} = R_{\text{rule}}(\mathbf{c}_{u,i,j}) \cdot R_{\text{div}}(\text{CoT}_{u,i}) \tag{7}$$

$$R_{\text{rule}}(\mathbf{c}_{u,i,j}) = \mathbb{I}[\mathbf{c}_{u,i,j} \in C_u^{+}] \tag{8}$$

多样性 reward 鼓励同一推理 trace 派生的 $K$ 条 itemic 序列覆盖更广品类——聚焦第一位 sub-token（粗粒度品类），令 $m_i^{(1)}$ 为 $\{c^{(1)}_{u,i,j}\}_{j=1}^K$ 中不同第一位值的个数：

$$R_{\text{div}}(\text{CoT}_{u,i}) = \frac{\max(0, m_i^{(1)} - 1)}{K - 1} \tag{9}$$

Optimization（两个稳定器）：token $o_t$ 的重要性比：

$$r_t(\theta) = \frac{\pi_\theta(o_t \mid o_{<t})}{\pi_{\text{old}}(o_t \mid o_{<t})} \tag{10}$$

推理 token 长、主要支持探索；itemic token 短、直接决定 reward。用同一 clip range 会让 itemic token 分布变化过猛、entropy collapse。故 stage-wise clipping——推理 token 用更松的 clip、itemic token 用更紧的 clip：

$$\boldsymbol{\epsilon}_{\text{CoT}} = (\epsilon^-_{\text{CoT}}, \epsilon^+_{\text{CoT}}), \qquad \boldsymbol{\epsilon}_{\text{item}} = (\epsilon^-_{\text{item}}, \epsilon^+_{\text{item}}) \tag{11}$$

$$\bar{r}_t(\theta) = \text{clip}\big(r_t(\theta), 1-\epsilon^-(t), 1+\epsilon^+(t)\big), \quad \boldsymbol{\epsilon}(t) = \begin{cases}\boldsymbol{\epsilon}_{\text{CoT}}, & o_t \in \text{CoT}\\ \boldsymbol{\epsilon}_{\text{item}}, & o_t \in \mathbf{c}\end{cases} \tag{12}$$

其中 $\epsilon_{\text{CoT}}$ 比 $\epsilon_{\text{item}}$ 更松（论文用 0.2/0.28 vs 0.1/0.15）。又因命中稀疏、多数 rollout 拿 0 reward 和负 advantage，会主导梯度推向过保守更新；故 negative-sample down-weighting——按命中状态给整条 response-level actor loss 加标量权重：

$$w_{u,i,j} = \begin{cases}1.0, & \text{if } R_{\text{rule}}(\mathbf{c}_{u,i,j}) = 1\\ \beta, & \text{otherwise}\end{cases} \quad (\beta < 1) \tag{13}$$

advantage 估计不变，保留成功 rollout 的完整梯度、下权 non-hit。

Figure 12: 两个优化稳定器示意。(a) stage-wise clipping：CoT 松 clip、itemic token 紧 clip，避免 itemic token entropy collapse；(b) negative-sample down-weighting：下权 non-hit rollout，挤压 valid-miss/invalid。

四个 RL 消融（Cross-Live，think/nonthink 双模式）：两阶段 rollout（Figure 13）同时降单步训练时间且提升性能，think 模式增益更明显；多样性 reward（Figure 14）在更大 K 上增益更大；stage-wise clipping（Figure 15）一致提升、尤其 Recall@8/@32；negative-sample down-weighting（Figure 16）显著降低训练崩塌风险（去掉后 Validity@32 一度从 ~0.8 跌到 ~0.5）。

6.2 Rejection Sampling Fine-tuning（RFT，off-policy 统一）¶

GRPO 锐化输出分布、使模型集中在少数高置信 item，与"推荐应覆盖多样兴趣"目标不完全对齐。RFT 作为补充：每个域专精 GRPO 模型作教师生成推理增强轨迹，保留预测命中 $C_u^+$ 且推理一致的轨迹，跨四域合并得拒绝采样数据集：

$$\mathcal{D}_{\text{RFT}} = \{(x_u, \text{CoT}_u, \mathbf{c}_u)\} \tag{14}$$

先用 GRPO 在覆盖 R2+R3 全域的混合数据上训练到收敛得 Mix-RL checkpoint，以此初始化，再在 $\mathcal{D}_{\text{RFT}}$ 上用标准 NTP 训练：

$$\mathcal{L}_{\text{RFT}} = -\mathbb{E}_{(x_u,\text{CoT}_u,\mathbf{c}_u)\sim\mathcal{D}_{\text{RFT}}} \sum_{t=1}^{|y_u|} \log \pi_\theta(y_{u,t} \mid x_u, y_{u,<t}), \quad y_u = [\text{CoT}_u; \mathbf{c}_u] \tag{15}$$

Figure 17: RFT 相对 Mix-RL 在 Recall@K 上的相对增益，K 越大优势越明显——RFT 更利于扩大候选覆盖而非只锐化 Top-1。

6.3 Multi-Teacher On-Policy Distillation（MOPD，on-policy 统一）¶

把四个域专家在 on-policy 下蒸馏进统一学生。采用 Monte Carlo RL 形式（Li 2026），log-prob 比只在学生自采 token 上评估，教师只需提供单点 log-prob、无需全词表分布。设 $\mu_\theta$ 为学生部署在推理引擎的 behavior policy、$\pi_\theta$ 为训练引擎中被优化的 policy；对 prompt $x$ 采完整 rollout $y=(\text{CoT};\mathbf{c})\sim\mu_\theta$，按域路由到对应教师 $\pi_{\text{domain}_i}$，在每个 timestep 用 reverse-KL 定义 token 级蒸馏 advantage：

$$\hat{A}_{\text{MOPD},t} = \text{sg}\big[\log\pi_{\text{domain}_i}(y_t\mid x, y_{<t}) - \log\pi_\theta(y_t\mid x, y_{<t})\big] \tag{16}$$

为校正 off-policy 偏差引入截断重要性权重：

$$w_t(\theta) = \begin{cases}\text{sg}\Big[\frac{\pi_\theta(y_t\mid x,y_{<t})}{\mu_\theta(y_t\mid x,y_{<t})}\Big], & \epsilon_{\text{low}} \le \frac{\pi_\theta(y_t\mid x,y_{<t})}{\mu_\theta(y_t\mid x,y_{<t})} \le \epsilon_{\text{high}}\\ 0, & \text{otherwise}\end{cases} \tag{17}$$

$$\mathcal{L}_{\text{MOPD}}(\theta) = -\mathbb{E}_{x\sim\mathcal{D}, y\sim\mu_\theta(\cdot\mid x)}\Big[\frac{1}{|y|}\sum_{t=1}^{|y|} w_t(\theta)\,\hat{A}_{\text{MOPD},t}\,\log\pi_\theta(y_t\mid x,y_{<t})\Big] \tag{18}$$

Information-Gain-Aware Trajectory Filtering：生成式推荐命中率极低，on-policy 训练里学生很快在通用热门 head item 上与教师对齐（$|\hat{A}_{\text{MOPD},t}|\approx 0$），稀有但关键的长尾 insight（$|\hat{A}|$ 大）被冗余梯度淹没——gradient-dilution。用 token 级 advantage gap 作 label-free 信息增益指标，对每条轨迹 $y_j$ 算 token 平均绝对 gap 作 informativeness 分：

$$s(y_j) = \frac{1}{T_j}\sum_{t=1}^{T_j} |\hat{A}_{\text{MOPD},j,t}| \tag{19}$$

给定 batch $\mathcal{B}$ 和目标信息增益比 $\rho$（如 0.8），按 $s$ 降序排，取覆盖 $\rho$ 的最短前缀长度：

$$M = \min\Big\{m : \frac{\sum_{j=1}^m s(y_{(j)})}{\sum_{j=1}^{|\mathcal{B}|} s(y_{(j)})} \ge \rho\Big\} \tag{20}$$

只在 active subset $\mathcal{S}=\{y_{(1)},\dots,y_{(M)}\}$ 上算 MOPD loss，把预算集中到最具挑战、最 informative 的样本。

Figure 18: Information-Gain-Aware 轨迹过滤。按 token-level |advantage| 算 sample_score，排序后丢弃低分尾部，只保留高信息样本训练。

MOPD 严格正向（Figure 19a），K 越大相对增益越大；但 K>16 后学生与教师仍有 gap（reverse-KL mode-seeking 的理论极限）。IG 过滤带来一致增益（Figure 20）、PG loss 更平滑（Figure 21）。Figure 22 显示无论 SFT / SFT→RFT / SFT→Mix-RL 起点，学生都能受益但被教师上界限制（弱学生能追平教师、难以显著超越）。

6.4 RFT vs MOPD 对比（Table 9）¶

Table 9 | 不同优化策略性能对比（部分，Recall，%；thinking / non-thinking）

域	指标	模式	SFT	Mix-RL	Single-RL	RFT	MOPD
Cross-Live	Recall@8	think	5.63	8.29	8.39	8.70	8.82
		nonthink	5.76	7.39	7.80	7.82	8.58
	Recall@32	think	11.17	13.03	14.69	14.63	14.82
		nonthink	11.74	12.86	14.42	14.25	14.71
Cross-Ad	Recall@32	think	2.78	4.83	6.20	6.14	5.94
Cross-Product	Recall@64	think	1.65	3.79	3.87	4.19	4.11
Cross-Video	Recall@64	think	0.06	0.14	0.15	0.24	0.18

关键结论：① 所有 post-SFT 策略都显著超 SFT baseline——自探索能超越监督模仿。② 直接混域 RL（Mix-RL）一般弱于域内 Single-RL（异构域有冲突信号），佐证 specialize-then-unify。③ RFT 一致保证 thinking > non-thinking（拒绝采样只蒸馏 CoT 与正确推荐逻辑对齐的"golden"路径，稳住推理增益）；MOPD 的 think/nonthink 高度同步（on-policy 蒸馏在共享参数空间整体校准 prompt-to-item 语义嵌入，大幅增强 non-thinking"直觉"，但成功 CoT 极稀疏、缺严格 off-policy 过滤会吸入噪声/无根 CoT，使 thinking 难以完全甩开被极大增强的 non-thinking）。④ MOPD 在 Product/Live 表现最佳（甚至超 Live 教师），RFT 在 Video/Ad 大 K 上更稳。

7. CoT 分析指标（Section 7）：四维诊断框架¶

除目标准确度外，推荐推理 trace 的实用性取决于 CoT 是否真正贡献到最终 itemic 预测、忠于观测历史、尊重 itemic token 空间结构约束、遵循连贯意图演化轨迹。受 Zhang 2026b（Why Thinking Hurts，诊断 OpenOneRec 的 non-thinking>thinking gap、归因于 textual inertia）启发，设计 2×2 诊断框架：Symbolic vs Probabilistic（检查种类）× Local vs Global（参照范围），四格各守一种失败模式（Table 10）。

Criterion 1：CoT Likelihood Gain

$$\Delta\text{LL} = \log p(y_{\text{GT}}\mid \mathbf{x}, c) - \log p(y_{\text{GT}}\mid \mathbf{x}) \tag{21}$$

正值表示 CoT 提高了正确目标的似然。SFT 在所有域 $\Delta\text{LL}$ 持续为负（CoT 反而分散注意力），RFT 在四域均为正（Figure 23）。

$Figure 23: 每个模型-域对的 $\Delta$LL（thinking vs non-thinking 目标 log-likelihood 之差）。SFT 一致为负（Cross-Video −5.19、Cross-Product −5.22、Cross-Ad −4.94、Cross-Live −2.69），RFT 一致为正（+0.63 / +1.27 / +0.57 / +1.10）。$

Criterion 2：沿 CoT 的似然递进。用 DeepSeek 把 CoT 切成语义连贯段 $c = \{c_1, c_2, \dots, c_T\}$ (式 22)，对每个前缀算条件似然 $\ell_t = \log p(y_{\text{GT}}\mid\mathbf{x}, c_1, \dots, c_t)$ (式 23)。逐段加入 CoT 前缀一致提升目标似然（Figure 24），说明 CoT 提供增量预测证据而非事后解释；RFT 比 SFT 更早饱和（揭示 CoT 压缩/early-stopping 空间）。

Criterion 3：Item Legality

$$\gamma_{\text{legal}} = \frac{|\mathcal{S}(c)\cap\mathcal{V}_{\text{item}}|}{|\mathcal{S}(c)|} \tag{24}$$

CoT 中引用的 itemic 模式是否都对应合法 item。SFT/RFT 四域均饱和到 1.00。

Criterion 4：History Item Reference Validity（条件于 legality）

$$\gamma_{\text{hist}\mid\text{legal}} = \frac{|(\mathcal{S}(c)\cap\mathcal{V}_{\text{item}})\cap\mathcal{S}(\mathbf{x}_{\text{hist}})|}{|\mathcal{S}(c)\cap\mathcal{V}_{\text{item}}|} \tag{25}$$

合法 item 是否都真实出现在用户历史中（低值=prompt-violating 幻觉）。

Table 11 | CoT itemic 引用的 $\gamma_{\text{legal}}$ 与 $\gamma_{\text{hist|legal}}$（%）

指标	方法	Video	Ad	Live	Product
$\gamma_{\text{legal}}$↑	SFT	100.00	100.00	100.00	100.00
	RFT	100.00	100.00	100.00	100.00
$\gamma_{\text{hist\|legal}}$↑	SFT	97.50	94.93	100.00	97.92
	RFT	100.00	99.20	98.82	83.33

RFT 在 Video/Ad 收紧 history grounding（+2.50/+4.27pt），但 Live/Product 反而下降（−1.18/−14.59pt）——与 Table 9 中 RFT 在 Live/Product 相对 Mix-RL 增益较小一致。

定性案例（Table 12/13）：一个 18-23 岁战术射击直播观众，ground-truth 是《三角洲行动》（仅 1 次 in-feed 广告点击曝光，需 cross-IP 泛化）。SFT trace 停在表层 IP（《和平精英》→更多《和平精英》），落到错误 IP 家族（对应负 $\Delta$LL）；RFT trace 把候选提升到 catalogue-grounded 量化先验（【游戏】占 69.57%）和潜在品类轴（"战术射击"），经 R1 派生的兴趣演化桥接到《三角洲行动》——这种品类级泛化正是 2×2 诊断框架要检测、也是 RFT 系统性交付的。

8. 实验（Section 8）¶

8.1 性能对比（Table 14）¶

baseline 按 item 表示分三类：ID-Based（SASRec、HSTU）；Text-Based（Qwen3-8B/32B/235B-A22B、Deepseek-V3.2、Claude-Opus-4.6、Gemini-3-Preview、GPT-4o-mini、GPT-5.4，零样本+thinking，caption 经 Qwen3-Embedding-8B 编码后 ANN 检索）；Itemic Token-Based（TIGER、LC-Rec 三变体、OneReason SFT/RFT）。

Table 14 | 跨域推荐 baseline 对比（%；Pass@64 / Recall@64）

类别	模型	CV Pass	CV Rec	CP Pass	CP Rec	CA Pass	CA Rec	CL Pass	CL Rec
ID	SASRec	0.03	0.01	0.31	0.25	1.04	0.37	1.76	0.40
ID	HSTU	0.10	0.01	0.32	0.24	2.79	0.78	2.32	2.14
Text	GPT-5.4	0.24	0.02	1.43	1.15	1.64	0.43	7.20	6.38
Text	Qwen3-235B-A22B	0.24	0.02	0.64	0.49	0.77	0.19	5.10	4.66
Itemic	TIGER	0.88	0.07	0.21	0.17	7.65	2.39	2.32	1.78
Itemic	LC-Rec-PT-SFT-8B	1.49	0.13	3.95	3.00	15.85	6.55	19.32	16.70
Itemic	OneReason SFT (nonthink)	1.33	0.11	3.94	2.96	15.73	6.49	18.05	15.52
Itemic	OneReason SFT (think)	0.71	0.06	2.18	1.65	9.16	3.41	16.43	14.32
Itemic	OneReason RFT (nonthink)	2.08	0.19	5.20	3.96	17.56	7.28	21.01	18.17
Itemic	OneReason RFT (think)	2.41	0.24	5.47	4.19	17.78	7.50	21.10	18.35

（CV=Cross-Video, CP=Cross-Product, CA=Cross-Ad, CL=Cross-Live；Video Recall@64 整体偏低因 target 集最大 avg. 13.92 items。）

关键观察：① 冷启动敏感：ID-based 在跨域评测下挣扎（33.69% 目标 item ID 训练时未见），而只有 11.55% 目标 itemic 模式未见——itemic 表示支撑 content-based 泛化。② Text-based LLM 推荐能力与通用智能/规模不可靠相关（缺协同信号 + ANN caption 检索引入误差）。③ OneReason 预训练是强语义底座：LC-Rec-PT-SFT-8B（从 OneReason 预训练 checkpoint 初始化）显著超 LC-Rec-SFT-Only 各变体。④ 注意：SFT 阶段 thinking < non-thinking（印证反常现象），但 RFT 后 thinking 全面反超 non-thinking——这是 OneReason 的核心结果。

8.2 非推荐能力 & 通用智能（Table 15/16）¶

Table 15（R0-R2）：RFT thinking 在 R0 上略逊 non-thinking（perception-task overthinking），但 R1/R2 平均更优——RL 在强化推荐同时增强高级推理。OneReason 用紧凑 itemic token 即可在 R2 部分子任务上超过若干更大的 text LLM（如 R2 Direct Gen RFT 20.31 vs GPT-5.4 17.61）。

Table 16 | 通用 benchmark（%）

模型	MMLU-Pro	GPQA-Diamond	MATH-500	GSM8K
Qwen3-8B (think)	72.35	56.06	95.20	95.68
LC-Rec-PT-SFT-8B	39.72	35.86	81.00	51.55
OneReason SFT (think)	71.01	51.52	95.60	95.00
OneReason RFT (think)	72.08	54.04	95.40	94.69

OneReason thinking 模式基本保住 Qwen3-8B backbone 的通用能力（推荐特化未灾难性退化），而 LC-Rec 各变体在通用 benchmark 上大幅退化。

8.3 thinking 监督对 non-thinking 的迁移增益（Section 8.2）¶

token-aligned 实验（相同 0.25B token 预算）：100K unCoT vs 40K CoT + 50K unCoT。

Table 17 | token-aligned non-thinking 推荐性能（%）

指标	设置	CV	CP	CA	CL
Pass@64	100K unCoT	1.64	4.38	16.08	18.12
	CoT+unCoT	1.95	4.86	15.84	20.32
Recall@64	100K unCoT	0.18	3.33	6.72	15.59
	CoT+unCoT	0.21	3.67	6.68	17.69

相同预算下，用 CoT 数据替换部分 unCoT 提升 Video/Product/Live 的 non-thinking 性能（Cross-Ad 是例外，更偏 unCoT-heavy）。再做 mixture sweep，设 unCoT 比例 $\alpha = N_{\text{unCoT}}/(N_{\text{CoT}}+N_{\text{unCoT}})$ (式 26)，相对 100% unCoT 的 Pass@32 增益 $G_d(\alpha)$ (式 27)。Figure 25 显示各域有不同最优 CoT 比例（Video 55%、Product 95%、Ad 25%、Live 55%）。作者给出概念分解（式 28：$G_d(\alpha) = B_d + A_d^{\text{uncot}}(\alpha) + I_d^{\text{cot}}(1-\alpha) - C_d^{\text{trace}}(1-\alpha) - C_d^{\text{format}}(\alpha, 1-\alpha)$）与最优点条件 $\partial G_d/\partial\alpha|_{\hat\alpha_d^\star}\approx 0$ (式 29)，强调 CoT 监督有用但 domain-dependent、并非越多越好——CoT 监督的部分收益（压缩 + 推理信号）可在行为层面迁移到直接解码，但 causal separation 待后续 ablation。

9. 工业部署（Section 9）¶

OneReason 已部署在快手 App 快速增长的本地生活广告场景（不在训练数据内），在严格延迟、强 baseline、item 可投放约束下稳定上线，带来快手本地生活广告"最显著业务增益之一"。

9.1 "Fast-Slow Thinking" 在线架构¶

Figure 26: OneReason 在线部署架构。Fast（在线 OneRec 实时检索）+ Slow（nearline OneReason 检索）协同，OneReason 结果不参与早期竞争，而是注入下游排序模型联合打分；OneReason 不可用时自动回退原 OneRec 流水线。

LLM 规模 + 推理系统限制使 OneReason 难以直接实时部署，故提出 Fast（在线）+ Slow（nearline）协作：① Pipeline Design：解耦的 nearline 检索流水线不参与早期竞争，集成进下游排序模型联合打分，OneReason 不可用时回退 OneRec 保稳定。② Dataset Trigger：周期性（日/时）聚合用户行为/画像/item 内容，触发数据 fetch/clean/feature 形成端到端 data flywheel。③ Offline Inference：加载最新 OneReason checkpoint 离线预测用户最可能 next itemic token，解码成 item ID。④ Online Serving：item ID 写入 Redis 形成候选池，nearline OneReason 结果 + 实时 OneRec 结果联合喂排序模型统一融合。

在线增量训练：Pre-Training Incremental（固定时间窗对新 item 持续预训练 + 采样通用域防遗忘）+ SFT Incremental（用当天用户交互做日增量训练，建模短期兴趣动态）。

两种应用范式：① Slow Pipeline: OneReason（直接用 OneReason 检索）；② Fast Pipeline: OneReason for OneRec（用 OneReason 输出增强 OneRec，引入 Thinking Token 把 OneReason 知识蒸馏进在线 OneRec）。

9.2 在线 A/B（Table 18）¶

10 天、5% 流量 A/B：

Table 18 | 在线性能对比

模型	Impressions	Revenue
OneReason	+0.940%	+4.528%
OneReason for OneRec	+6.831%	+4.636%
Combined	+10.332%	+8.234%

直接用 OneReason（Slow）主要提升 Revenue（语义匹配改善流量质量）；增强 OneRec（Fast）主要扩大系统规模/检索覆盖；两者结合最佳，对应快手平台年化数亿元人民币商业收入，ROI > 5。

9.3 附录部署分析（A.3/A.4）¶

Table 19（流量效率）：Combined 在 Conv. +12.643% / Click +1.709% / CVR +1.865% / CTR +0.519%，检索份额 27.2%。
Table 20（用户分层）：低活跃用户 Revenue +13.323%（远超活跃用户 +2.419%）——推理能力对稀疏交互用户价值最大（reasoning-based 兴趣补全）。
ROI（A.4.4）：系统约 600 旗舰 GPU/天服务 4 亿用户，估计 ROI > 5。

Figure 27: OneReason for OneRec 整体结构。OneReason 预测 next itemic token → 量化模型解码成 embedding 作为推理监督信号；OneRec 引入 Thinking Token，用 Alignment Network 做 representation-level 约束把 OneReason 的知识/推理能力蒸馏进 OneRec；并探索 User Representation Decoder、双分支（Decoder with/without Reason 互监督）、基于空间残差的对比蒸馏。

10. 核心贡献总结¶

诊断 + 处方：把生成式推荐"thinking 打不过 non-thinking"的反常现象归因到感知（模态对齐）+ 认知（CoT 质量）两根支柱，并逐根加固；
四粒度感知预训练：Token / Item / Relational / User 四个递进粒度（含 compositional prefix、part-to-whole、capacity-aware coarse-graining、relational chain、时间交错替换等新组件），578B token 对齐 itemic-text 语义空间；
三层认知 CoT：Persona Abstraction → Interest Expansion → Transition Inference 的标准化 coarse-to-fine 结构 + 五维质量评估，把推荐推理形式化为 two-axis compression + transition judgement；
specialize-then-unify RL：域内推荐导向 GRPO（两阶段 rollout、diversity reward、stage-wise clipping、negative-sample down-weighting）→ RFT（off-policy 拒绝采样，保 thinking>non-thinking）或 MOPD（on-policy 多教师蒸馏 + 信息增益过滤，同步增强 think/nonthink）；
OneReason-Bench + 四维 CoT 诊断框架（ΔLL / 似然递进 / item legality / history validity），把训练每一步都对齐到可测的诊断轴；
首次让 thinking 模式在多个真实业务 benchmark 稳超 non-thinking，并发现 CoT 监督可迁移提升 non-thinking；
真实工业落地：快手本地生活广告 Fast-Slow Thinking 架构上线，年化数亿元、ROI>5、低活跃用户 +13.3% Revenue；开源 OneReason-8B / 0.8B。

11. 与已归档相关工作的对比¶

OneRec-Think OneRec-Think: In-Text Reasoning for Generative Recommendation（Kuaishou, 2025-10-13）¶

关系：显式引用 + 直接前代（同团队 OneRec 家族）· 原文在 intro/related work 叙述为预备工作但未在 Table 14 展开对比 · 已加载对方精读

共同关注的问题：两者都要把显式、可读的 think-before-answer 推理引入生成式推荐，弥合离散 itemic item 与连续推理空间的语义鸿沟。OneRec-Think 正是 OneReason intro 里那个"成功泛化 think-before-answer 但 thinking 不显著优于 non-thinking"的预备研究——OneReason 的全部动机就是回答 OneRec-Think 留下的反常现象。
相近的技术骨架：都走"itemic 对齐预训练 → 推理激活 SFT → RL"三段式。OneRec-Think 的四任务 Itemic Alignment（Interleaved User Persona Grounding / Sequential Preference / Itemic Dense Captioning / General LM）对应 OneReason 的四粒度预训练；OneRec-Think 的 "Reasoning Activation"（用 top-k 剪枝上下文 bootstrapping 推理）对应 OneReason 压缩轴的 Persona Abstraction（都在"去长历史噪声"）。
本文的差异与推进：① 从"任务级对齐"升级到"粒度级对齐"：OneRec-Think 的 dense caption 是单层 itemic↔caption 映射，OneReason 显式建模 sub-token 组合语义（compositional prefix / part-to-whole）和 inter-item 关系链，并对 caption 做 capacity-aware 粗化以防幻觉。② 从"剪枝 bootstrapping"升级到"结构化三层认知 CoT + 五维质量评估"：OneRec-Think 靠相似度 top-k 剪枝生成推理，OneReason 用 Persona Abstraction→Interest Expansion→Transition Inference 的标准 coarse-to-fine 结构并显式质量打分。③ 从"单一 RL"升级到 specialize-then-unify：OneReason 发现混域 RL 有干扰，先域内专精再 RFT/MOPD 统一——这是让 thinking 真正反超 non-thinking 的关键，而 OneRec-Think 未解决此反超。④ 规模：OneRec-Think 工业 warmup 6B token + LoRA，OneReason 全参 578B token 预训练。
可比的方法/实验差异：OneRec-Think 上线 +0.159% APP Stay Time（推荐主场景）；OneReason 落在本地生活广告，Combined +8.234% Revenue / ROI>5。两者 itemic token 都丢/留 end token 策略不同（OneReason 丢尾 token 省上下文）。详细精读见 OneRec-Think。

TwiSTAR TwiSTAR: Think Fast, Think Slow, Then Act（Tsinghua SIGS, 2026-05-12）¶

关系：独立并发（OneReason 未引用 TwiSTAR，两者殊途同归）· 已加载对方精读

共同关注的问题：两者都直击同一个反常观察——慢思考 / CoT 推理并不能均匀地帮助生成式推荐，在简单/高频样本上强行推理甚至掉点。TwiSTAR §6.4 实证"当 fast 模型已能处理大量 easy 样本时，强行用 slow 推理反而让 slow 模型表现下降"；OneReason intro 的"thinking mode does not show significant advantages"是同一现象的不同侧面。两者都在 SID/itemic-token 自回归生成式推荐范式内。
相近的技术骨架：都把"协同/I2I 隐式信号显式语言化"作为推理增强数据来源（TwiSTAR 的 I2I co-occurrence commonsense injection ↔ OneReason 的 Relational 粒度 Textual_Explanation 链 + R1 derivation bridge），都用"SFT 模仿 + RL"两阶段培养推理。
本文的差异与推进：最根本的分歧在"是否让模型学会何时思考"。TwiSTAR 接受"thinking 不总是有用"，把推荐重构成 agentic 系统，用 learned planner 在 fast retriever / rank / slow think-and-rec 之间自适应路由——目标是"该快则快、该慢则慢"。OneReason 则改造训练让 thinking 永远赢：不在样本级 gate 推理，而是通过 perception+cognition+specialize-then-unify 让 thinking 模式稳定超越 non-thinking，成本问题完全交给部署侧 Fast-Slow 架构（nearline 慢 OneReason + 在线快 OneRec）而非 per-sample routing。可以说 TwiSTAR 在"推理调度"维度优化，OneReason 在"推理质量"维度优化。
可比的方法/实验差异：TwiSTAR 公开 Amazon（Beauty/Toys/Sports），并显式在 12 个 metric-dataset 格子上击败 OneRec-Think（OneReason 的前代），把两条线放进同一对话；OneReason 工业 Kuaishou 四域 + OneReason-Bench，已部署 400M 用户。详细精读见 TwiSTAR。

SAPO SAPO: Step-Aligned Policy Optimization（University of Virginia, 2026-05-17）¶

关系：独立并发（OneReason 未引用 SAPO，两者殊途同归）· 已加载对方精读

共同关注的问题：两者都诊断出outcome-reward GRPO 在"推理 token + SID/itemic token"混合 rollout 上的信用分配错配。SAPO 命名为 action-granularity mismatch：rollout 级标量 advantage 广播到推理 token 和全部 K 个 SID token，无法定位是哪个 SID 位置出错、还把无关推理 token 与正确 SID token 一并奖惩。OneReason 独立地指出"推理 token 长、主要支持探索；itemic token 短、直接决定 reward；用同一 clip range 会让 itemic token entropy collapse"——同一个"推理 token 与 itemic/SID token 必须差异化对待"的洞察。
相近的技术骨架：都在 verifiable exact-match 反馈下做 RL、都不引入 learned reward model，都把"推理段 vs SID/itemic 段"作为需要分别处理的两类 token。
本文的差异与推进：处方落点不同。SAPO 把"一个 thinking block + 配对的一个 SID token"设为 RL 的 action unit，导出 per-step verifiable match reward + per-step group-relative advantage + step-normalized token 聚合——治的是信用分配的粒度（让 near-miss 的前两位对了的信息不被抹掉）。OneReason 保留 rollout 级 GRPO，但用 stage-wise clipping（推理 token 松 clip / itemic token 紧 clip，式 11-12）+ negative-sample down-weighting（式 13）+ diversity reward（式 9）+ 两阶段 rollout（式 6）——治的是信任域粒度 + reward 稀疏。两者殊途同归：SAPO 修信用分配，OneReason 修信任域与稀疏命中，都瞄准 GRPO 里推理/SID token 的非对称性。
可比的方法/实验差异：SAPO 公开三个 Amazon 类目、聚焦 RL 单阶段、无工业部署；OneReason 把 RL 嵌入 specialize-then-unify 全栈并工业上线。SAPO 的 per-step reward 能精确定位 SID 位置错误，OneReason 的 diversity reward 作用在第一位（粗品类）、stage-wise clip 稳住 itemic token entropy。详细精读见 SAPO。

12. 讨论与局限性¶

值得借鉴的设计：① "thinking 打不过 non-thinking"是生成式推荐推理化的真问题，OneReason 把它拆成 perception/cognition 两根支柱并逐根处方，方法论清晰且可复用；② 四粒度预训练里的 capacity-aware caption coarse-graining（"三个 sub-token 承载不了的细节会逼模型幻觉"）是非常实在的工程洞察；③ specialize-then-unify（域内专精→RFT/MOPD 统一）为"多域 RL 干扰"提供了通用解；④ 四维 CoT 诊断框架（ΔLL / 似然递进 / legality / history validity）把"CoT 是否真有用"变成可测量，是难得的 reasoning 可解释性工具；⑤ Fast-Slow Thinking 部署架构（nearline 慢 + 在线快 + 回退）是把重模型落地实时系统的可复用范式。

局限/争议：① 机制未厘清：作者诚实承认"CoT 监督提升 non-thinking"只是行为层证据，没区分收益来自压缩、推理还是二者交互（causal separation 待 ablation）。② MOPD 受教师上界限制：弱学生能追平教师、难显著超越；reverse-KL mode-seeking 在 K>16 留下与教师的 gap。③ RFT 在 Live/Product 收紧 history grounding 失败（$\gamma_{\text{hist|legal}}$ 反降，Product −14.59pt），符号诊断与下游指标在这两域对齐较弱，作者把它留作 future work。④ 成本高：~600 旗舰 GPU/天、无法真正实时（靠 nearline 妥协），未来要靠 0.8B 级小模型 + 推理基础设施压成本。⑤ 离散码本固化：RQ-KMeans 三层 8192 码本一旦训练即固定，理论上限制下游表征空间——这是 LLM-backbone 之外唯一明显的 scalability 隐患（参数 scaling 时表征能力受码本约束），但对本工作的整体质量影响有限。

与已有工作的差异：相比 OneRec-Think/OpenOneRec（同团队前代，发现 thinking 不占优但未解决），OneReason 第一次系统性让 thinking 反超；相比 TwiSTAR（自适应何时思考）走"提质量"而非"调调度"路线；相比 SAPO（修 GRPO 信用分配）从信任域/稀疏命中角度治同一 GRPO 病灶；相比纯 LLM-as-enhancer（ReaRec/OnePiece/OneSearch-V2/REG4Rec）追求的是端到端可直接产出推荐决策的工业 GFM。