OneRec — Archivist

1. 研究背景与动机¶

传统推荐系统采用多阶段级联架构（检索 -> 粗排 -> 精排），存在三个核心问题：

计算碎片化 (Fragmented Compute)：以快手为例，serving 阶段超过 50% 的资源用于通信和存储而非高精度计算。当前排序模型的训练和推理 MFU 分别仅为 4.6% 和 11.2%，远低于 LLM 社区在 H100 上约 40% 的 MFU。此外，高 QPS 要求（>400k）和低延迟限制（<500ms）迫使模型保持小规模。

目标冲突 (Objective Collision)： 1. 多元目标冲突：点击率、观看时长等数百个优化目标分散在不同阶段，缺乏统一优化 2. 跨阶段建模冲突：不同阶段采用不同结构和规模的模型，检索效果受排序模型局限性制约

滞后于 AI 进展 (Lag Behind AI Evolution)：级联架构在结构上阻碍了 scaling laws、强化学习等已在 LLM/VLM 领域验证的关键技术的应用。

2. OneRec 架构¶

OneRec 将推荐系统重构为单阶段 encoder-decoder 生成框架（见 Figure 2），核心组件包括：Tokenizer、Encoder、Decoder 和 Reward System。

2.1 Tokenizer¶

2.1.1 协同感知的多模态表征对齐 (Aligned Collaborative-Aware Multimodal Representation)¶

将多模态内容信号与协同过滤信号融合：

多模态表征：对每个视频提取 caption、tag、ASR、OCR、封面图和 5 帧均匀采样帧，使用 miniCPM-V-8B 生成 $N_M = 1280$ 个 token 向量 $\mathbf{M} \in \mathbb{R}^{N_M \times d_t}$（$d_t = 512$）。通过 QFormer（$N_{\tilde{M}} = 4$ 个可学习 query token，$N_c = 4$ 层）压缩为 $\tilde{\mathbf{M}} \in \mathbb{R}^{N_{\tilde{M}} \times d_t}$：

$$\mathbf{Q}^{(i+1)} = \text{CrossAttn}\left(\mathbf{Q}^{(i)}, \mathbf{M}, \mathbf{M}\right)$$

$$\mathbf{Q}^{(i+1)} = \text{FFN}(\text{RMSNorm}(\mathbf{Q}^{(i+1)})), \quad i \in \{1, 2, \ldots, N_c\}$$

物品对构建：通过 User-to-Item Retrieval（用户正点击 item 配对历史中协同相似的 item）和 Item-to-Item Retrieval（Swing 相似度配对）构建高质量物品对数据集 $\mathcal{D}_{pair}$。

双重训练目标： 1. Item-to-Item 对比损失，对齐协同相似视频对 $(i, j) \in \mathcal{D}_{pair}$ 的表征：

$$\mathcal{L}_{I2I} = -\frac{1}{|\mathcal{B}|} \sum_{(i,j) \in \mathcal{B}} \log \frac{\exp\left(\text{sim}\left(\tilde{\mathbf{M}}_i, \tilde{\mathbf{M}}_j\right) / \tau\right)}{\sum_{(i',j') \in \mathcal{B}} \exp\left(\text{sim}\left(\tilde{\mathbf{M}}_i, \tilde{\mathbf{M}}_{j'}\right) / \tau\right)}$$

Caption 生成损失，使用 LLaMA3 作为 decoder 防止表征幻觉：

$$\mathcal{L}_{caption\_gen} = -\sum_k \log P\left(t^{k+1} \mid [t^1, t^2, \cdots, t^k]\right)$$

2.1.2 RQ-Kmeans Tokenization¶

使用 RQ-Kmeans（残差量化 K-means）将对齐后的多模态表征转换为由粗到细的层次化语义 ID，迭代 $L_t = 3$ 层：

初始残差（$l = 1$）：

$$\mathcal{R}^{(1)} = \left\{\tilde{\mathbf{M}}_i \in \mathbb{R}^{N_{\tilde{M}} \times d_t} \mid \forall \text{ video } i\right\}$$

每层 codebook 通过 K-means 聚类获得：

$$C^{(l)} = \text{K-means}\left(\mathcal{R}^{(l)}, N_t\right)$$

2.2 Encoder¶

2.2.1 多尺度特征工程 (Multi-Scale Feature Engineering)¶

通过四条专用嵌入通路捕获不同尺度的用户交互模式：

User Static Pathway：用户静态特征（uid, age, gender 等），$\mathbf{e}_{\text{uid}}, \mathbf{e}_{\text{gender}}, \mathbf{e}_{\text{age}} \in \mathbb{R}^{64}$，输出 $\mathbf{h}_u \in \mathbb{R}^{1 \times d_{\text{model}}}$：

$$\mathbf{f}_u = [\mathbf{e}_{\text{uid}}; \mathbf{e}_{\text{gender}}; \mathbf{e}_{\text{age}}; \cdots]$$ $$\mathbf{h}_u = \text{Dense}(\text{LeakyReLU}(\text{Dense}(\mathbf{f}_u)))$$

Short-term Pathway（$L_s = 20$）：最近 20 条交互记录，包含 vid/sid、aid、tag、ts、playtime、dur、label 等特征，输出 $\mathbf{h}_s \in \mathbb{R}^{L_s \times d_{\text{model}}}$。vid 嵌入维度为 $d_{\text{model}}$，author 嵌入 512 维，其余 128 维。

Positive-feedback Pathway（$L_p = 256$）：256 条高交互行为序列，结构同 Short-term Pathway，输出 $\mathbf{h}_p \in \mathbb{R}^{L_p \times d_{\text{model}}}$。

Lifelong Pathway（$L_l = 2000$）：处理最长 100,000 条超长用户行为序列，采用两阶段层次压缩：

行为压缩：对交互序列做层次 K-means 聚类（每步聚类数 $\lfloor \sqrt[5]{|D|} \rfloor$，直到簇大小 $\leq M$），选择最靠近簇中心的 item 作为代表
特征聚合：离散特征直接继承代表视频，连续特征取簇内平均
QFormer 压缩：$N_q = 128$ 个可学习 query token，$N_l = 2$ 层 cross-attention，最终输出 $\mathbf{h}_l \in \mathbb{R}^{N_q \times d_{\text{model}}}$

2.2.2 Encoder 架构¶

拼接四条通路输出并加位置编码，经 $L_{\text{enc}}$ 层 fully visible self-attention Transformer 处理：

$$\mathbf{z}^{(1)} = [\mathbf{h}_u; \mathbf{h}_s; \mathbf{h}_p; \mathbf{h}_l] + \mathbf{e}_{\text{pos}}$$

$$\mathbf{z}^{(i+1)} = \mathbf{z}^{(i)} + \text{SelfAttn}(\text{RMSNorm}(\mathbf{z}^{(i)}))$$

$$\mathbf{z}^{(i+1)} = \mathbf{z}^{(i+1)} + \text{FFN}(\text{RMSNorm}(\mathbf{z}^{(i+1)}))$$

最终输出 $\mathbf{z}_{\text{enc}} = \mathbf{z}^{(L_{\text{enc}}+1)} \in \mathbb{R}^{(1+L_s+L_p+N_q) \times d_{\text{model}}}$。

2.3 Decoder¶

采用逐点生成范式 (point-wise generation)。对每个目标视频 $m$，构建 decoder 输入序列：

$$S_m = \{s_{[\text{BOS}]}, s_m^1, s_m^2, \cdots, s_m^{L_t}\}$$

$$\mathbf{d}_m^{(0)} = \text{Emb\_lookup}(S_m)$$

每层 decoder 依次执行 causal self-attention、cross-attention（连接 encoder 输出）、MoE FFN：

$$\mathbf{d}_m^{(i+1)} = \mathbf{d}_m^{(i)} + \text{CausalSelfAttn}(\mathbf{d}_m^{(i)})$$

$$\mathbf{d}_m^{(i+1)} = \mathbf{d}_m^{(i+1)} + \text{CrossAttn}(\mathbf{d}_m^{(i+1)}, \mathbf{z}_{\text{enc}}, \mathbf{z}_{\text{enc}})$$

$$\mathbf{d}_m^{(i+1)} = \mathbf{d}_m^{(i+1)} + \text{MoE}(\text{RMSNorm}(\mathbf{d}_m^{(i+1)}))$$

MoE 层采用 top-$k$ 路由策略，$N_{\text{experts}}$ 个 expert 网络：

$$\text{MoE}(\mathbf{x}) = \sum_{j=1}^k \text{Gate}_j(\mathbf{x}) \cdot \text{Expert}_j(\mathbf{x})$$

使用 loss-free 负载均衡策略（DeepSeek）避免引入干扰梯度。

预训练损失为语义 ID 的 next-token prediction：

$$\mathcal{L}_{\text{NTP}} = -\sum_{j=0}^{L_t-1} \log p\left(s_m^{j+1} \mid [s_{[\text{BOS}]}, s_m^1, s_m^2, \cdots, s_m^j]\right)$$

2.4 Reward System¶

三部分组成：Preference Reward (P-Score)、Format Reward、Industrial Reward。

2.4.1 用户偏好对齐 (User Preference Alignment)¶

P-Score（Preference Score）：基于 SIM 架构的神经网络融合模型，包含多个 tower 分别学习 ctr、lvtr、ltr、vtr 等目标的 BCE 损失作为辅助任务，最终合并输出个性化融合分数：

$$\mathcal{L}_{\text{P-Score}} = \sum_{xtr \in S_o} w^{xtr} \mathcal{L}_{\text{P-Score}}^{xtr}$$

$$\mathcal{L}_{\text{P-Score}}^{xtr} = -(y^{xtr} \log p + (1 - y^{xtr}) \log(1 - p))$$

$$S_o = \{\text{ctr, lvtr, ltr, vtr, \ldots}\}$$

Early Clipped GRPO (ECPO)：对 GRPO 的改进以稳定训练。对用户 $u$，使用旧策略生成 $G$ 个 item，获取 P-Score 作为 reward $r_i$：

$$\mathcal{J}_{\text{ECPO}}(\theta) = \mathbb{E}_{u \sim P(U), \{o_i\}_{i=1}^G \sim \pi_{old}} \left[\frac{1}{G} \sum_{i=1}^G \min\left(\frac{\pi_\theta(o_i|u)}{\pi'_{\theta_{old}}(o_i|u)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|u)}{\pi'_{\theta_{old}}(o_i|u)}, 1 - \epsilon, 1 + \epsilon\right) A_i\right)\right]$$

$$A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \ldots, r_G\})}{\text{std}(\{r_1, r_2, \ldots, r_G\})}$$

关键改进：对负 advantage 的 item 进行 early clipping，限制策略比率上界为 $1 + \epsilon + \delta$（$\delta = 0.1$）：

$$\pi'_{\theta_{old}}(o_i|u) = \max\left(\frac{\text{sg}(\pi_\theta(o_i|u))}{1 + \epsilon + \delta}, \pi_{\theta_{old}}(o_i|u)\right), \quad \delta \gt 0$$

移除 KL 散度损失，因为 RL 和 SFT 在 OneRec 中同时训练。

2.4.2 生成格式正则化 (Generation Format Regularization)¶

RL 引入后生成合法率（可映射到实际 item ID 的比例）因 squeezing effect 降至 50% 以下。引入 format reward：对合法样本设置 advantage 为 1，非法样本设置为 0 直接丢弃：

$$A_i = \begin{cases} 1 & \text{if } o_i \in I_{\text{legal}} \\ 0 & \text{if } o_i \notin I_{\text{legal}} \end{cases}$$

使用 Random Selection（随机选 $K$ 个样本计算 format loss）效果优于 Top-k Selection，可将合法率稳步提升至 95%。在线指标额外获得 +0.13% App Stay Time 和 +0.30% Watch Time。

2.4.3 工业场景对齐 (Industrial Scenario Alignment)¶

通过 Specific Industrial Reward (SIR) 处理平台生态需求。例如抑制搬运内容（viral content）：当比例超过阈值 $f$ 时，对搬运视频的 P-Score 乘以抑制因子 $\alpha \in (0, 1)$：

$$r_i' = \begin{cases} r_i & \text{if } o_i \notin I_{\text{viral}} \\ \alpha r_i & \text{if } o_i \in I_{\text{viral}} \end{cases}$$

实验表明 SIR 有效将搬运内容曝光减少 9.59%，同时核心指标保持稳定。

3. 训练框架¶

3.1 训练基础设施¶

计算：90 台服务器，每台 8 张旗舰 GPU + 2 CPU，400Gbps NVLink 互联
网络：节点内 NVLink，节点间 400Gbps RDMA（训练）+ 100Gbps TCP（embedding 预取）
存储：每台 4 块 NVMe SSD，大规模 embedding 参数和 dense 参数存储在 HDFS

训练加速： 1. Embedding 加速：SKAI 框架，GPU-based 参数服务器，跨 GPU 统一 embedding 表，GPU 缓存和预取管线 2. 训练并行：Data Parallelism + ZeRO1 + 梯度累积 3. 混合精度：BFloat16 4. 编译优化：attention 网络编译优化

训练 MFU 提升至 23.7%。

3.2 Pre-training¶

每个训练样本包含 1 个 target item（tokenize 为 3 个语义 ID）
日处理 180 亿样本，吞吐量 540 亿 token/天
OneRec-0.935B 模型在约 1000 亿样本（3000 亿 token）后收敛

模型规格（Table 1）：

Model	Layers	Hid. Dim	FFN Hid. Dim	Attn. Heads	Experts (Tot/Act)	MoE Loc.
OneRec-0.015B (Dense)	4	128	256	4	N/A	N/A
OneRec-0.121B (Dense)	8	1024	2048	8	N/A	N/A
OneRec-0.935B (MoE)	8	1024	2048	8	24/2	Decoder
OneRec-2.633B (MoE)	24	1024	2048	8	24/4	Enc & Dec

Encoder 和 Decoder 层数相等。Dense 模型 FFN 隐藏维度 $d_{\text{ff}} = 2 \times d_{\text{model}}$。MoE 模型中每个 SwiGLU expert 隐藏维度 $\frac{2}{3} \times 4 \times d_{\text{model}}$（取 128 的倍数）。

3.3 Post-training¶

同时执行 Reject Sampling Fine-Tuning (RSFT) 和 Reinforcement Learning (RL)：

RSFT：过滤掉底部 50% 播放时长的曝光 session，使用 $\mathcal{L}_{\text{NTP}}$ 损失但降低学习率（sparse 参数 $1 \times 10^{-4}$，dense 参数 $8 \times 10^{-5}$）
RL：随机选择 1% 用户，通过外部推理服务生成 512 个 item，请求 reward model 获取奖励，训练任务每 1000 步通过 MQ 将更新参数发送给推理服务

4. 评估¶

4.1 评估指标¶

Cross-entropy loss：$\mathcal{L}_{\text{NTP}}$ 曲线
P-Score：学习到的综合评估指标
xtr 指标：lvtr（长观看率）、vtr（观看率）、ltr（点赞率）、wtr（关注率）、cmtr（评论率）

4.2 Scaling 实验¶

4.2.1 训练 Scaling¶

参数 Scaling：四个模型（0.015B/0.121B/0.935B/2.633B）展现清晰的 scaling 趋势——更大模型在训练中达到更低 loss（Figure 9）。性能在约 100 亿样本内快速收敛，超过 1000 亿样本仍有缓慢提升。

采用 DeepSeek 的 loss-free 负载均衡策略后，观察到 loss 降低 0.2。

Feature Scaling（Table 2）：对比仅用 vid embedding（256 条正反馈 item）与完整特征集，增加特征后各指标显著提升：

Metric	w/o. feature	w/. feature	Impr.
lvtr	0.4940	0.5500	11.34%
vtr	0.8730	0.8901	1.96%
ltr	0.0391	0.0441	12.79%
wtr	0.0190	0.0224	17.89%
cmtr	0.0919	0.1010	9.90%
P-score	0.0749	0.0966	28.88%

Codebook Scaling（Table 3）：从 8,192 扩展到 32,768，各指标均有提升，尤其 P-score 提升 4.75%：

Metric	Size=8K	Size=32K	Impr.
lvtr	0.5118	0.5245	2.48%
vtr	0.9384	0.9491	1.14%
ltr	0.0298	0.0299	0.34%
wtr	0.0153	0.0154	0.65%
cmtr	0.0650	0.0664	2.15%
P-score	0.2516	0.2635	4.75%

Inference Scaling (Pass@K)（Table 4）：增加推理生成数量 K 从 8 到 512 带来显著提升（P-score +376.10%），但从 512 到 1024 收益递减。生产环境选择 K=512。

Metric	Pass@8	Pass@64	Pass@512	Pass@1024	Impr.
lvtr	0.3675	0.4927	0.5351	0.5443	48.11%
vtr	0.9444	0.9462	0.9513	0.9530	0.91%
ltr	0.0278	0.0346	0.0425	0.0452	62.59%
wtr	0.0114	0.0138	0.0182	0.0197	72.81%
cmtr	0.0350	0.0566	0.0809	0.0891	154.57%
P-score	0.0811	0.2051	0.3375	0.3859	376.10%

4.2.2 Semantic ID 输入表征¶

当模型规模达到 2.6B 参数时，使用 semantic ID 替代传统稀疏 vid embedding 作为用户行为输入，可达到相当甚至更优的性能（Table 5）：

Metric	VID	Semantic ID	Impr.
lvtr	0.4447	0.4467	0.45%
vtr	0.8725	0.8726	0.01%
ltr	0.0336	0.0336	0.00%
wtr	0.0104	0.0105	0.96%
cmtr	0.0565	0.0573	1.42%
P-score	0.0371	0.0378	1.74%

Semantic ID 输入的优势：参数效率（消除大规模稀疏 embedding 表）、通信效率（减少参数服务器通信）、序列容量扩展（可处理数万条交互）、表征一致性（输入输出共享语义空间）。

4.3 强化学习实验¶

4.3.1 用户偏好对齐¶

采样效率（Table 6）：RL 在 Pass@32 时相对提升最大（App Stay Time +0.49%），表明 RL 显著提高了小采样量下的精度：

Method	vtr	Watch time	App Stay Time	Video View
Pass@32 w/o RL	0.1978	+1.62%	-0.10%	-4.18%
Pass@32 w/ RL	0.2138	+3.17%	+0.39%	-9.87%
Relative Impr.	+8.08%	+1.55%	+0.49%	-3.69%
Pass@128 w/o RL	0.2239	+4.61%	+1.11%	-12.75%
Pass@128 w/ RL	0.2387	+5.22%	+1.49%	-15.06%
Relative Impr.	+6.61%	+1.53%	+0.38%	-2.65%
Pass@512 w/o RL	0.2444	+6.32%	+1.66%	-15.54%
Pass@512 w/ RL	0.2494	+5.88%	+1.75%	-13.88%
Relative Impr.	+2.05%	-0.41%	+0.09%	+1.97%

搜索空间（Table 7）：ECPO group size 从 128 增至 512 时性能显著提升，但 2048 无额外收益。建议 group size 约为推理输出量的 4 倍。

Group Size	vtr	Watch time	App Stay Time	Video View
0(w/o RL)	0.2198	+4.61%	+1.11%	-12.75%
128	0.2303	+5.22%	+1.49%	-15.06%
512	0.2350	+5.73%	+1.82%	-15.49%
2048	0.2352	+5.84%	+1.78%	-15.49%

搜索策略（Table 8）：Beam search 显著优于 top-k + top-p 采样，因为语义 ID 的前缀树结构与 beam search 的系统探索天然契合：

Strategy	vtr	Watch time	App Stay Time	Video View
Top-k+Top-p	0.2131	+4.45%	+1.16%	-13.61%
Beam Search	0.2162	+5.35%	+1.76%	-13.30%
Relative Impr.	+1.45%	+0.87%	+0.60%	+0.36%

参考模型（Table 9）：On-policy（当前策略模型）优于 off-policy（预训练模型），尤其在 offline reward 评估中显著更好。但在线提升有限，可能因 reward 定义尚不完善导致轻微 reward hacking。

Reference Model	vtr	Watch time	App Stay Time	Video View
Pre-trained Model	0.2262	+5.35%	+1.51%	-13.51%
Current Policy Model	0.2389	+6.19%	+1.56%	-13.89%
Relative Impr.	+5.61%	+0.79%	+0.04%	-13.89%

P-Score Reward（Table 10）：使用 P-Score 作为 reward（含 beam search + on-policy），在两个场景中均显著提升所有核心指标：

Scenario	Watch time	App Stay Time	Video View
Kuaishou	+0.21%	+0.26%	+0.17%
Kuaishou Lite	+0.71%	+0.22%	+0.35%

4.4 Tokenizer 评估¶

RQ-Kmeans vs RQ-VAE 对比（三层 8,192 codebook，Table 11）：

	RQ-VAE	RQ-Kmeans
Reconstruction Loss ↓	0.0548	0.0410
Codebook Utilization ↑ (layer 1)	1.0000	1.0000
Codebook Utilization ↑ (layer 2)	0.9963	1.0000
Codebook Utilization ↑ (layer 3)	0.9958	1.0000
Token Distribution Entropy ↑ (layer 1)	8.3892	8.9191
Token Distribution Entropy ↑ (layer 2)	8.4805	8.7770
Token Distribution Entropy ↑ (layer 3)	8.6037	8.7276

RQ-Kmeans 重建损失降低 25.18%，codebook 利用率完美 1.0，token 分布熵更高（三层分别提升 6.31%、3.50%、1.44%），表明更均匀的 token 分配。

4.5 Online A/B Test¶

在快手主站和快手极速版两大场景（日活 4 亿）部署，5% 流量实验组，观测一周。

核心实验结果（Table 12）：

Scenarios	Online Metrics	OneRec	OneRec with RM Selection
Kuaishou	App Stay Time	+0.01%	+0.54%
	Watch Time	+0.07%	+1.98%
	Video View	+1.98%	+2.52%
	Like	-2.00%	+2.43%
	Follow	-2.88%	+3.24%
	Comment	-1.56%	+5.27%
	Collect	-0.61%	+2.93%
	Forward	+0.27%	+5.90%
Kuaishou Lite	App Stay Time	+0.06%	+1.24%
	Watch Time	+0.05%	+3.28%
	Video View	+2.40%	+3.39%
	Like	-2.64%	+1.49%
	Follow	-2.75%	+2.28%
	Comment	-2.23%	+3.20%
	Collect	-1.76%	+1.91%
	Forward	-1.86%	+3.48%

纯生成模型 (OneRec) 通过 RL 偏好对齐已与传统级联系统性能持平。加入 Reward Model Selection 后在所有交互指标上实现全面提升，无跷跷板效应。

在快手 App Stay Time 上 +0.1%、LT7 上 +0.01% 已具有统计显著性。OneRec with RM Selection 在两个场景中分别达到 +0.54% 和 +1.24% App Stay Time，+0.05% 和 +0.08% LT7。

部署已扩展至总 QPS 的约 25%。

本地生活服务场景：OneRec 实现 GMV +21.01%、订单量 +17.89%、买家数 +18.58%、新买家 +23.02%，已承接该业务场景 100% QPS。

推理基础设施：使用 NVIDIA L20 GPU（每台 4 卡 + 2 CPU，PCIe 互联），TensorRT 编译优化，cross-attention、MoE 等自定义高性能插件，结合 batching 和 MPS 技术实现 5x 吞吐提升，推理 MFU 达到 28.8%。

4.6 OPEX 对比¶

OneRec 的整体运营费用 (OPEX) 仅为传统级联推荐系统的 10.6%，同时训练和推理 MFU 分别达到 23.7% 和 28.8%，是原排序模型的 5.2x 和 2.6x 提升，显著缩小了与 LLM 社区的效率差距。

5. 局限性与未来方向¶

Inference Stage Scaling：推理阶段的 step scaling 效果不明显，当前缺乏推理 reasoning 能力
多模态融合：尚未与 LLM/VLM 整合，未来计划将用户行为作为一种模态纳入原生多模态模型
Reward System 设计：reward 系统仍处于初级阶段，定义"好推荐"仍是一个开放问题

6. 核心贡献总结¶

架构创新：首个将工业级推荐系统从多阶段级联架构重构为端到端生成框架的成功实践
Scaling Laws：在推荐系统中首次验证了参数规模、特征规模、codebook 规模和推理规模的 scaling 规律
RL for RecSys：设计了 ECPO 算法和三重 reward 体系（偏好/格式/工业），使 RL 在推荐系统中首次展现显著潜力
工程效率：OPEX 仅为传统系统 10.6%，MFU 提升至 23.7%/28.8%，在 4 亿日活平台承载 25% QPS
全面提升：所有交互指标同时提升，无跷跷板效应，成功泛化到本地生活等不同业务场景