1. 研究背景与动机¶
量化推理(Quantized Inference)已在大语言模型中取得显著的系统级收益——低精度格式(FP8、INT8 等)可在保持模型质量的同时大幅降低计算和内存开销。然而,将低精度量化可靠地应用于推荐系统在工业界一直存在挑战。
传统推荐模型面临的量化困难:
- 训练范式、架构模式和计算特性与 LLM 差异显著
- 权重和激活呈现高幅值、高方差分布,对量化引入的扰动更为敏感
- 推荐推理负载通常受限于内存/控制流(memory or control bound),硬件利用率低,低精度计算的吞吐增益难以转化为端到端收益
生成式推荐模型的转机:
OneRec(Zhou et al., 2025b)提出了将检索和排序统一为条件序列生成的生成式推荐框架,OneRec-V2 通过架构扩展和训练改进进一步发展了这一范式。与传统多阶段推荐架构相比,生成式推荐模型更重依赖密集计算路径和统一的执行模式,提高了计算密度和硬件利用率,同时训练范式对激活的幅值和方差施加了更强的隐式正则化。
本文的核心问题:OneRec-V2 的数值特性是否已足够接近 LLM,从而可以安全地应用 LLM 领域成熟的量化技术?
2. 主要贡献¶
- 数值分析:系统分析了传统推荐模型、OneRec-V2 和 LLM(Qwen3-8B)的权重/激活分布特性,揭示量化可行性差异的根本原因
- 经验验证:证明 OneRec-V2 的架构和训练范式转变使其权重/激活统计特性更为可控,显著提高了量化推理的可行性
- FP8 量化框架 + 推理基础设施优化:开发了集成 FP8 后训练量化的优化推理系统(RecoGEM),在生产配置下实现了显著的延迟降低和吞吐提升,线上 A/B 测试无质量退化
3. 量化背景¶
给定浮点张量 $\mathbf{x}$,量化表示 $\hat{\mathbf{x}}$ 定义为:
$$\hat{\mathbf{x}} = Q(\mathbf{x}; s) = \text{round}\left(\frac{\mathbf{x}}{s}\right)$$
其中 $s$ 为缩放因子(scaling factor),控制原始动态范围到目标精度的映射。
量化可应用于权重和激活。关键设计选择包括:
- 缩放粒度:per-tensor / per-channel / block-wise
- 缩放方式:静态(offline 预计算)或动态(runtime 计算)
在 LLM 中,低精度格式通常与高精度累加(higher-precision accumulation)配合使用,用于密集线性运算(如矩阵乘法)。
4. 分布特性分析¶
4.1 实验设置¶
比较三个代表性模型族的分布统计: 1. 传统推荐模型(精排模型,snapshot 2026-02-04) 2. OneRec-V2(snapshot 2026-02-27) 3. Qwen3-8B(代表 LLM)
统计指标:所有张量的方差(Variance)、绝对最大值(AbsMax)、第 99 百分位绝对值(AbsP99)的均值,以对数尺度展示(Figure 1)。
4.2 分析结果¶
| 模型 | 权重方差 | 权重 AbsMax | 激活方差 | 激活 AbsMax |
|---|---|---|---|---|
| 传统推荐模型 | ~$10^7$ | >$10^3$ | ~$10^6$ | 极大 |
| Qwen3-8B | ~$0.1$ | ~$2.0$ | 偶尔较高但整体远低于传统推荐 | 远低于传统推荐 |
| OneRec-V2 | <$0.1$ | 远小于传统推荐 | 比传统推荐小数个数量级 | 动态范围和离散度大幅缩小 |
关键发现:
- 传统推荐模型:权重方差高达 $10^7$ 量级,AbsMax 超过 $10^3$;激活方差也在 $10^6$ 量级,表明分布高度离散、动态范围极宽,对粗粒度缩放构成严峻挑战
- LLM (Qwen3-8B):权重方差约 0.1,极值约 2.0;激活偶有高值但整体尺度远小于传统推荐模型
- OneRec-V2:分布统计远比传统推荐模型接近 LLM。权重方差低于 0.1,激活统计也比传统推荐小数个数量级,动态范围和离散度大幅缩小
结论:模型族之间的数值行为存在根本性差异。动态范围极宽、分布高度离散的模型对粗粒度缩放挑战更大,而统计特性更受控的模型天然更兼容低精度表示。OneRec-V2 属于后者。
5. 方法¶
5.1 量化策略¶
采用后训练量化(Post-Training Quantization, PTQ),无需修改模型架构或训练流程。量化仅应用于计算密集型算子:
- Attention 中的 qkvo 投影层(Linear layers)
- Dense FFN 中的线性变换
- Sparse MoE 中的 grouped GEMM 运算
其他数值敏感或计算占比不高的组件保持原始精度。
Linear 层量化方案(Figure 2):
- 权重:per-channel 量化,缩放因子从 FP16 参数离线计算;预量化后以 (FP8 weight, FP32 scale) 对存储在 GPU 内存中
- 激活:per-token 动态量化,缩放因子在运行时计算
- 矩阵乘法:使用 FP8 TensorCore 执行,FP32 累加,结果 cast 回 FP16 后进入后续层
MoE grouped GEMM 量化方案:
- 采用 block-wise 量化
- 激活沿最后维度使用 $1 \times 128$ 粒度
- 权重使用 $128 \times 128$ 粒度
- 这种 block-aligned 设计降低了单个 scale 覆盖的动态范围,同时保持了原有的路由和并行执行结构
5.2 推理基础设施优化(RecoGEM)¶
为确保量化带来的计算加速转化为可度量的端到端性能增益,论文优化了推理基础设施 RecoGEM:
- 不依赖多阶段转换流水线(如 PyTorch -> ONNX -> TensorRT),而是直接使用统一算子库构建 TensorRT 执行图,实现更精细的 kernel 选择、算子融合和内存布局控制
算子级优化:
- 量化算子:实现高效的 per-row 激活量化算子,以及融合量化和 GEMM 执行的低精度矩阵乘 kernel,减少中间内存搬运
- TopK 优化:将默认 TopK 实现替换为基于 radix 的 kernel(RadixTopK),应用 kernel fusion 和 zero-copy 技术,减少大 batch 下的内存搬运
- Attention 优化:针对 OneRec-V2 典型的大 batch、短 context 场景重新设计 attention kernel,引入 batch-level parallelism 和 software pipelining
- MoE 优化:使用 Hopper TMA-enabled kernels 和算子融合优化 grouped GEMM 执行路径,提高 TensorCore 利用率和有效 MFU
6. 实验¶
6.1 实验设置¶
- 模型:生产级 OneRec-V2,fat-MoE 架构,约 4B backbone 参数,每 token 激活 0.5B
- 场景:单列短视频推荐
- 配置:batch size 32,线上 serving 配置
- 基线:FP16 推理
量化应用于 Attention、Dense FFN 和 MoE expert 模块中计算密集的 Linear 层,其余组件保持 FP16。
6.2 系统性能评估¶
端到端性能:
| 指标 | FP16 基线 | 优化后(FP8 + RecoGEM) | 提升 |
|---|---|---|---|
| 推理延迟 | 139 ms | 70 ms | -49% |
| 吞吐 | 205 | 394 | +92% |
吞吐增益分解(Figure 3):
| 优化组件 | 吞吐 | 增量贡献 |
|---|---|---|
| FP16 Baseline | 205 | - |
| + 推理基础设施升级(RecoGEM) | 260 | +27% |
| + FP8 量化(Linear & MoE) | 346 | +42% |
| + 算子级优化 | 394 | +23% |
| 总计 | 394 | +92% |
三个层面的优化各自贡献了可度量的性能增益:基础设施升级提供基础,量化贡献最大增量,算子优化进一步提升。完整 92% 的吞吐提升由三者联合实现。
6.3 线上 A/B 测试¶
在生产环境进行为期一周的线上 A/B 测试,对比 FP8 推理与 FP16 基线(Table 1):
快手主站:
| 指标 | 变化 |
|---|---|
| App Stay Time | +0.047% |
| Watch Time | +0.044% |
| Video View | +0.073% |
| Like | +0.085% |
| Follow | +0.020% |
| Comment | +0.805% |
| Collect | +0.430% |
| Forward | +0.313% |
快手极速版(Kuaishou Lite):
| 指标 | 变化 |
|---|---|
| App Stay Time | -0.018% |
| Watch Time | -0.157% |
| Video View | -0.041% |
| Like | -0.102% |
| Follow | -0.450% |
| Comment | +0.261% |
| Collect | -0.353% |
| Forward | +1.047% |
A/B 测试结论:两个产品线的核心指标均保持稳定,未观察到一致性的性能退化。快手主站各指标均为正向,极速版部分指标有轻微波动但无系统性下降。结果确认低精度推理可在不损害推荐质量的前提下部署于真实生产环境。
6.4 分析与讨论¶
两个核心观察:
-
低精度推理可为计算以密集线性运算和 MoE expert 为主的生成式推荐模型带来显著的系统级加速。近 2 倍吞吐提升证明了降低精度计算在大规模推荐服务中的实用价值。
-
尽管对关键计算路径降低了精度,线上指标保持稳定。结合 Preliminary 的分布分析,说明 OneRec-V2 的权重和激活统计特性已充分可控,足以容忍量化噪声。
7. 局限性¶
- 未探索更低精度:仅研究 FP8,未探索 INT8、FP6、FP4 或混合低比特方案,未揭示生成式推荐模型的完整 accuracy-efficiency frontier
- 高基础设施要求:方案依赖 TensorRT 部署、Hopper TMA 等硬件特性、定制化算子优化,可移植性和复现性受限
- 生成式推荐模型覆盖有限:仅在 OneRec-V2 上验证,量化特性和部署收益能否推广到其他生成式推荐架构尚不确定
8. 总结¶
本文研究了生成式推荐场景下的低精度推理,在生产级 OneRec-V2 模型上验证了其可行性。核心发现是:推荐模型的量化可行性不仅取决于数值格式,更取决于模型架构、训练范式和推理执行特性。与传统推荐模型相比,OneRec-V2 展现出更受控的权重/激活统计特性和更高的计算密集度,使其天然更适合低精度计算。
将 FP8 后训练量化与优化推理基础设施和算子级改进相结合,实现了 49% 延迟降低和 92% 吞吐提升,线上 A/B 测试确认无质量退化。
更广泛地说,这些结果表明:随着推荐系统向密集的生成式架构演进,LLM 领域的优化技术可以在架构和系统层面的适配下有效迁移至大规模推荐负载。