Rec-Distill:面向大规模推荐模型的工业级蒸馏流水线¶
研究动机与背景¶
Scaling law 已经从根本上改变了推荐系统的研发轨迹:模型性能 $P$ 可以随着参数量、训练数据量、计算预算等关键资源的增加而可预测地、持续地提升。这一趋势推动研究者构建越来越庞大的推荐模型,去捕捉复杂的高阶用户-物品交互模式,从而提升推荐精度与平台收入。
然而,在工业推荐系统中,模型规模的持续膨胀受到两道现实约束的钳制:
- 在线服务延迟:线上服务对响应延迟极度敏感,模型复杂度的提升会显著抬高推理开销、拖慢系统响应。
- 训练/部署的 ROI 困境:超大规模模型的训练与部署算力需求增长迅猛,而其带来的线上指标提升却往往呈现边际递减,最终拉低整体投入产出比。
知识蒸馏(Knowledge Distillation, KD)为绕开这一"规模-效率(scale-efficiency)"两难提供了一条可行路径:将庞大教师模型的知识迁移给轻量学生模型,让学生在大幅降低推理成本和延迟的前提下逼近教师性能。但 KD 在高并发工业推荐场景——尤其是面对超大规模教师模型时——仍面临突出的理论与工程难题。
为什么 CV/NLP 的 KD 范式无法直接照搬到推荐? 在 CV/NLP 领域,KD 通常用一个预训练好的教师在蒸馏数据集上做一次性推理,或者用一个冻结的教师与学生协同训练(co-train)。但推荐系统的一个核心要求是:必须能从实时流式数据分布中持续学习以维持线上性能。一旦教师停止从流式数据中学习,其性能会迅速退化、无法再有效指导学生;反过来,协同训练要求在学生每一个训练步都做一次教师推理,训练成本高到无法满足工业环境的快速迭代需求。此外,理论研究表明:教师与学生之间过大的容量鸿沟(capacity gap)会阻碍知识迁移,甚至导致性能收益出现拐点(inflection point)。现有的缓解手段(动态师生框架、教师助理 teacher assistant 等)又会引入额外的结构复杂度和训练开销。
Meta 最近的 ExFM 框架探索了通过外部蒸馏来实现大规模模型服务,但其重心是计算成本的摊销,而把核心问题——如何在将教师 scaling 到极致的同时最大化知识迁移——系统性地留白了。
基于上述分析,作者归纳出构建工业级大规模蒸馏框架必须解决的三个核心挑战:
- 兼容多阶段训练流水线:工业推荐普遍依赖多阶段训练范式。实用的蒸馏框架必须支持在不同训练阶段间可靠地写入/读取蒸馏信号,同时控制训练成本、避免协同训练这类昂贵方案。
- 支持持续流式更新:框架需同时支持教师与学生的流式学习——教师持续更新以跟随最新数据分布,学生在蒸馏信号 + 流式数据上以最小延迟训练。
- 最大化蒸馏可迁移性(Distillation Transferability):目标是尽可能保留 scaling 教师所带来的收益。优化这一目标需要蒸馏目标、学生模型、底层数据流水线的协同设计。
为应对这些挑战,本文提出 Rec-Distill,一个解耦式(decoupled)大规模蒸馏框架。它不再把教师与学生的优化紧耦合,而是分离二者的训练过程,从而可以在不增加在线推理成本的前提下放大教师。教师通过流式训练持续跟踪最新数据分布,其前向过程产生的蒸馏信号被缓存到中间存储供学生训练消费。这种设计还支持灵活的 "1-to-N" 范式:单个教师可监督多个学生,甚至可以跨推荐流水线的不同阶段(例如用高阶精排模型去蒸馏粗排/预排模型)。
蒸馏收益的乘积分解¶
本文的理论骨架是把蒸馏收益分解为 教师收益(Teacher Gain, $\Delta\mathrm{Gain}_{scale}$) 与 蒸馏可迁移性(Distillation Transferability, $\eta$) 的乘积:
$$\Delta\mathrm{Gain}_{distill} = \Delta\mathrm{Gain}_{scale} \times \eta \tag{1}$$
其中定义 $\Delta\mathrm{Gain}_{scale} = P_T - P_S^{raw}$ 为教师收益,$\eta = \dfrac{P_S^{distill} - P_S^{raw}}{P_T - P_S^{raw}}$ 为蒸馏可迁移性——即教师性能优势中被学生成功吸收的比例。$P_T$ 表示教师性能,$P_S^{raw}$ 表示未经蒸馏的学生性能,$P_S^{distill}$ 表示蒸馏后学生性能。
因此整体目标是同时最大化 $\Delta\mathrm{Gain}_{scale}$ 与 $\eta$。由于 $\Delta\mathrm{Gain}_{scale} = P_T - P_S^{raw}$,提升教师收益等价于提升教师的绝对性能 $P_T$——这由 scaling law 指导,沿稠密参数规模、序列建模、训练数据量三个维度全面放大教师。而最大化 $\eta$ 则从两方面入手:蒸馏算法(采用黑盒策略,直接用教师输出 logits 以交叉熵损失优化学生,通用、简单、高效)与学生架构(提出 "decoupled-tower" 解耦双塔,把学生网络拆成在线推理的主任务塔和专门接收蒸馏信号的辅助塔,既提升性能又实现风险隔离)。
本文三大贡献:
- 业界领先的大规模蒸馏范式:据作者所知,Rec-Distill 是工业推荐场景中首个成功且高效地蒸馏高达 24B 稠密参数 + 20K 序列长度教师模型的框架,系统性验证了 scaling law 在推荐蒸馏中的有效性,提供了把模型规模与线上推理成本解耦的可复用方案。
- 面向高可迁移性的系统设计:通过对蒸馏算法、解耦双塔学生架构、统一的批流混合(batch-streaming)流水线的精心优化,系统性地解决了实时处理与风险缓解难题,显著提升迁移的鲁棒性与效率。
- 普适性与有效性:在多个工业推荐与广告场景下验证,框架稳定实现峰值蒸馏可迁移性超过 60%。
Preliminaries:问题形式化与基础¶
问题形式化¶
考虑一个广义的工业推荐与广告设定。Rec-Distill 不限于单一预测任务,而是为多样化业务目标(CTR、CVR、watch-time 预测等)提供统一的大规模蒸馏框架。令 $\mathcal{U}$、$\mathcal{I}$ 为用户与物品集合,对任意 user-item 对 $(u,i)$,模型接收特征向量 $\mathbf{x}_{ui} \in \mathcal{X}$(含用户画像、物品属性、上下文信息、用户历史交互序列),目标是学习预测函数 $f: \mathcal{X} \to \mathcal{Y}$ 来建模目标反馈 $y_{ui}$。$y_{ui}$ 可以是离散行为标签或连续值信号。
推荐场景的知识蒸馏¶
KD 旨在把大容量教师 $f_T$ 中的知识迁移给更小、更高效的学生 $f_S$。标准 KD 中,学生同时拟合真实标签和教师的软化输出分布。令 $z_T = f_T(\mathbf{x})$、$z_S = f_S(\mathbf{x})$ 为教师与学生的 pre-sigmoid 输出,软化概率为 $p_T = \sigma(z_T/\tau)$、$p_S = \sigma(z_S/\tau)$,$\sigma(\cdot)$ 为 sigmoid,$\tau>0$ 为控制分布平滑度的温度参数。蒸馏损失通常定义为按 $\tau^2$ 缩放的 KL 散度:
$$\mathcal{L}_{distill} = \tau^2 \cdot D_{KL}(p_T \| p_S) \tag{2}$$
整体目标是蒸馏损失与任务损失 $\mathcal{L}_{task}$ 的加权组合:
$$\mathcal{L}_S = \alpha \cdot \mathcal{L}_{task} + (1-\alpha) \cdot \mathcal{L}_{distill} \tag{3}$$
$\alpha \in [0,1]$ 为平衡权重。这与本文采用的黑盒蒸馏思路一致——学生只从教师的最终输出学习,不访问其内部表示。
Scaling Law 与蒸馏收益¶
如前人工作所示,模型性能 $P$ 随模型参数量 $N$、训练数据量 $D$、计算预算 $C$ 等关键资源以幂律形式可预测地变化。在推荐系统中,放大 $N$(模型容量)与有效利用更长的用户行为序列($D$ 的一个侧面)是提升教师性能 $P_T$ 的主要途径。为定量分析,将 Eq 1 改写为:
$$\eta(t) = \frac{\Delta\mathrm{Gain}_{distill}(t)}{\Delta\mathrm{Gain}_{scale}(t)} = \frac{P_S^{distill}(t) - P_S^{raw}(t)}{P_T(t) - P_S^{raw}(t)} \tag{4}$$
$P_S^{raw}(t)$ 为 $t$ 时刻未蒸馏的基线学生性能,作为 baseline;$P_T(t)$ 为放大收益的关键因子。整体蒸馏收益由此被分解为"放大教师带来的收益 $\Delta\mathrm{Gain}_{scale}$"与"蒸馏可迁移性 $\eta$"两个分量,框架目标是通过系统的教师 scaling 与精心的蒸馏设计同时最大化二者。
核心方法 / 模型架构¶
总体框架¶

Rec-Distill 采用解耦蒸馏(decoupled distillation)范式训练教师 $f_T$ 与学生 $f_S$,并落地 "1-to-N" 训练范式——单个教师为多个独立学生提供监督信号,显著降低每个学生的训练成本,同时自然适配推荐系统的流式更新。
具体地,高容量教师 $f_T$ 在全量数据上用真实标签 $y$ 训练。在前向传播中,计算出的 logits $p_T$ 被持久化到外部存储作为蒸馏信号。值得注意的是:由于推荐场景的稀疏特征及其强记忆效应,传统的"先训练后预测"范式可能引入数据泄露,因此本文采用前向蒸馏(forward distillation)方案——教师预测在前向传播时即生成并存储,再由学生作为蒸馏目标消费。
轻量学生 $f_S$ 采用解耦双塔设计。为提升效率,学生可在采样子集上训练。它包含两个组件:1)主任务塔(Main Task Tower)——负责在线服务时的最终推荐预测,仅用真实标签优化;2)辅助塔(Auxiliary Tower)——专门用于蒸馏,用真实标签 + 蒸馏信号共同优化。学生中的共享主干(shared backbone)参数同时接收两个塔的梯度更新,确保学到的表示既受益于直接任务监督,也受益于蒸馏知识。
在工业环境中,这种解耦范式还允许两个模块异步迭代,最大化研发效率:教师可持续放大而不受在线服务成本约束,学生则可根据部署需求自由演进(如增加新特征、改架构)。如前所述,蒸馏收益被解耦为两个模块:放大教师(Figure 1 左)以提升 $\Delta\mathrm{Gain}_{scale}$,精炼学生架构与流水线(右)以最大化 $\eta$。
增强教师收益 $\Delta\mathrm{Gain}_{scale}$¶
沿三个维度全面放大教师:
- 稠密参数规模(Dense Parameter Size):采用 TokenMixer-Large 架构,用高效的 token-mixing 操作作为标准 Transformer 注意力的轻量替代,在 scaling 过程中保持计算可控,把稠密参数规模扩展到 24B。
- 序列建模(Sequence Modeling):更长的用户行为序列提供更丰富的历史上下文以建模长期兴趣。采用 LONGER 架构,通过序列压缩 + 混合注意力(mixed attention)绕开标准 Transformer 的二次复杂度瓶颈,实现对长达 20K 序列的高效端到端建模,与 TokenMixer 的效率互补。
- 训练数据量(Training Data Volume):借鉴 Chinchilla scaling law 中模型参数与训练数据应成比例放大的洞见,增大训练教师的数据量。一个关键发现是:教师可以通过数据放大获得更大收益,而这些收益能被有效迁移给一个所需训练数据显著更少的学生。换言之,学生可以继承大数据集的好处,却不必承担处理这些数据的内在成本,从而进一步摊薄训练开销、提升整体 ROI。
增强蒸馏可迁移性 $\eta$¶
由 Eq 4 的可迁移性定义可推得:
$$\eta \propto \frac{P_S^{distill}}{P_T} \tag{5}$$
因此最大化 $\eta$ 要求蒸馏后的学生性能 $P_S^{distill}$ 尽可能逼近教师 $P_T$。本文通过带去偏机制的新学生架构 + 优化的蒸馏算法来提升 $\eta$。
学生模型设计:解耦双塔¶
工业系统中的学生有双重角色:训练时必须能有效学习蒸馏信号,在线推理时又必须提供稳定可靠的服务。为调和这两点并增强系统鲁棒性,提出 "decoupled-tower" 架构——网络拆成两个共享同一特征处理主干的独立塔:
-
主任务塔(Main Task Tower):负责在线服务时的最终目标预测,仅用真实标签的标准任务损失训练: $$\mathcal{L}_{main} = \mathcal{L}_{task} \tag{6}$$ 其参数与蒸馏过程隔离。
-
辅助塔(Auxiliary Tower):专门用于 KD,用组合损失训练: $$\mathcal{L}_{aux} = \mathcal{L}_S = \mathcal{L}_{task} + \alpha \mathcal{L}_{distill} \tag{7}$$ 它接收与主塔相同的输入特征,学习对齐教师的输出分布。
这一结构设计是工业推荐系统的关键容错(fault-tolerance)机制:即便蒸馏信号延迟、流水线滞后、或教师信号暂时不稳定,主任务塔的性能与在线服务都不受影响。解耦双塔由此提供有效的风险隔离,保障稳定的生产服务。
学生损失设计:黑盒蒸馏与 CE 损失的梯度优势¶
本文采用黑盒蒸馏——学生由教师的最终输出 logits 监督。白盒方法(利用教师中间特征)理论上能提供更丰富信号,但带来高昂的通信与存储开销,因此黑盒在效率与有效性间取得最佳权衡。
不同蒸馏损失对效果影响显著(MSE 与 CE 最常用)。鉴于任务是二分类(如 CVR 预测),CE 损失天然适用。学生训练标签是软标签(实数),通常用 Eq 2 这类分布度量对齐学生与教师 logit 分布。当教师分布固定时,KL 散度等价于 CE 损失:
$$\mathcal{L}_{distill} = -p_T \log(p_S) - (1-p_T)\log(1-p_S) \tag{8}$$
在 Eq 2 中令温度 $\tau=1$ 即等价于 Eq 8。从理论上结合 preliminaries,MSE 损失的梯度为:
$$\frac{\partial \mathcal{L}_{MSE}}{\partial \theta} = (p_S - p_T) \cdot p_S(1-p_S)\frac{\partial z_S}{\partial \theta} \tag{9}$$
而 CE 损失的梯度为:
$$\frac{\partial \mathcal{L}_{CE}}{\partial \theta} = (p_S - p_T)\frac{\partial z_S}{\partial \theta} \tag{10}$$
CE 损失展现出更高的梯度效率并避免梯度消失(例如当 $p_S$ 趋近 0 或 1 时,MSE 梯度中的 $p_S(1-p_S)$ 项趋近 0,导致梯度消失)。因此本文整体训练目标(Eq 3 的实例化)写为:
$$\mathcal{L}_S = \mathcal{L}_{task} + \alpha \mathcal{L}_{distill} \tag{11}$$
实践中,本文放弃了 $\mathcal{L}_{task}$ 与 $\mathcal{L}_{distill}$ 权重必须和为 1 的传统约束。经验观察发现:蒸馏可迁移性对蒸馏损失与真实任务损失之间的尺度比(scaling ratio)极度敏感——在二分类场景下,$\mathcal{L}_{distill}$ 的量级可能比 $\mathcal{L}_{task}$ 小达两个数量级,从而严重削弱蒸馏效果。通过放松该约束并经验性地调 $\alpha$,把两个损失对齐到可比的数量级,才能取得最优蒸馏性能。
学生去偏设计(Student Debias)¶
在广告等工业场景,训练数据常通过非均匀采样生成,给观测到的标签分布引入系统性偏差。这一挑战在 Rec-Distill 中尤为突出,因为教师与学生可能在不同的样本集上训练:教师可以采用更激进的采样策略以扩大训练集换取更好性能,但这会给学生(受更严格采样与训练约束、在更小数据集上训练)带来分布失配。因此除标准的标签校正外,学生还需要更细粒度的去偏机制来补偿这种异质师生训练数据带来的采样偏差。
为此,对原始 logit $z$ 施加一个 sampling-aware 校正,把它变换为偏差更小的后验估计:
$$\hat{y} = \frac{1}{1 + \frac{r_s}{p_X}\left(e^{-z} + 1 - r_+ + b_s\right)} \tag{12}$$
其中 $r_s$ 为负采样率,$r_+$ 为正样本的名义保留率,$p_X$ 为当前任务与流量条件下目标正向事件的有效保留概率,$b_s$ 为采样策略引入的加性偏置项。之所以把 $r_+$ 与 $p_X$ 区分开,是因为在生产流水线中,一个正样本是否被保留不仅取决于任务本身,也取决于上游流量来源——$r_+$ 刻画全局正采样策略,$p_X$ 是针对每个任务与流量模式恢复目标概率的有效校正因子。
记上述去偏校正为函数 $f(\cdot)$。对教师,区分原始预校正 logit $T_1$ 与去偏输出 $T_2 = f_T(T_1)$,其中 $f_T(\cdot)$ 由教师侧采样配置决定;类似地,学生原始 logit 为 $S_1$,去偏输出 $S_2 = f_S(S_1)$,$f_S(\cdot)$ 由学生侧采样配置定义。
关键问题是:教师与学生常在不同采样策略下训练,因此 $f_T(\cdot) \neq f_S(\cdot)$。去偏后的教师输出 $T_2$ 与去偏后的学生输出 $S_2$ 一般不在同一个校正后概率空间。直接匹配 $T_2$ 与 $S_2$ 会因师生校正函数失配而引入额外偏差。为解决此问题,先把教师原始 logit $T_1$ 经过学生侧去偏校正:
$$T_2' = f_S(T_1) \tag{13}$$
这把教师预测放到与学生输出 $S_2 = f_S(S_1)$ 相同的校正空间。然后匹配 $T_2'$ 与 $S_2$(而非直接用 $T_2$)进行蒸馏。形式化地,蒸馏目标定义为:
$$\mathcal{L}_{distill} = D(T_2', S_2) \tag{14}$$
$D(\cdot,\cdot)$ 为蒸馏损失。经验上,直接从教师自身的去偏输出 $T_2$ 蒸馏到 $S_2$ 会导致迁移性能大幅退化,这验证了在学生侧去偏函数下对教师 logit 重新校正的必要性。
系统设计:批流混合流水线¶

工业推荐的模型训练范式通常包含两个阶段:批训练(batch)与流式训练(streaming)。批训练阶段加速模型收敛、提升训练效果,因此蒸馏过程必须在两个阶段间保持高效稳定的信息传递,同时兼顾工业环境严苛的训练成本约束。为此本文实现了一个批流混合处理流水线(Figure 2)。
- 批蒸馏阶段(Batch Distillation Phase):目标是把学生快速收敛到一个鲁棒的性能基线。该阶段分配更多训练资源、使用更大 batch size 加速收敛。蒸馏框架确保学生既可直接从数据流读取蒸馏信号,也可经由中间存储介质获取。
- 流式蒸馏阶段(Streaming Distillation Phase):随后转入流式阶段处理持续涌入的新交互数据。此阶段每步数据量更小,但对实时处理的要求更严苛。教师把新流式数据的 logits 写入低延迟、高速中间存储;随后原始数据流与蒸馏信号 join,构造出一条新的补充数据流(supplementary data stream),学生从中持续消费最新信号 + 对应真实标签。这使学生能迅速适应数据分布、用户行为、物品目录的漂移。这条补充数据流还缓解了工业生产中常见的读放大(read-amplification)瓶颈——即多个学生模型直接查询高速中间存储所带来的压力——在重试上限与延迟之间取得最优权衡,以分钟级(minute-level)延迟保持性能优势。
此外,为提升迭代稳定性、保证实验结论可复现,当前学生消费的教师信号会从中间存储或流式数据流物化(materialize)到长期存储(如 HDFS),以便在后续批训练中复用。
实验设置¶
实验围绕三个研究问题展开:
- RQ1:通过放大教师获得的性能收益,蒸馏框架能在学生中保留多少?
- RQ2:框架能否有效迁移来自不同维度(稠密参数、序列长度、数据量)scaling 的收益?
- RQ3:哪些设计组件对实现高可迁移性与稳定部署是必要的?
数据集:基于抖音/Douyin 与 TikTok 短视频平台上多个广告与推荐场景的真实工业训练数据:
- 抖音电商广告(E-commerce Ads):目标任务为 CVR 预测,数据来自线上日志与用户反馈标签(点击、下单、购买)。每条训练样本含 >1000 个特征(数值、ID、cross 特征),长用户行为序列原始长度可超过 20K。覆盖数亿用户,采样后训练数据约 2 亿样本/天。
- 多场景推荐(Multi-scenario):预测短视频与图文 feed 上的多目标用户行为,如完播(finish)、观看时长(staytime)、点赞等。数百个特征,覆盖数亿用户,总训练量约 70 亿样本/天。
- 直播推荐(Live-streaming):在排序阶段预测多目标用户-直播交互,覆盖点击类与观看互动类目标。数千个特征、数十个预测目标。
Baseline 与实现:主 baseline 是 Base 模型——一个学生规模、未经任何蒸馏的生产模型。Base 与 Teacher 规模因场景而异。以广告为例,Base 模型 1B 稠密参数 + 5K 行为序列;Teacher 沿用同一核心架构族但用 TokenMixer-Large + LONGER 放大,达到最高 24B 稠密参数 + 20K 序列长度,并通过调采样率增大训练数据。Student 指用完整 Rec-Distill 框架从放大教师蒸馏出来的 Base 架构。同一场景下所有模型用相同 embedding 维度和可比的核心架构族以保证公平。训练用分布式框架 + 大 batch,批流混合流水线跑在内部 ML 平台上。
评估指标:离线报告相对于对应非蒸馏 Base 模型的 AUC 增益,并用第 3 节定义的可迁移性 $\eta$ 衡量学生保留的教师收益比例:
$$\eta = \frac{P_S^{distill} - P_S^{raw}}{P_T - P_S^{raw}} \tag{15}$$
在线 A/B 报告真实流量下的业务指标。
主要实验结果¶
多场景蒸馏收益(RQ1)¶
放大教师在所有场景下都带来显著 AUC 提升;蒸馏后学生保留了教师优势的很大一部分。
Table 1:多个工业场景的蒸馏收益(Teacher/Student Gain 以相对各场景非蒸馏 Base 的 ΔAUC 衡量,Ratio 为学生-教师参数比)
| 场景 | Teacher Gain | Student Gain | $\eta$ | Ratio |
|---|---|---|---|---|
| 电商广告 E-com Ads | +0.69% | +0.44% | 64% | 1:7 |
| 多场景推荐 Multi-scn Rec | +0.57% | +0.26% | 45% | 1:34 |
| TikTok 直播 Live | +0.74% | +0.37% | 50% | 1:5 |
结论:可迁移率在 45%–64% 之间,且在所有场景中始终保持高位,说明 teacher scaling 的收益能在极高压缩比下迁移给学生,极大提升服务 ROI。特别值得注意的是直播场景——这里的蒸馏是跨训练阶段进行的:教师是最终精排模型,学生是预排(pre-ranking)模型。预排用更少特征、更小参数规模,却仍保留了 50% 的可迁移率。这证明了跨阶段蒸馏的意义:更具表达力的下游模型所习得的知识可迁移给上游轻量模型,在不牺牲服务效率的前提下提升效果,体现了 Rec-Distill 强大的灵活性与泛化能力。
学生 scaling 与可迁移性(RQ1)¶
学生模型是真正用于在线服务的组件,其容量与架构决定了能吸收并转化多少教师知识。

Table 2:学生容量对蒸馏可迁移性的影响(教师固定 7B 稠密参数)
| 学生设置 | Raw Params | $\eta$ | ΔParams | Δη |
|---|---|---|---|---|
| 4 层, dim 640 | 1B | 73% | – | – |
| 4 层, dim 320 | 376M | 65% | −62% | −8% |
| 2 层, dim 160 | 184M | 48% | −81% | −25% |
结论(学生容量):教师固定 7B、只变学生稠密参数量时,把学生从 1B 减到 376M、184M 仍能取得稳定的 AUC 增益,但可迁移性从 73% 降到 65% 和 48%。这表明蒸馏能在不同学生规模上提供一致的提升,却无法完全消除由大师生容量鸿沟造成的迁移瓶颈——学生太小时,教师的一部分收益就难以被有效吸收。最终蒸馏收益由教师性能上限与学生表征容量共同决定。
Table 3:更大师生容量鸿沟下的可迁移性
| Teacher | Student | $\eta$ |
|---|---|---|
| 7B | 1B | 73% |
| 24B | 1B | 65% |
进一步把教师放大到 24B 来评估更具挑战性的容量鸿沟。如 Table 3,1B 学生从 24B 教师蒸馏仍取得 65% 可迁移性。虽然更大的鸿沟相比 7B 教师降低了 $\eta$,但可迁移性依然高到足以把教师的额外 scaling 收益转化为学生的实际提升。
Table 4:学生深-宽分配对蒸馏可迁移性的影响(所有学生从同一大教师蒸馏)
| 设置 | Params | $\eta$ | ΔParams | Δη |
|---|---|---|---|---|
| 4 层, dim 640 | 1B | 73% | – | – |
| 4 层, dim 480 | 616M | 68% | −38% | −5% |
| 2 层, dim 640 | 616M | 63% | −38% | −10% |
| 2 层, dim 480 | 406M | 58% | −59% | −15% |
结论(学生架构):在约 616M 的相近参数预算下,4 层 480 维的学生比 2 层 640 维的学生取得更高可迁移性(68% vs 63%)。这说明不仅总参数量、深-宽容量分配也影响迁移效率。该结果也回应了一个实际生产关切:在 Rec-Distill 范式下,学生迭代仍可通过正常的架构与容量权衡进行。

结论(蒸馏保留学生 scaling law):一个常见担忧是引入蒸馏可能干扰学生自身的 scaling 行为、限制未来学生侧迭代。Figure 4 表明这种情况不会发生:随着学生变大,蒸馏后的模型几乎遵循与非蒸馏 Base 相同的相对 scaling 趋势。蒸馏只是通过提供额外监督把学生 scaling 曲线整体上移,而非替代或扭曲学生容量本身的作用。
解耦双塔设计的必要性(RQ3)¶
Table 5:不同塔结构与损失配置的性能对比
| 结构 | AUC Gain (Main) | AUC Gain (Aux) | Loss (Main) | Loss (Aux) |
|---|---|---|---|---|
| Single | +0.03% | - | $\mathcal{L}_{distill}$ | - |
| Single | +0.36% | - | $\mathcal{L}_{task} + \mathcal{L}_{distill}$ | - |
| Decoupled | +0.41% | +0.25% | $\mathcal{L}_{task}$ | $\mathcal{L}_{distill}$ |
| Decoupled | +0.44% | +0.38% | $\mathcal{L}_{task}$ | $\mathcal{L}_{task} + \mathcal{L}_{distill}$ |
结论:单塔结构明显劣于解耦双塔。仅靠单塔的蒸馏监督($\mathcal{L}_{distill}$ only)只带来 +0.03% 的微弱提升;在单塔里把任务损失与蒸馏损失合并($\mathcal{L}_{task}+\mathcal{L}_{distill}$)提升到 +0.36%,但仍逊于解耦结构。通过显式解耦服务与蒸馏目标、新增一个仅用真实任务损失训练的主塔,AUC 增益达 +0.41%;进一步在辅助塔中把 $\mathcal{L}_{task}$ 与 $\mathcal{L}_{distill}$ 并用,又带来额外提升,把主塔 AUC 增益推到最优 +0.44%——这很可能源于共享主干学到了对齐更好的特征表示。
值得一提的是,如前所述,辅助塔上 $\mathcal{L}_{task}$ 与 $\mathcal{L}_{distill}$ 的比例极度敏感,配置不当会导致不低于 0.05% 的性能损失。除绝对性能外,该实验也佐证了容错架构优势:通过物理隔离在线服务预测(主塔)与蒸馏过程(辅助塔),解耦设计在生产环境中保障稳定鲁棒的推理,屏蔽蒸馏流水线潜在的不稳定。
教师 scaling 各维度的消融(RQ2)¶
Table 6:教师各 scaling 维度的单独消融(每次只放大一个维度,其余维度保持基线)
| Scaling 维度 | Teacher Gain | Student Gain | $\eta$ |
|---|---|---|---|
| Dense (1B → 7B) | +0.30% | +0.22% | 73% |
| Sequence (5K → 20K) | +0.19% | +0.11% | 61% |
结论(稠密参数 & 序列):单独放大任一维度都能给教师带来明确提升,且其中很大一部分通过蒸馏被保留——参数 scaling 可迁移率 73%、序列长度 scaling 61%。这证明框架能有效迁移来自不同 scaling 策略的收益,而非依赖单一来源。
Table 7:教师与学生数据 scaling 的影响(相对未做数据 scaling 的 Base 衡量)
| 设置 | Teacher Gain | Student Gain | $\eta$ |
|---|---|---|---|
| w/o data scaling | +0.42% | +0.28% | 67% |
| with data scaling | +0.69% | +0.44% | 64% |
结论(数据 scaling):通过调采样率增大教师训练数据量,把教师收益从 +0.42% 提升到 +0.69%。关键在于:不使用增大训练数据、只从数据放大后的教师学习的蒸馏学生,也从 +0.28% 提升到 +0.44%。这说明教师从额外数据中学到的知识被迁移给了学生——学生无需承担处理这些数据的算力成本就能受益,凸显了框架的又一效率优势。
批流混合流水线的必要性(RQ3)¶
Table 8:流式蒸馏的消融(批蒸馏收敛后第 5 天测量)
| 设置 | with stream | w/o stream |
|---|---|---|
| ΔAUC | +0.10% | +0.05% |
结论(流式分量):5 天后,无流式蒸馏的学生只保留了初始增益的一半(+0.05% vs +0.10%)。这说明在非平稳环境下,来自教师的持续蒸馏信号对抵消数据分布漂移导致的性能漂移是必不可少的。

结论(批分量):反过来评估批阶段的重要性——模拟一种只用流式流水线从零训练学生的配置(批阶段省略蒸馏,仅在后续流式阶段引入蒸馏)。如 Figure 5,即便引入蒸馏信号并经历超过 5 个月的持续流式训练,该对照组仍始终逊于在批 + 流两阶段都保持蒸馏的组。这表明在批阶段用 KD 初始化学生,对建立其性能上限起着不可替代的作用。
去偏机制的必要性(RQ3)¶
Table 9:去偏机制的消融
| 方法 | ΔAUC(%) |
|---|---|
| w/o debias | +0.34% |
| with debias | +0.44% |
结论:移除去偏使学生性能从 +0.44% 降到 +0.34%。这证明分布失配是确实存在、损害蒸馏效率的问题,而本文的去偏机制能有效缓解它,对实现整体高可迁移性有贡献。
在线 A/B 实验结果¶
Rec-Distill 已成功部署到抖音/TikTok 上的多个主要场景(抖音电商广告、多场景推荐 Douyin Pad/Hotsoon、TikTok 直播),在线 A/B 服务每日数亿活跃用户。蒸馏学生从最高 7B 稠密参数 + 20K 序列的庞大教师学习,baseline 是未蒸馏的同款学生。
Table 10:不同场景的在线性能提升(+Δ%)
| 场景 | 指标 | 提升 (+Δ%) |
|---|---|---|
| 电商广告 E-com Ads | ADVV | +1.00% |
| ADSS | +1.10% | |
| Order | +0.68% | |
| GMV | +0.62% | |
| 多场景推荐 (Hotsoon) | StayDuration | +0.1423% |
| Play/U | +0.4677% | |
| Finish/U | +1.2725% | |
| LT | +0.0618% | |
| TikTok 直播 | Watch Duration/U | +0.24% |
| Watch Days/U | +0.30% | |
| Gift Days/U | +0.28% | |
| Gift Revenue/U | +0.78% |
结论:Rec-Distill 在所有部署场景的关键指标上均带来显著且统计显著的提升。电商广告 +1.0% ADVV、+1.1% ADSS,叠加 +0.68% 订单量和 +0.62% GMV;多场景推荐中 Finish/U 提升 +1.2725%,StayDuration、Play/U 稳定增长;高度动态的直播场景也取得 +0.24% 观看时长、+0.78% 礼物收入。这些结果说明 Rec-Distill 不仅把离线收益转化为可观的业务价值,且能很好地泛化到多样化的工业场景。
核心贡献总结¶
- 首个工业级超大规模推荐蒸馏框架:成功且高效地蒸馏 24B 稠密参数 + 20K 序列的教师,把模型规模与在线推理成本彻底解耦,为推荐模型继续向更大规模 scaling 提供了可复用蓝图。
- 收益的乘积分解视角:把蒸馏收益拆为"教师 scaling 收益 $\Delta\mathrm{Gain}_{scale}$ × 可迁移性 $\eta$",并分别针对两个分量做系统优化——这一分解本身就是清晰且可指导工程的分析框架。
- 解耦双塔 + 黑盒 CE 蒸馏 + 学生侧去偏 + 批流混合流水线:一组互补的设计共同把可迁移性推到峰值 >60%,同时保障在线服务的稳定与风险隔离。
- 跨阶段蒸馏的验证:用精排教师蒸馏预排学生仍保留 50% 可迁移率,拓展了蒸馏的应用边界。
- 充分的工业验证:跨广告、推荐、直播多场景的离线 + 大规模在线 A/B,业务指标全面显著提升。
与已归档相关工作的对比¶
Zero-shot CDKD Zero-shot Cross-domain Knowledge Distillation(Google,2026-03-30)¶
关系:独立并发(本文未引用 CDKD,两者殊途同归)· 已加载对方精读
- 共同关注的问题:两篇都在解决同一个结构性 root cause——如何把一个庞大教师的软标签知识注入到一个真正用于在线服务的工业排序学生中,同时不破坏被服务预测头的稳定性。这是工业 KD 区别于 CV/NLP KD 的核心痛点(学生既要学蒸馏、又要稳定服务)。
- 相近的技术骨架:两者独立地收敛到了几乎同构的解法——在学生上挂一个"非服务(non-serving)的辅助蒸馏塔",让蒸馏信号只作用于辅助塔,再经由共享主干 / 共享层间接提升被服务的主任务塔。CDKD 明确写道"在学生原有任务塔之外新增辅助蒸馏任务塔预测教师 soft label……通过让模型在共享层学习更好的跨任务特征表示来间接提升所有任务";Rec-Distill 的 decoupled-tower 是"主塔仅用 task loss 服务、辅助塔承接蒸馏、共享主干同时接收两塔梯度"。把蒸馏从被服务的预测头上物理隔离出去,这一风险隔离哲学完全一致。
- 共同的实证发现:两者都观测到蒸馏对未直接蒸馏的任务/塔有正向溢出——CDKD 的 Table 2 显示未蒸馏的 Homepage Discovery(+0.16 AUC)、Radio Engagement(+1.08 AUC)也获益;Rec-Distill 的 Table 5 显示在辅助塔加 $\mathcal{L}_{task}$ 改善了共享主干表示、把主塔增益从 +0.41% 推到 +0.44%。机制同源:蒸馏改善的是共享表示,被服务头间接受益。
- 本文的差异与推进:① 问题入口不同——CDKD 的出发点是低流量域数据稀缺(Music 域数据仅为视频域 1/100,养不起专用大教师),于是零样本跨域复用一个现成的视频教师;Rec-Distill 的出发点是scale-efficiency(同域内把教师 scaling 到 24B/20K 的收益无法直接服务),于是同域蒸馏。② 教师侧:CDKD 不放大教师、直接复用既有教师(教师在目标域精度甚至低于 Control,CTR AUC 75.40 vs 79.34,却仍靠暗知识把学生抬到 79.55);Rec-Distill 把教师沿参数/序列/数据三维系统放大,并提出 $\Delta\mathrm{Gain}_{scale}\times\eta$ 的分解去量化"放大-迁移"两段。③ 工程深度:Rec-Distill 额外配套了批流混合流水线、学生侧 logit 重校正去偏(Eq 13–14)、放弃损失权重和为 1 的 $\alpha$ 尺度对齐——这些在 CDKD 中均无对应(CDKD 用同权辅助损失、离线批量 label augmentation、无流式/去偏机制)。④ 辅助塔承载内容略有差异:Rec-Distill 让主塔保持纯净(无蒸馏)、辅助塔承接 task+distill;CDKD 保留原服务塔不变、另加独立蒸馏塔。两者抵达同一个"蒸馏不上服务头、走共享表示"的终点,但 Rec-Distill 的 +0.44% vs +0.41% 消融恰好量化了"辅助塔是否兼带 task loss"这一 CDKD 未细究的设计选择。
讨论与局限性¶
核心贡献与值得借鉴之处:Rec-Distill 最有价值的不只是把教师做到 24B/20K,而是给出了一套把"模型 scaling 收益"与"在线服务成本"彻底解耦的工程范式——$\Delta\mathrm{Gain}_{distill} = \Delta\mathrm{Gain}_{scale}\times\eta$ 这个乘积分解把一个含糊的"蒸馏好不好"问题拆成两个可独立优化、可独立度量的子问题,非常具有工程指导性。decoupled-tower 的风险隔离、CE 相对 MSE 的梯度优势论证(Eq 9–10)、放弃损失权重和为 1 而做尺度对齐、师生异质采样下的 logit 重校正去偏(Eq 13–14),都是可直接迁移到其它工业蒸馏系统的实用设计。批流混合的消融(Table 8 + Figure 5)也清晰地论证了"批阶段定上限、流式阶段防漂移"的双重必要性。
局限与争议:① 绝对增益的口径:离线 AUC 提升多在 0.4%–0.7% 量级,在线指标多在 0.x%–1.x%,这在工业大盘上确实可观,但论文未给显著性区间/方差(仅称在线 p<0.05),且 baseline 全是内部 Base 模型、无公开数据集复现,外部难以校验。② 可迁移性的天花板:$\eta$ 在大鸿沟下明显下滑(24B→1B 仅 65%,184M 学生只剩 48%),说明"无限放大教师"对固定容量学生的边际收益递减——真正的瓶颈被转移到了学生容量上,框架并未消除它。③ 去偏公式(Eq 12)的可移植性存疑:$r_s, r_+, p_X, b_s$ 高度绑定其内部采样/流量体系,外部团队照搬难度大,论文也未给这些量的估计方法。④ 黑盒蒸馏的取舍:选择黑盒是出于通信/存储成本,但也意味着放弃了中间特征的更丰富监督——在更大鸿沟下白盒是否能突破 $\eta$ 上限,论文未探讨。⑤ 与 Meta ExFM 的定位差异:论文把 ExFM 描述为"重在算力摊销、未解决迁移最大化",但未做直接的端到端对比实验,这一 positioning 主要靠论述而非数据支撑。
工业落地价值:框架已在抖音电商广告、Hotsoon 多场景、TikTok 直播多条线全量部署,服务每日数亿用户,带来 +0.62% GMV、+1.2725% Finish/U、+0.78% 礼物收入等真实业务收益;跨阶段蒸馏(精排→预排,仍保 50% 可迁移)进一步说明该范式可在推荐流水线的多个环节复用,部署 ROI 清晰。