Zero-shot CDKD — Archivist

1. 研究背景与动机¶

知识蒸馏（Knowledge Distillation, KD）在推荐系统中被广泛使用，通过大型教师模型训练紧凑的学生模型来降低线上服务延迟。然而，在低流量推荐场景中直接应用 KD 面临以下挑战：

数据量有限：限制了教师模型的可训练规模
训练成本不合理：为小用户群维护大型专用教师模型的投入产出比低
过拟合风险：数据稀缺导致教师模型泛化能力不足

跨域知识蒸馏（Cross-domain KD） 提供了替代方案——从数据丰富的源域借用已有的教师模型。但跨域引入了独特的技术难题：特征空间不一致、用户界面差异、预测任务不同。

本文以 YouTube 视频推荐 → YouTube Music 推荐为案例，研究零样本跨域 KD 的可行性，即直接复用 YouTube 视频域的预训练教师模型（不在 Music 域上微调），将知识迁移给 Music 域的学生排序模型。Music 域训练数据量仅为 YouTube 视频域的 1/100。

2. 方法：Zero-shot Cross-Domain KD¶

2.1 教师模型¶

Video Teacher Model 是 YouTube 上的大规模深度多任务排序模型，用于跨多个推荐面（surfaces）统一内容发现。架构特点：

拼接多来源输入特征
通过多层共享层（Shared Layers）提取跨任务联合表示
顶部分为独立的任务专用塔（task-specific towers）

其核心功能是生成 soft labels，用于高效训练各推荐面的紧凑学生模型。

2.2 跨域挑战¶

将 Video Teacher 零样本迁移到 Music 域面临三个主要挑战：

特征集不匹配（Feature Set Mismatch）：Music 排序模型与 Video Teacher 独立演进，高达 40% 的教师期望输入特征在 Music 面无法获取，缺失特征回退为默认值
任务与标签分布差异（Task and Label Distribution Divergence）：Video Teacher 预测的目标与 Music 面任务不完全对齐；即使任务相似，标签分布也因视频/音乐域的差异而不同（例如 Music Homepage 以"货架"形式展示，而 YouTube 是单条 feed，导致 CTR 约差 2%）
用户行为模式差异（User Behavior Patterns）：音乐消费更偏向重复收听、低探索、长会话，底层数据分布与视频域差异显著

2.3 解决方案¶

核心思路：蒸馏教师预测的 separate logits（辅助蒸馏） 而非直接替换原有标签，以缓解标签偏差；通过让模型在共享层学习更好的跨任务特征表示来间接提升所有任务。

具体实现（见 Figure 1）：

在学生模型原有任务塔之外，新增辅助蒸馏任务塔，预测教师 soft label
辅助蒸馏损失与原有损失同权（same weight）加入训练
学生模型完全在 Music 域数据上训练，不再依赖从视频域采样的数据

离线教师标签增强流水线（Offline Teacher Label Augmentation）：教师模型在 Music 数据集上离线推理，生成增强的 soft labels，学生在训练时使用这些增强标签。

2.4 两个学生模型的具体实施¶

Homepage 模型：

预测 CTR 和 trail engagement（用户点击后的收听时长）
对 CTR 和 trail engagement 两个任务分别增加辅助蒸馏 logit
第三个主任务 music discovery 因教师无直接对应任务而未蒸馏
模型规模比教师小 150 倍

Radio 模型：

负责音乐视频排序，与 Video Teacher 无共同任务
增加一个非服务（non-serving）任务塔，预测教师的 "Continue Watching" 软标签（衡量当前视频是否会带来后续观看）
该策略使 Radio 模型完全脱离视频域数据依赖
模型规模比教师小 300 倍

3. 实验结果¶

3.1 实验设置¶

对照模型（Control）：与学生模型架构完全一致（层数、参数量），但无辅助 KD 任务塔和对应损失
训练条件对齐：相同时间窗口、相同训练步数，确保数据新鲜度一致

3.2 Finding 1：零样本 KD 在教师精度较低时仍然有效¶

由于 UI 和用户行为差异，Video Teacher 在 Music 面上的精度低于 Control 模型。但通过辅助蒸馏，学生模型仍然超越了 baseline。

Table 1: Homepage 学生模型离线指标

Homepage Task	Control Model	Teacher Model	Cross-Domain Student Model
CTR (AUC)	79.34	75.40	79.55
Trail Engagement (R-squared)	0.312	0.267	0.320

结论：尽管教师模型在 Music 域的 CTR AUC（75.40）和 Trail Engagement R²（0.267）均低于 Control 模型，蒸馏后的学生模型在两项指标上均超过 Control（CTR AUC: 79.55 vs 79.34, Trail Engagement R²: 0.320 vs 0.312）。说明教师的 soft label 仍然包含有用的暗知识（dark knowledge），辅助蒸馏可以改善共享层表示。

3.3 Finding 2：跨任务性能增益¶

蒸馏部分任务可提升模型在未蒸馏任务上的表现。

Table 2: 未蒸馏任务的离线指标

Task	Control AUC	Cross Domain Student AUC
Homepage Discovery Task	76.06	76.22
Radio Engagement Task	90.30	91.38

结论：Homepage 的 Discovery 任务和 Radio 的 Engagement 任务虽然均未直接蒸馏，但都获得了 AUC 提升（Discovery: +0.16, Radio Engagement: +1.08）。这证实跨域蒸馏改善了底层共享表示，对所有任务均有正向溢出效应。特别是 Radio 模型，蒸馏是其唯一的性能提升机制（因其不直接蒸馏任何服务任务）。

3.4 Finding 3：显著的线上指标增益¶

在 YouTube Music 上进行了为期两周的线上实验，报告了统计显著（p<0.05）的改进：

Table 3: 跨域 KD 学生模型线上指标

Surface	Engagement Metric	Discovery Metric	New Releases Engagement Metric
Homepage	+0.58%	+1.12%	+11.39%
Radio	+0.70%	+2.13%	+0.96%

结论：

两个面（Homepage 和 Radio）在 Engagement 和 Discovery 指标上均有显著提升
新发布内容（New Releases）的 Engagement 提升尤为突出：Homepage 达 +11.39%。原因是 YouTube 视频域流量大，新发布内容在教师训练数据中出现更频繁，教师对新内容有更好的表示，通过蒸馏迁移到 Music 域
离线与线上增益之间的差异是工业推荐系统的常见现象——AUC 等离线指标无法完全捕捉用户满意度和内容发现带来的长期 engagement 变化

4. 核心贡献总结¶

提出并验证了零样本跨域知识蒸馏（Zero-shot CDKD） 在工业级推荐系统中的可行性
展示了在教师模型精度低于 baseline 的情况下，辅助蒸馏仍可提升学生模型性能
证明了蒸馏带来的跨任务溢出效应——改善共享表示使未蒸馏任务也受益
对新内容泛化能力的显著提升（Homepage 新发布 +11.39%）表明跨域 KD 有助于模型适应快速变化的内容趋势
成功消除了 Music 模型对视频域采样数据的依赖，减少了计算开销和工程维护成本

5. 未来工作¶

将该方法拓展到 YouTube Music 的其他模型和面
消融教师预测中的随机噪声，分析 privileged information 的影响
随着学生模型特征集的完善和模型规模的增长，进一步释放 CDKD 的潜力