← Back to list
Next-User Retrieval

Next-User Retrieval: Enhancing Cold-Start Recommendations via Generative Next-User Modeling

判别式推荐 ByteDance
Abstract 6 Reading 6 Rating —
2025-06-18
Yu-Ting Lan, Yang Huo, Yi Shen, Xiao Yang, Zuotao Liu
ByteDance
提出 Next-User Retrieval 框架,利用冷启动物品的历史交互用户序列生成式预测下一个潜在交互用户,在抖音线上 A/B 测试中取得 DAU +0.0142%、发布量 +0.1144% 的显著提升
cold-start transformer contrastive-ssl industrial ad-rec

1. 研究背景与动机

冷启动问题是在线推荐系统长期面临的核心挑战之一。对于抖音(Douyin)等短视频平台,高质量新物品能否快速过渡到热门物品,直接决定了创作者能否获得正向反馈,进而影响创作者的长期留存。

现有推荐系统严重依赖物品 ID 和历史交互数据,对缺乏曝光和反馈的冷启动物品效果不佳。Lookalike 算法是解决冷启动问题的一种有前景的方案——通过已有交互用户(种子用户)找到相似的潜在用户。但传统 lookalike 方法存在两大局限:

  1. 基于规则或基于模型的方法直接比较种子用户与候选用户的配对相似度,无法有效建模用户关系
  2. 难以利用现代推荐系统中丰富的交互信号和多样化特征

2. 核心方法:Next-User Retrieval

2.1 问题定义

将检索任务形式化为下一用户生成任务:给定物品的历史交互用户序列(如点赞、评论用户),生成最可能与该物品交互的下一个用户。

训练阶段,已知真实的下一个用户 $u$,目标是最大化:

$$\arg\max P\left(u, f_u \mid \text{model}\left(\{(u_1), \ldots, (u_j), \ldots, (u_n)\}, (i, f_i)\right)\right) \tag{1}$$

其中 $P(\cdot) \in \mathbb{R}^{|\mathcal{U}|}$ 是所有用户上的概率分布,$u_j$ 为第 $j$ 个交互用户的 ID embedding,$f_i$ 和 $f_u$ 分别为物品特征和真实下一用户特征。

推理阶段,计算请求用户 embedding 与所有生成的下一用户 embedding 之间的点积相似度,通过 HNSW 近似最近邻算法进行检索。

2.2 特征工程

受存储和延迟约束,仅存储具有正向交互(如点赞、评论)的用户 ID,最大序列长度限制为 50。

2.3 模型架构

Next-User Retrieval 采用 Transformer-based Encoder-Decoder 架构,输入包含三部分:

  • Prefix Prompt Embeddings:物品 ID、AID、类目等多种特征的 embedding,用于补充纯序列信息的不足,帮助交互不足的物品利用 ID 特征维持长期交互记忆,改善多阶段冷启动物品的表现
  • Sequential UID Embeddings:按时间顺序排列的交互用户 ID embedding
  • Learnable [CLS] Token:附加在序列末尾,用于弥合交互用户序列与真实请求用户之间的特征域差距,动态引导模型在生成 UID embedding 和下一用户 embedding 之间切换

Encoder

$$o_1^p, \ldots, o_k^p, o_1^u, \ldots, o_n^u, o_1^{[CLS]} = \text{Encoder}(p_1, \ldots, p_k, u_1, \ldots, u_n, [\text{CLS}]) \tag{2}$$

其中 $p_i \in \mathbb{R}^d$ 为 prefix prompt embedding,$u_j \in \mathbb{R}^d$ 为 sequential UID embedding。

Decoder

$$\hat{u}_1, \hat{u}_2, \ldots, \hat{u}_{n+1}, \hat{u}_{\text{next}} = \text{Decoder}(q, (o_1^p, \cdots, o_k^p, o_1^u, \ldots, o_n^u, o_1^{[CLS]})) \tag{3}$$

其中 $q \in \mathbb{R}^{(n+2) \times d}$ 为可学习的 query embeddings。

Causal Attention with Prefix Prompts and [CLS] Token

引入因果注意力机制建模用户序列的单向关系(用户通常在看到已有评论后才互动),具体修改:

  • Prefix Prompt 保持 unmasked,使其学习信息丰富的上下文表示
  • 第一个 UID 以 prefix prompts 为条件生成
  • 后续 UID 依次以 prefix prompts 和所有前序 UID 为条件生成
  • 生成下一用户时,[CLS] token 对所有 encoder 输出 unmasked

2.4 损失函数

总损失由三部分组成:

$$\mathcal{L}_{\text{generative}} = \lambda_1 \mathcal{L}_{\text{contrastive}} + \lambda_2 \mathcal{L}_{\text{CE}} + \lambda_3 \mathcal{L}_{\text{auxiliary}} \tag{4}$$

Contrastive Loss:拉近生成的下一用户 embedding 与真实交互用户 embedding,远离随机采样的负例用户:

$$\mathcal{L}_{\text{contrastive}} = -\sum_{i: R_{u_i \hat{u}_i}=1} \log \frac{\exp(f(u_i, \hat{u}_i)/\tau)}{\exp(f(u_i, \hat{u}_i)/\tau) + \sum_{j \neq i} \exp(f(u_j, \hat{u}_i)/\tau)} \tag{5}$$

其中 $f(\cdot)$ 为点积相似度函数,$\tau$ 为温度参数。对比损失将离散的下一用户预测转换为基于相似度的物品表示学习,使 Next-User Retrieval 能无缝集成到抖音的 HNSW 检索系统。

Cross-Entropy Loss:利用曝光但未交互的样本(即通过推荐漏斗但未产生交互的样本),这些样本质量高于随机负例:

$$\mathcal{L}_{\text{CE}} = -\left(\sum_{i: R_{u_i \hat{u}_i}=1} \log \sigma(f(u_i, \hat{u}_i)) + \sum_{i: R_{u_i \hat{u}_i}=0} \log(1 - \sigma(f(u_i, \hat{u}_i)))\right) \tag{6}$$

Auxiliary Loss:作为数据增强方法,监督序列中每个 UID 的生成质量,增强 UID 表示学习:

$$\mathcal{L}_{\text{auxiliary}} = \left(\sum_{i: R_{u_i \hat{u}_i}=1} \left(\sum_{j=1}^{n+1} \|\text{sg}(u_j) - \hat{u}_j\|^2\right)\right) \tag{7}$$

其中 $\text{sg}(\cdot)$ 为 stop-gradient 操作,防止梯度传播到 $u_j$ 以避免模型坍塌。

3. 实验

3.1 离线实验(RQ1:消融实验)

在抖音分布式训练框架中以在线学习方式进行,每天训练数百亿样本,模型收敛后记录指标。评估指标为 Recall@Top-K 的相对差异。

Table 1: 离线实验结果(Recall@TopK 相对差异)

ID Variants Recall@Top20 Recall@Top50
0 Next-User Retrieval (full) 0.4100 0.5859
1 Traditional Lookalike -27.20% -22.11%
2 Mask Prefix Prompt -14.15% -11.30%
3 Half the Sequence Length -4.33% -1.98%
4 w/o CLS Token -0.03% -0.13%
5 w/o causal Attention -0.52% -0.22%

实验结论

  • 传统 Lookalike 大幅落后(Recall@Top20 下降 27.20%),验证了生成式建模相比简单 sum-pooling 的优势
  • Prefix Prompt 贡献最大(去除后下降 14.15%),说明补充物品 ID、类目等特征对冷启动至关重要
  • 序列长度减半也带来明显下降(-4.33%),表明更长的用户交互序列能提供更丰富的信息
  • CLS Token因果注意力的消融效果较小但仍为正向,证明架构设计的合理性

3.2 在线 A/B 测试(RQ2)

在抖音短视频推荐系统中,对 10% 用户进行至少一周的 A/B 测试。核心指标为 DAU(日活用户数),平台拥有超过 6 亿日活用户,DAU 提升 0.005% 即为统计显著。

Table 2: 在线 A/B 测试结果(– 表示该指标不具有统计显著性)

Variants Daily Active Users Publications Interactions
Traditional Lookalike -3.1800%
Mask Prefix Prompt +0.006% +0.0599% +2.3992%
Half the Sequence Length +0.0083% +0.1144% +4.7535%
Next-User Retrieval (full) +0.0142% +0.1144% +7.0515%

实验结论

  • Next-User Retrieval 完整版在三个在线指标上均取得最佳表现:DAU +0.0142%(在 6 亿日活规模下统计显著)、发布量 +0.1144%、交互量 +7.0515%
  • 传统 Lookalike 在 DAU 和发布量上未达到统计显著性,交互量反而下降 3.18%
  • 去除 Prefix Prompt 和减半序列长度的变体均有正向效果但弱于完整版,与离线结果一致
  • 在线结果证实 Next-User Retrieval 能有效帮助冷启动物品获得曝光,促进创作者留存

4. 总结与评价

核心贡献: 1. 将冷启动物品推荐重新建模为"下一用户生成"任务,利用 Transformer encoder-decoder 架构生成式预测潜在交互用户 2. 设计 Prefix Prompt Embeddings + Causal Attention + [CLS] Token 的组合架构,有效整合物品特征和用户序列信息 3. 提出 Contrastive + Cross-Entropy + Auxiliary 三重损失函数,使模型无缝集成到工业级 HNSW 检索系统 4. 在抖音 6 亿 DAU 平台上完成大规模在线部署和验证

局限性

  • 论文仅 5 页,方法描述较为精简,缺少对超参数($\lambda_1, \lambda_2, \lambda_3$, $\tau$, 模型层数/维度等)的分析
  • 离线实验无公开数据集对比,仅在抖音内部系统上评测,可复现性有限
  • 缺少与其他生成式推荐方法(如基于 LLM 的冷启动方法)的对比
  • 在线 A/B 测试中部分变体的指标未达到统计显著性(Traditional Lookalike 的 DAU 和 Publications)

评分理由:工业实践价值明确,思路新颖(将 lookalike 重构为生成任务),但论文篇幅短、实验对比不充分、缺少公开数据集评测,整体学术贡献有限,给予 6 分。