← Back to list
IDProxy

IDProxy: Cold-Start CTR Prediction for Ads and Recommendation at Xiaohongshu with Multimodal LLMs

判别式推荐 Xiaohongshu
Abstract 7 Reading 7 Rating —
2026-03-02
Yubin Zhang, Haiming Xu, Guillaume Salha-Galvan, Ruiyan Han, Feiyang Xiao, Yanhua Huang, Li Lin, Yang Luo, Yao Hu
Xiaohongshu Inc., Shanghai Jiao Tong University, Fudan University
提出 IDProxy,利用多模态大语言模型为冷启动物品生成代理 ID embedding,通过两阶段粗到细对齐机制无缝集成到现有 CTR 排序模型中,已部署于小红书内容推荐和展示广告场景
cold-start ad-rec industrial pretrained-lm contrastive-ssl

1. 研究背景与动机

小红书(RedNote)是一个拥有超过 3 亿月活用户的内容驱动平台,整合了社交网络、内容发现和电商功能。平台的推荐和广告系统依赖 CTR(Click-Through Rate)预测模型对物品进行排序,这些模型主要依赖 item ID embedding 来捕获协作信号。

核心问题:冷启动(Cold-Start)。新物品缺乏足够的交互历史,其 ID embedding 训练不充分,导致 CTR 预测效果差。这一问题在小红书尤为严重,因为平台上持续有大量新内容上传,需要立即为其提供高质量的推荐服务。

现有方法的不足

  1. 多模态对齐方法(如 QARM、MOON、SimTier&Maker):通过对齐跨模态共现结构进行训练,但依赖人工设计的对齐目标,且未能充分利用现有排序模型的架构和分布特性,导致收益有限、部署复杂度高。
  2. 协作嵌入映射方法(如 CB2CF、CLCRec):使用 MLP 将内容特征映射到协作嵌入空间,但工业场景中 ID embedding 分布不规则、非聚类化(与公开数据集如 MovieLens 不同),浅层 MLP 映射难以桥接语义空间和协作空间的差异。
  3. 生成式方法(如 GoRec、GAR):同样面临工业 ID embedding 分布不规则的挑战。

关键洞察:多模态大语言模型(MLLMs)的中间层隐藏状态包含比最终输出层更丰富、更可迁移的语义信息,可用于提取更细粒度的内容特征服务冷启动推荐。

2. IDProxy 方法

IDProxy 采用两阶段粗到细(coarse-to-fine)框架,如 Figure 2 所示:

2.1 Stage 1: 基于 MLLM 的粗粒度代理生成

2.1.1 ID Embedding 预处理

设 $\mathbf{e}_i^{\text{raw}} \in \mathbb{R}^d$ 为在线 CTR 模型学习到的物品 $i$ 的 ID embedding。预处理步骤:

  • 频率阈值过滤:应用频率阈值 $\tau$,过滤更新次数少于 $\tau$ 的物品,确保对齐目标的可靠性
  • $\ell_2$ 归一化:消除与物品热度相关的幅度偏差,稳定对齐学习

$$\mathbf{e}_i = \mathbf{e}_i^{\text{raw}} / \|\mathbf{e}_i^{\text{raw}}\|_2 \in \mathbb{R}^d$$

2.1.2 MLLM 多模态编码

使用 MLLM $M$(采用 InternVL)作为内容编码器,输入格式为:

Prompt: [BOS]<image><text>The compression word is:"[EMB]". [EOS]

其中 <image><text> 为占位符,[EMB] 为特殊 token。

使用最后一个 token 级别的隐藏状态 $\mathbf{H}_i \in \mathbb{R}^{T \times D}$ 构建内容嵌入 $\mathbf{z}_i = g(\mathbf{H}_i) \in \mathbb{R}^D$,其中 $g(\cdot)$ 是基于注意力的 token 聚合函数(包括 [EMB] token)。然后通过 MLP $\phi$ 投影到 ID embedding 空间,并做 $\ell_2$ 归一化:

$$\bar{\mathbf{h}}_i = \phi(\mathbf{z}_i) / \|\phi(\mathbf{z}_i)\|_2 \in \mathbb{R}^d$$

2.1.3 代理对齐(Proxy Alignment)

采用对比学习目标,将 $\bar{\mathbf{h}}_i$ 拉向其对应的 ID embedding $\mathbf{e}_i$,同时推离其他物品的嵌入。对于一个 mini-batch $\mathcal{B}$,以 $(\bar{\mathbf{h}}_i, \mathbf{e}_i)$ 为正样本对,$(\bar{\mathbf{h}}_i, \mathbf{e}_j)$($j \neq i$)为负样本:

$$\mathcal{L}_{\text{PAL}} = -\frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \log \frac{\exp\left(\bar{\mathbf{h}}_i^\top \mathbf{e}_i / \tau_c\right)}{\sum_{j \in \mathcal{B}} \exp\left(\bar{\mathbf{h}}_i^\top \mathbf{e}_j / \tau_c\right)}$$

其中 $\tau_c \gt 0$ 为温度参数。$M$ 和 $\phi$ 的参数通过梯度下降联合优化。收敛后定义物品 $i$ 的粗粒度代理嵌入 $\mathbf{p}_i^{\text{coarse}} = \bar{\mathbf{h}}_i$。

2.2 Stage 2: CTR 感知的细粒度代理对齐

Stage 1 在静态 ID embedding 空间中完成粗对齐,但无法充分利用端到端优化和 CTR 模型不断演化的结构先验。Stage 2 引入细粒度对齐阶段,利用 MLLM 隐藏状态与 CTR 模型联合端到端训练。

2.2.1 层级表示分区(Hierarchical Representation Partitioning)

从 Stage 1 训练好的 MLLM $M$ 中提取多层 transformer 隐藏状态。使用 $k$-means 聚类将层划分为三个子组 $l_{n_1}$、$l_{n_2}$、$l_{n_3}$,从浅层到深层捕获层级化信息。对每个子组应用 Stage 1 的池化函数 $g(\cdot)$:

$$\mathbf{z}_i^{(l)} = g(\mathbf{H}_i^{(l)}) \in \mathbb{R}^D, \quad l \in \{l_{n_1}, l_{n_2}, l_{n_3}\}$$

2.2.2 轻量级多粒度适配器(Lightweight Multi-Granularity Adaptor)

将三层隐藏状态拼接并通过 MLP $\hat{\phi}$ 融合为多粒度表示:

$$\mathbf{p}_i^{\text{raw\_fine}} = \hat{\phi}(\text{Concat}(\mathbf{z}_i^{(l_{n_1})}, \mathbf{z}_i^{(l_{n_2})}, \mathbf{z}_i^{(l_{n_3})})) \in \mathbb{R}^{\hat{d}}$$

由于 $\mathbf{p}_i^{\text{raw\_fine}}$ 可能包含与 $\mathbf{p}_i^{\text{coarse}}$ 冗余的信息,引入残差门控机制(residual gating mechanism)自适应控制细粒度信号的贡献。最终 item proxy embedding 融合粗粒度和细粒度表示:

$$\mathbf{p}_i^{\text{fine}} = W_c \mathbf{p}_i^{\text{coarse}} + r \odot \mathbf{p}_i^{\text{raw\_fine}}$$

其中 $r = \sigma(W_g[\mathbf{p}_i^{\text{coarse}}, \mathbf{p}_i^{\text{raw\_fine}}])$,$\sigma$ 为 sigmoid 函数。

2.2.3 与 CTR Ranker 联合端到端训练

将原始特征集增广为包含 item ID、$\mathbf{p}_i^{\text{coarse}}$ 和细化后的 $\mathbf{p}_i^{\text{fine}}$,供特征交互和目标注意力模块使用。CTR 预测为:

$$\hat{y}_{ui} = f_\theta(\mathbf{e}_u, \mathbf{e}_i, \mathbf{p}_i^{\text{coarse}}, \mathbf{p}_i^{\text{fine}}, \mathbf{x}_{ui})$$

使用交叉熵损失训练:

$$\mathcal{L}_{\text{CTR}} = -\frac{1}{|\mathcal{D}|} \sum_{(u,i,\mathbf{x}_{ui},y_{ui}) \in \mathcal{D}} \left[ y_{ui} \log \hat{y}_{ui} + (1 - y_{ui}) \log(1 - \hat{y}_{ui}) \right]$$

Stage 2 中,MLP 适配器 $\hat{\phi}$、$W_g$、$W_c$ 和 CTR 模型参数 $\theta$ 通过梯度下降联合优化,MLLM 参数冻结

2.2.4 部署

IDProxy 的轻量级多粒度适配器仅需离线训练一次,之后可与 MLLM 一起打包为 IDProxy 生成服务。实际部署时,对每个新物品实时计算粗粒度和细粒度代理并写入线上存储。推荐系统通过 ID 检索这些代理,无缝集成到 CTR 排序流水线中。

3. 实验

3.1 实验设置

  • MLLM:InternVL
  • 优化器:AdamW,学习率 $1 \times 10^{-4}$,batch size 512
  • Base 模型:小红书生产环境的高度优化 CTR 系统,包含复杂的 ID-based 特征交互和用户序列行为建模
  • 在线 A/B 测试场景
  • Content Feed(内容推荐):推荐用户帖子(2025 年 8 月测试)
  • Display Ads(展示广告):投放广告(2025 年 3 月测试)

3.2 离线实验结果

Table 1: 离线 CTR 预测相对于 baseline 的 AUC 增益

Model Variant Model ID ΔAUC
Base (Production Baseline at Xiaohongshu) - 0
Base + Notellm2-Like Embed v1 +0.015%
Base + Static Vector (MLP Mapping) v2 +0.02%
Base + IDProxy (Stage 1) v3 +0.05%
Base + IDProxy (Stage 1 + 2, w/o Structure Reuse) v4 +0.08%
Base + IDProxy (Stage 1 + 2) v5 +0.14%

实验结论

  • Stage 1 对比多模态 baseline(v1-v3):主流多模态嵌入方法(v1,类似 notellm2)由于与 ID embedding 分布不匹配,改进有限(+0.015%)。使用冻结内容编码器+MLP 映射的 CB2CF 风格方法(v2)也仅获得边际收益(+0.02%)。IDProxy Stage 1(v3)通过显式拟合 ID 分布并利用 MLLM 对齐,优于以上方法(+0.05%)。
  • Stage 2 的贡献(v4-v5):v4 将 MLLM 隐藏特征作为普通物品特征拼接并端到端训练,已优于 v3,说明端到端学习的价值。但 v4 未显式复用 Base 模型的序列和特征交互结构。v5 将 IDProxy 直接集成到 ranker 的原子 ID 槽位中,获得 +0.14% 的提升,验证了让多模态特征继承 ID-based CTR 模型结构先验的重要性。
  • 尽管 ΔAUC 绝对值看起来较小,但在小红书高度优化的生产 Base 模型上,这些提升在实践中意义重大。

3.3 在线冷启动与业务效果

Table 2: 5 天在线 ΔAUC(全量笔记 vs 新笔记)

Day 1 Day 2 Day 3 Day 4 Day 5
Global Notes +0.13% +0.15% +0.14% +0.12% +0.15%
New Notes +0.24% +0.32% +0.23% +0.27% +0.31%

实验结论:对全量流量,AUC 提升稳定在 0.12%~0.15%;对新笔记(发布 24 小时内),AUC 提升约 0.23%~0.32%,约为全量提升的 2 倍。这证明 IDProxy 有效地将语义信息迁移到缺乏交互历史的物品上,显著提升冷启动效果。

Table 3: 小红书 Explore Feed 在线 A/B 测试

Scenario 指标
Content Feed Time Spent +0.22% Reads +0.39% Engagements +0.5% -
Display Ads Impression +1.28% ADVV +1.93% COST +1.73% CTR +0.23%

实验结论:在内容推荐场景中,用户停留时长、阅读量和互动量均有显著提升。在展示广告场景中,曝光量、广告主价值(ADVV)、消耗(COST)和 CTR 均有统计显著的提升(1% 显著性水平)。这证实了 IDProxy 在大规模工业部署中的稳健性和商业价值。

4. 关键技术贡献

  1. 两阶段粗到细对齐框架:Stage 1 通过对比学习在静态 ID 空间对齐,Stage 2 利用多层 MLLM 隐藏状态与 CTR 模型联合端到端优化,实现细粒度信息注入
  2. 层级表示分区 + 多粒度适配器:从 MLLM 多层提取浅-中-深层级信息,通过轻量级 MLP 融合,并用残差门控机制平衡粗细粒度信息
  3. 结构复用设计:将代理嵌入直接集成到 CTR 排序模型的 ID 槽位中,继承已有模型的特征交互和序列建模能力,而非作为独立特征拼接
  4. 工业级部署:已在小红书内容推荐和展示广告两大场景上线,服务数亿日活用户

5. 局限与讨论

  • 论文仅在小红书内部数据上评估,未提供公开数据集的实验结果
  • MLLM 采用 InternVL,未对比其他 MLLM(如 Qwen-VL、LLaVA 等)的效果差异
  • Stage 1 的对比学习依赖 ID embedding 的质量和频率阈值 $\tau$ 的选择,对低频物品的处理细节未充分讨论
  • 部分实现细节因商业保密原因被省略