1. 研究背景与动机¶
小红书(RedNote)是一个拥有超过 3 亿月活用户的内容驱动平台,整合了社交网络、内容发现和电商功能。平台的推荐和广告系统依赖 CTR(Click-Through Rate)预测模型对物品进行排序,这些模型主要依赖 item ID embedding 来捕获协作信号。
核心问题:冷启动(Cold-Start)。新物品缺乏足够的交互历史,其 ID embedding 训练不充分,导致 CTR 预测效果差。这一问题在小红书尤为严重,因为平台上持续有大量新内容上传,需要立即为其提供高质量的推荐服务。
现有方法的不足:
- 多模态对齐方法(如 QARM、MOON、SimTier&Maker):通过对齐跨模态共现结构进行训练,但依赖人工设计的对齐目标,且未能充分利用现有排序模型的架构和分布特性,导致收益有限、部署复杂度高。
- 协作嵌入映射方法(如 CB2CF、CLCRec):使用 MLP 将内容特征映射到协作嵌入空间,但工业场景中 ID embedding 分布不规则、非聚类化(与公开数据集如 MovieLens 不同),浅层 MLP 映射难以桥接语义空间和协作空间的差异。
- 生成式方法(如 GoRec、GAR):同样面临工业 ID embedding 分布不规则的挑战。
关键洞察:多模态大语言模型(MLLMs)的中间层隐藏状态包含比最终输出层更丰富、更可迁移的语义信息,可用于提取更细粒度的内容特征服务冷启动推荐。
2. IDProxy 方法¶
IDProxy 采用两阶段粗到细(coarse-to-fine)框架,如 Figure 2 所示:
2.1 Stage 1: 基于 MLLM 的粗粒度代理生成¶
2.1.1 ID Embedding 预处理¶
设 $\mathbf{e}_i^{\text{raw}} \in \mathbb{R}^d$ 为在线 CTR 模型学习到的物品 $i$ 的 ID embedding。预处理步骤:
- 频率阈值过滤:应用频率阈值 $\tau$,过滤更新次数少于 $\tau$ 的物品,确保对齐目标的可靠性
- $\ell_2$ 归一化:消除与物品热度相关的幅度偏差,稳定对齐学习
$$\mathbf{e}_i = \mathbf{e}_i^{\text{raw}} / \|\mathbf{e}_i^{\text{raw}}\|_2 \in \mathbb{R}^d$$
2.1.2 MLLM 多模态编码¶
使用 MLLM $M$(采用 InternVL)作为内容编码器,输入格式为:
Prompt: [BOS]<image><text>The compression word is:"[EMB]". [EOS]
其中 <image> 和 <text> 为占位符,[EMB] 为特殊 token。
使用最后一个 token 级别的隐藏状态 $\mathbf{H}_i \in \mathbb{R}^{T \times D}$ 构建内容嵌入 $\mathbf{z}_i = g(\mathbf{H}_i) \in \mathbb{R}^D$,其中 $g(\cdot)$ 是基于注意力的 token 聚合函数(包括 [EMB] token)。然后通过 MLP $\phi$ 投影到 ID embedding 空间,并做 $\ell_2$ 归一化:
$$\bar{\mathbf{h}}_i = \phi(\mathbf{z}_i) / \|\phi(\mathbf{z}_i)\|_2 \in \mathbb{R}^d$$
2.1.3 代理对齐(Proxy Alignment)¶
采用对比学习目标,将 $\bar{\mathbf{h}}_i$ 拉向其对应的 ID embedding $\mathbf{e}_i$,同时推离其他物品的嵌入。对于一个 mini-batch $\mathcal{B}$,以 $(\bar{\mathbf{h}}_i, \mathbf{e}_i)$ 为正样本对,$(\bar{\mathbf{h}}_i, \mathbf{e}_j)$($j \neq i$)为负样本:
$$\mathcal{L}_{\text{PAL}} = -\frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \log \frac{\exp\left(\bar{\mathbf{h}}_i^\top \mathbf{e}_i / \tau_c\right)}{\sum_{j \in \mathcal{B}} \exp\left(\bar{\mathbf{h}}_i^\top \mathbf{e}_j / \tau_c\right)}$$
其中 $\tau_c \gt 0$ 为温度参数。$M$ 和 $\phi$ 的参数通过梯度下降联合优化。收敛后定义物品 $i$ 的粗粒度代理嵌入 $\mathbf{p}_i^{\text{coarse}} = \bar{\mathbf{h}}_i$。
2.2 Stage 2: CTR 感知的细粒度代理对齐¶
Stage 1 在静态 ID embedding 空间中完成粗对齐,但无法充分利用端到端优化和 CTR 模型不断演化的结构先验。Stage 2 引入细粒度对齐阶段,利用 MLLM 隐藏状态与 CTR 模型联合端到端训练。
2.2.1 层级表示分区(Hierarchical Representation Partitioning)¶
从 Stage 1 训练好的 MLLM $M$ 中提取多层 transformer 隐藏状态。使用 $k$-means 聚类将层划分为三个子组 $l_{n_1}$、$l_{n_2}$、$l_{n_3}$,从浅层到深层捕获层级化信息。对每个子组应用 Stage 1 的池化函数 $g(\cdot)$:
$$\mathbf{z}_i^{(l)} = g(\mathbf{H}_i^{(l)}) \in \mathbb{R}^D, \quad l \in \{l_{n_1}, l_{n_2}, l_{n_3}\}$$
2.2.2 轻量级多粒度适配器(Lightweight Multi-Granularity Adaptor)¶
将三层隐藏状态拼接并通过 MLP $\hat{\phi}$ 融合为多粒度表示:
$$\mathbf{p}_i^{\text{raw\_fine}} = \hat{\phi}(\text{Concat}(\mathbf{z}_i^{(l_{n_1})}, \mathbf{z}_i^{(l_{n_2})}, \mathbf{z}_i^{(l_{n_3})})) \in \mathbb{R}^{\hat{d}}$$
由于 $\mathbf{p}_i^{\text{raw\_fine}}$ 可能包含与 $\mathbf{p}_i^{\text{coarse}}$ 冗余的信息,引入残差门控机制(residual gating mechanism)自适应控制细粒度信号的贡献。最终 item proxy embedding 融合粗粒度和细粒度表示:
$$\mathbf{p}_i^{\text{fine}} = W_c \mathbf{p}_i^{\text{coarse}} + r \odot \mathbf{p}_i^{\text{raw\_fine}}$$
其中 $r = \sigma(W_g[\mathbf{p}_i^{\text{coarse}}, \mathbf{p}_i^{\text{raw\_fine}}])$,$\sigma$ 为 sigmoid 函数。
2.2.3 与 CTR Ranker 联合端到端训练¶
将原始特征集增广为包含 item ID、$\mathbf{p}_i^{\text{coarse}}$ 和细化后的 $\mathbf{p}_i^{\text{fine}}$,供特征交互和目标注意力模块使用。CTR 预测为:
$$\hat{y}_{ui} = f_\theta(\mathbf{e}_u, \mathbf{e}_i, \mathbf{p}_i^{\text{coarse}}, \mathbf{p}_i^{\text{fine}}, \mathbf{x}_{ui})$$
使用交叉熵损失训练:
$$\mathcal{L}_{\text{CTR}} = -\frac{1}{|\mathcal{D}|} \sum_{(u,i,\mathbf{x}_{ui},y_{ui}) \in \mathcal{D}} \left[ y_{ui} \log \hat{y}_{ui} + (1 - y_{ui}) \log(1 - \hat{y}_{ui}) \right]$$
Stage 2 中,MLP 适配器 $\hat{\phi}$、$W_g$、$W_c$ 和 CTR 模型参数 $\theta$ 通过梯度下降联合优化,MLLM 参数冻结。
2.2.4 部署¶
IDProxy 的轻量级多粒度适配器仅需离线训练一次,之后可与 MLLM 一起打包为 IDProxy 生成服务。实际部署时,对每个新物品实时计算粗粒度和细粒度代理并写入线上存储。推荐系统通过 ID 检索这些代理,无缝集成到 CTR 排序流水线中。
3. 实验¶
3.1 实验设置¶
- MLLM:InternVL
- 优化器:AdamW,学习率 $1 \times 10^{-4}$,batch size 512
- Base 模型:小红书生产环境的高度优化 CTR 系统,包含复杂的 ID-based 特征交互和用户序列行为建模
- 在线 A/B 测试场景:
- Content Feed(内容推荐):推荐用户帖子(2025 年 8 月测试)
- Display Ads(展示广告):投放广告(2025 年 3 月测试)
3.2 离线实验结果¶
Table 1: 离线 CTR 预测相对于 baseline 的 AUC 增益¶
| Model Variant | Model ID | ΔAUC |
|---|---|---|
| Base (Production Baseline at Xiaohongshu) | - | 0 |
| Base + Notellm2-Like Embed | v1 | +0.015% |
| Base + Static Vector (MLP Mapping) | v2 | +0.02% |
| Base + IDProxy (Stage 1) | v3 | +0.05% |
| Base + IDProxy (Stage 1 + 2, w/o Structure Reuse) | v4 | +0.08% |
| Base + IDProxy (Stage 1 + 2) | v5 | +0.14% |
实验结论:
- Stage 1 对比多模态 baseline(v1-v3):主流多模态嵌入方法(v1,类似 notellm2)由于与 ID embedding 分布不匹配,改进有限(+0.015%)。使用冻结内容编码器+MLP 映射的 CB2CF 风格方法(v2)也仅获得边际收益(+0.02%)。IDProxy Stage 1(v3)通过显式拟合 ID 分布并利用 MLLM 对齐,优于以上方法(+0.05%)。
- Stage 2 的贡献(v4-v5):v4 将 MLLM 隐藏特征作为普通物品特征拼接并端到端训练,已优于 v3,说明端到端学习的价值。但 v4 未显式复用 Base 模型的序列和特征交互结构。v5 将 IDProxy 直接集成到 ranker 的原子 ID 槽位中,获得 +0.14% 的提升,验证了让多模态特征继承 ID-based CTR 模型结构先验的重要性。
- 尽管 ΔAUC 绝对值看起来较小,但在小红书高度优化的生产 Base 模型上,这些提升在实践中意义重大。
3.3 在线冷启动与业务效果¶
Table 2: 5 天在线 ΔAUC(全量笔记 vs 新笔记)¶
| Day 1 | Day 2 | Day 3 | Day 4 | Day 5 | |
|---|---|---|---|---|---|
| Global Notes | +0.13% | +0.15% | +0.14% | +0.12% | +0.15% |
| New Notes | +0.24% | +0.32% | +0.23% | +0.27% | +0.31% |
实验结论:对全量流量,AUC 提升稳定在 0.12%~0.15%;对新笔记(发布 24 小时内),AUC 提升约 0.23%~0.32%,约为全量提升的 2 倍。这证明 IDProxy 有效地将语义信息迁移到缺乏交互历史的物品上,显著提升冷启动效果。
Table 3: 小红书 Explore Feed 在线 A/B 测试¶
| Scenario | 指标 | |||
|---|---|---|---|---|
| Content Feed | Time Spent +0.22% | Reads +0.39% | Engagements +0.5% | - |
| Display Ads | Impression +1.28% | ADVV +1.93% | COST +1.73% | CTR +0.23% |
实验结论:在内容推荐场景中,用户停留时长、阅读量和互动量均有显著提升。在展示广告场景中,曝光量、广告主价值(ADVV)、消耗(COST)和 CTR 均有统计显著的提升(1% 显著性水平)。这证实了 IDProxy 在大规模工业部署中的稳健性和商业价值。
4. 关键技术贡献¶
- 两阶段粗到细对齐框架:Stage 1 通过对比学习在静态 ID 空间对齐,Stage 2 利用多层 MLLM 隐藏状态与 CTR 模型联合端到端优化,实现细粒度信息注入
- 层级表示分区 + 多粒度适配器:从 MLLM 多层提取浅-中-深层级信息,通过轻量级 MLP 融合,并用残差门控机制平衡粗细粒度信息
- 结构复用设计:将代理嵌入直接集成到 CTR 排序模型的 ID 槽位中,继承已有模型的特征交互和序列建模能力,而非作为独立特征拼接
- 工业级部署:已在小红书内容推荐和展示广告两大场景上线,服务数亿日活用户
5. 局限与讨论¶
- 论文仅在小红书内部数据上评估,未提供公开数据集的实验结果
- MLLM 采用 InternVL,未对比其他 MLLM(如 Qwen-VL、LLaVA 等)的效果差异
- Stage 1 的对比学习依赖 ID embedding 的质量和频率阈值 $\tau$ 的选择,对低频物品的处理细节未充分讨论
- 部分实现细节因商业保密原因被省略