IDProxy — Archivist

1. 研究背景与动机¶

小红书（RedNote）是一个拥有超过 3 亿月活用户的内容驱动平台，整合了社交网络、内容发现和电商功能。平台的推荐和广告系统依赖 CTR（Click-Through Rate）预测模型对物品进行排序，这些模型主要依赖 item ID embedding 来捕获协作信号。

核心问题：冷启动（Cold-Start）。新物品缺乏足够的交互历史，其 ID embedding 训练不充分，导致 CTR 预测效果差。这一问题在小红书尤为严重，因为平台上持续有大量新内容上传，需要立即为其提供高质量的推荐服务。

现有方法的不足：

多模态对齐方法（如 QARM、MOON、SimTier&Maker）：通过对齐跨模态共现结构进行训练，但依赖人工设计的对齐目标，且未能充分利用现有排序模型的架构和分布特性，导致收益有限、部署复杂度高。
协作嵌入映射方法（如 CB2CF、CLCRec）：使用 MLP 将内容特征映射到协作嵌入空间，但工业场景中 ID embedding 分布不规则、非聚类化（与公开数据集如 MovieLens 不同），浅层 MLP 映射难以桥接语义空间和协作空间的差异。
生成式方法（如 GoRec、GAR）：同样面临工业 ID embedding 分布不规则的挑战。

关键洞察：多模态大语言模型（MLLMs）的中间层隐藏状态包含比最终输出层更丰富、更可迁移的语义信息，可用于提取更细粒度的内容特征服务冷启动推荐。

2. IDProxy 方法¶

IDProxy 采用两阶段粗到细（coarse-to-fine）框架，如 Figure 2 所示：

2.1 Stage 1: 基于 MLLM 的粗粒度代理生成¶

2.1.1 ID Embedding 预处理¶

设 $\mathbf{e}_i^{\text{raw}} \in \mathbb{R}^d$ 为在线 CTR 模型学习到的物品 $i$ 的 ID embedding。预处理步骤：

频率阈值过滤：应用频率阈值 $\tau$，过滤更新次数少于 $\tau$ 的物品，确保对齐目标的可靠性
$\ell_2$ 归一化：消除与物品热度相关的幅度偏差，稳定对齐学习

$$\mathbf{e}_i = \mathbf{e}_i^{\text{raw}} / \|\mathbf{e}_i^{\text{raw}}\|_2 \in \mathbb{R}^d$$

2.1.2 MLLM 多模态编码¶

使用 MLLM $M$（采用 InternVL）作为内容编码器，输入格式为：

Prompt: [BOS]<image><text>The compression word is:"[EMB]". [EOS]

其中 <image> 和 <text> 为占位符，[EMB] 为特殊 token。

使用最后一个 token 级别的隐藏状态 $\mathbf{H}_i \in \mathbb{R}^{T \times D}$ 构建内容嵌入 $\mathbf{z}_i = g(\mathbf{H}_i) \in \mathbb{R}^D$，其中 $g(\cdot)$ 是基于注意力的 token 聚合函数（包括 [EMB] token）。然后通过 MLP $\phi$ 投影到 ID embedding 空间，并做 $\ell_2$ 归一化：

$$\bar{\mathbf{h}}_i = \phi(\mathbf{z}_i) / \|\phi(\mathbf{z}_i)\|_2 \in \mathbb{R}^d$$

2.1.3 代理对齐（Proxy Alignment）¶

采用对比学习目标，将 $\bar{\mathbf{h}}_i$ 拉向其对应的 ID embedding $\mathbf{e}_i$，同时推离其他物品的嵌入。对于一个 mini-batch $\mathcal{B}$，以 $(\bar{\mathbf{h}}_i, \mathbf{e}_i)$ 为正样本对，$(\bar{\mathbf{h}}_i, \mathbf{e}_j)$（$j \neq i$）为负样本：

$$\mathcal{L}_{\text{PAL}} = -\frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \log \frac{\exp\left(\bar{\mathbf{h}}_i^\top \mathbf{e}_i / \tau_c\right)}{\sum_{j \in \mathcal{B}} \exp\left(\bar{\mathbf{h}}_i^\top \mathbf{e}_j / \tau_c\right)}$$

其中 $\tau_c \gt 0$ 为温度参数。$M$ 和 $\phi$ 的参数通过梯度下降联合优化。收敛后定义物品 $i$ 的粗粒度代理嵌入 $\mathbf{p}_i^{\text{coarse}} = \bar{\mathbf{h}}_i$。

2.2 Stage 2: CTR 感知的细粒度代理对齐¶

Stage 1 在静态 ID embedding 空间中完成粗对齐，但无法充分利用端到端优化和 CTR 模型不断演化的结构先验。Stage 2 引入细粒度对齐阶段，利用 MLLM 隐藏状态与 CTR 模型联合端到端训练。

2.2.1 层级表示分区（Hierarchical Representation Partitioning）¶

从 Stage 1 训练好的 MLLM $M$ 中提取多层 transformer 隐藏状态。使用 $k$-means 聚类将层划分为三个子组 $l_{n_1}$、$l_{n_2}$、$l_{n_3}$，从浅层到深层捕获层级化信息。对每个子组应用 Stage 1 的池化函数 $g(\cdot)$：

$$\mathbf{z}_i^{(l)} = g(\mathbf{H}_i^{(l)}) \in \mathbb{R}^D, \quad l \in \{l_{n_1}, l_{n_2}, l_{n_3}\}$$

2.2.2 轻量级多粒度适配器（Lightweight Multi-Granularity Adaptor）¶

将三层隐藏状态拼接并通过 MLP $\hat{\phi}$ 融合为多粒度表示：

$$\mathbf{p}_i^{\text{raw\_fine}} = \hat{\phi}(\text{Concat}(\mathbf{z}_i^{(l_{n_1})}, \mathbf{z}_i^{(l_{n_2})}, \mathbf{z}_i^{(l_{n_3})})) \in \mathbb{R}^{\hat{d}}$$

由于 $\mathbf{p}_i^{\text{raw\_fine}}$ 可能包含与 $\mathbf{p}_i^{\text{coarse}}$ 冗余的信息，引入残差门控机制（residual gating mechanism）自适应控制细粒度信号的贡献。最终 item proxy embedding 融合粗粒度和细粒度表示：

$$\mathbf{p}_i^{\text{fine}} = W_c \mathbf{p}_i^{\text{coarse}} + r \odot \mathbf{p}_i^{\text{raw\_fine}}$$

其中 $r = \sigma(W_g[\mathbf{p}_i^{\text{coarse}}, \mathbf{p}_i^{\text{raw\_fine}}])$，$\sigma$ 为 sigmoid 函数。

2.2.3 与 CTR Ranker 联合端到端训练¶

将原始特征集增广为包含 item ID、$\mathbf{p}_i^{\text{coarse}}$ 和细化后的 $\mathbf{p}_i^{\text{fine}}$，供特征交互和目标注意力模块使用。CTR 预测为：

$$\hat{y}_{ui} = f_\theta(\mathbf{e}_u, \mathbf{e}_i, \mathbf{p}_i^{\text{coarse}}, \mathbf{p}_i^{\text{fine}}, \mathbf{x}_{ui})$$

使用交叉熵损失训练：

$$\mathcal{L}_{\text{CTR}} = -\frac{1}{|\mathcal{D}|} \sum_{(u,i,\mathbf{x}_{ui},y_{ui}) \in \mathcal{D}} \left[ y_{ui} \log \hat{y}_{ui} + (1 - y_{ui}) \log(1 - \hat{y}_{ui}) \right]$$

Stage 2 中，MLP 适配器 $\hat{\phi}$、$W_g$、$W_c$ 和 CTR 模型参数 $\theta$ 通过梯度下降联合优化，MLLM 参数冻结。

2.2.4 部署¶

IDProxy 的轻量级多粒度适配器仅需离线训练一次，之后可与 MLLM 一起打包为 IDProxy 生成服务。实际部署时，对每个新物品实时计算粗粒度和细粒度代理并写入线上存储。推荐系统通过 ID 检索这些代理，无缝集成到 CTR 排序流水线中。

3. 实验¶

3.1 实验设置¶

MLLM：InternVL
优化器：AdamW，学习率 $1 \times 10^{-4}$，batch size 512
Base 模型：小红书生产环境的高度优化 CTR 系统，包含复杂的 ID-based 特征交互和用户序列行为建模
在线 A/B 测试场景：
Content Feed（内容推荐）：推荐用户帖子（2025 年 8 月测试）
Display Ads（展示广告）：投放广告（2025 年 3 月测试）

3.2 离线实验结果¶

Table 1: 离线 CTR 预测相对于 baseline 的 AUC 增益¶

Model Variant	Model ID	ΔAUC
Base (Production Baseline at Xiaohongshu)	-	0
Base + Notellm2-Like Embed	v1	+0.015%
Base + Static Vector (MLP Mapping)	v2	+0.02%
Base + IDProxy (Stage 1)	v3	+0.05%
Base + IDProxy (Stage 1 + 2, w/o Structure Reuse)	v4	+0.08%
Base + IDProxy (Stage 1 + 2)	v5	+0.14%

实验结论：

Stage 1 对比多模态 baseline（v1-v3）：主流多模态嵌入方法（v1，类似 notellm2）由于与 ID embedding 分布不匹配，改进有限（+0.015%）。使用冻结内容编码器+MLP 映射的 CB2CF 风格方法（v2）也仅获得边际收益（+0.02%）。IDProxy Stage 1（v3）通过显式拟合 ID 分布并利用 MLLM 对齐，优于以上方法（+0.05%）。
Stage 2 的贡献（v4-v5）：v4 将 MLLM 隐藏特征作为普通物品特征拼接并端到端训练，已优于 v3，说明端到端学习的价值。但 v4 未显式复用 Base 模型的序列和特征交互结构。v5 将 IDProxy 直接集成到 ranker 的原子 ID 槽位中，获得 +0.14% 的提升，验证了让多模态特征继承 ID-based CTR 模型结构先验的重要性。
尽管 ΔAUC 绝对值看起来较小，但在小红书高度优化的生产 Base 模型上，这些提升在实践中意义重大。

3.3 在线冷启动与业务效果¶

Table 2: 5 天在线 ΔAUC（全量笔记 vs 新笔记）¶

	Day 1	Day 2	Day 3	Day 4	Day 5
Global Notes	+0.13%	+0.15%	+0.14%	+0.12%	+0.15%
New Notes	+0.24%	+0.32%	+0.23%	+0.27%	+0.31%

实验结论：对全量流量，AUC 提升稳定在 0.12%~0.15%；对新笔记（发布 24 小时内），AUC 提升约 0.23%~0.32%，约为全量提升的 2 倍。这证明 IDProxy 有效地将语义信息迁移到缺乏交互历史的物品上，显著提升冷启动效果。

Table 3: 小红书 Explore Feed 在线 A/B 测试¶

Scenario	指标
Content Feed	Time Spent +0.22%	Reads +0.39%	Engagements +0.5%	-
Display Ads	Impression +1.28%	ADVV +1.93%	COST +1.73%	CTR +0.23%

实验结论：在内容推荐场景中，用户停留时长、阅读量和互动量均有显著提升。在展示广告场景中，曝光量、广告主价值（ADVV）、消耗（COST）和 CTR 均有统计显著的提升（1% 显著性水平）。这证实了 IDProxy 在大规模工业部署中的稳健性和商业价值。

4. 关键技术贡献¶

两阶段粗到细对齐框架：Stage 1 通过对比学习在静态 ID 空间对齐，Stage 2 利用多层 MLLM 隐藏状态与 CTR 模型联合端到端优化，实现细粒度信息注入
层级表示分区 + 多粒度适配器：从 MLLM 多层提取浅-中-深层级信息，通过轻量级 MLP 融合，并用残差门控机制平衡粗细粒度信息
结构复用设计：将代理嵌入直接集成到 CTR 排序模型的 ID 槽位中，继承已有模型的特征交互和序列建模能力，而非作为独立特征拼接
工业级部署：已在小红书内容推荐和展示广告两大场景上线，服务数亿日活用户

5. 局限与讨论¶

论文仅在小红书内部数据上评估，未提供公开数据集的实验结果
MLLM 采用 InternVL，未对比其他 MLLM（如 Qwen-VL、LLaVA 等）的效果差异
Stage 1 的对比学习依赖 ID embedding 的质量和频率阈值 $\tau$ 的选择，对低频物品的处理细节未充分讨论
部分实现细节因商业保密原因被省略