← Back to list
DUET

DUET -- Dual User Embedding Transformers for Offsite Conversion Prediction

判别式推荐 Meta
Abstract 7 Reading 7 Rating —
2026-06-08
Reazul Hasan Russel, Mingwei Tang, Rostam Shirani, Xinlong Liu, Navid Madani, Leo Ding, Yawen He, Xiangyu Wang, Mustafa Acar, Ashish Katiyar, Yuhai Li, Alan Yang, Metarya Ruparel, Derek Qiang Xu, Rupert Wu, Rui Yang, Liang Tao, Xinyi Zhao, Larry Zhang, Sri Reddy, Rob Malkin
Meta
Meta DUET 把站外转化预估的上游用户嵌入预训练按统计机制分流——稠密点击流用多层自注意力(ClickAUE)、稀疏转化流用交叉+自注意力锚定(ConvAUE),两个互补嵌入冻结后经事件触发推理(ETI)异步 serving 喂给下游 ranker,训练 NE 降 0.38%、线上 CVR +0.66%/+0.15%。
评分原因
摘要评分:判别式推荐/转化预估 + 工业落地:把用户行为拆成 click 与 conversion 两条同质流,按各自统计特性配专用 Transformer 编码器(密集 click 用自注意力、稀疏 conversion 用交错交叉 + 自注意力)预训练,下游 ranker 联合消费且不超延迟预算;线上 A/B 提升 OCVR,但增益较温和。
精读评分:扎实的工业组合工作:核心 insight(按统计机制把上游用户嵌入预训练分流——稠密点击流多层自注意力 vs 稀疏转化流交叉注意力锚定)有方法论价值且消融逐项验证承重,配完整异步 serving 部署栈与合并/分离近等价性理论分析;但增益温和(0.38% 训练 NE、+0.66%/+0.15% A/B CVR),组件多为既有技术组合(作者自述),全内部指标无公开 benchmark。
transformer cross-domain quantization semantic-id ad-rec industrial

DUET:为站外转化预估设计的双用户嵌入 Transformer

来自 AI at Meta(Reazul Hasan Russel、Mingwei Tang、Rostam Shirani 等共同一作,作者列表含 Xiangyu Wang、Yawen He、Rob Malkin 等共 20+ 人),2026-06-08 挂 arXiv(2606.10243v1,cs.LG)。核心主张:站外转化率(OCVR)预估同时面临两类统计性质截然不同的行为信号——点击信号稠密、时序短转化信号稀疏、长延迟、常无法归因。已有的上游预训练范式(Tang et al. 2024)用单一无差别编码器统一处理这两条流,必然被稠密的点击信号主导,欠拟合下游最关心的转化模式。DUET 把上游训练数据按语义路由成点击流转化流两条「统计同质」的数据流,为每条流预训练一个架构与其统计特性匹配的专用 Transformer 编码器(稠密点击流用多层自注意力、稀疏转化流用交错的交叉/自注意力),产出两个互补的用户嵌入 ClickAUE / ConvAUE,由下游 ranker 联合消费,且不突破在线 serving 延迟预算。相对最强 baseline 取得至多 0.38% 的归一化熵(NE)下降,线上 A/B 转化率持续正向。

研究动机与背景

站外转化(Offsite Conversion, OC) 指的是:用户在宿主平台(host platform,如 Meta 的某个 app)看到一个被推荐的 item 后,去外部目的地(第三方网站或 app)完成一个目标动作——下单、注册等。预估这个动作发生的概率,就是 OCVR 预估任务。它的重要性正在快速上升,两个驱动力:(1) 零售媒体网络(retail media network)的扩张;(2) 第三方 cookie 的弃用——两者共同把预算推向那些握有第一方行为数据的平台。站外零售媒体被预测会逐年增长,使精准的 OCVR 预估成为推荐平台的差异化能力。

但 OCVR 任务本身极难:

  • 正样本极稀疏:转化率通常低于 5%;
  • 归因窗口长且不定:从数小时到数天;
  • 大量转化无法归因:因产品分段或归因方法不同,一部分转化永远关联不到具体的曝光(cross-device 跨设备链路、cookie 限制、app tracking 政策)。

更要命的是,这一切都要在严格的在线训练与推理延迟约束下完成,于是「预测质量 ↔ serving 效率」之间存在一种持续的张力。

针对这种张力,一个自然的应对是聚焦更丰富的用户表征——能捕捉更深层行为模式的模型,理应给出更好的转化预测。Transformer 序列建模、自监督预训练、嵌入方法等都已在推荐/排序里证明了质量收益。但这些表达力强的架构计算开销大,直接部署到延迟敏感的 serving 路径上不现实。这催生了一种解耦设计:上游模型离线预训练丰富的用户嵌入,再作为静态嵌入特征异步地喂给 ranker。这种分离让表达力强的架构能服务于排序模型,而不违反延迟预算。

本文要攻击的痛点:这一范式的已有实例(Tang et al. 2024)已为点击预估验证了有效性,但它们只训练单个上游模型,把点击数据与站内转化数据当成同质流统一喂进去。当目标是 OCVR 时,这种单流设计有三个具体局限:

  1. 信号主导下的「机制错配」(signal dominance under regime mismatch):点击/站内转化数据稠密、归因窗口短,而站外转化数据稀疏数个数量级。单个模型在二者上训练,必然被稠密的点击信号主导,欠拟合最和下游任务相关的转化模式
  2. 架构同质性(architectural uniformity):对统计性质根本不同的数据流套用同一套编码器架构,忽视了「稠密点击序列」与「稀疏转化序列」可能各自受益于不同归纳偏置这一可能性——本文在 §3.2.3 经实验验证了这一点。
  3. 浅层跨域迁移(shallow cross-domain transfer):跨应用的知识迁移以往局限于共享特征编码器或域解耦表征,没有纳入有机互动(organic engagement)与内容衍生的语义信号,而这些恰能丰富用户表征。

DUET(Dual User Embedding Transformers)用一个统一原则来回应这三点:从「统计同质的数据流」中学习专用的用户嵌入,再在下游 ranker 中把它们组合起来。具体地,DUET 把上游训练数据切成两条「域同质」的流——一条 点击/站内转化流、一条 站外转化流——为每条流预训练一个架构与其统计特性匹配的专用 Transformer 编码器。两个互补嵌入分别记为 ClickAUE(Click Attentive User Embedding)与 ConvAUE(Conversion Attentive User Embedding),由下游 ranker 联合消费。

Figure 1:DUET 统一框架。三段式流水线——左:域感知数据路由(Domain-Aware Data Routing)把数据切成「CTR / Onsite-CVR Data」与「Offsite CVR Data + Unattributed Synthetic Data」两条流;中:上游编码器预训练,ClickAUN(自注意力)产出 ClickAUE,ConvAUN(交叉 + 自注意力)产出 ConvAUE;右:下游集成,两个嵌入被多个站外转化下游模型(Retrieval OC / Web Offsite CVR / Zone-Specific OC / Shop Conversion / … / Mobile OC)共同消费。

四点主要贡献

  1. 域特化的双嵌入学习:引入域感知数据路由,把异质行为数据切成点击流与转化流,并在每条流上预训练专用上游编码器。注意力架构按各自的统计机制匹配——稠密点击流用多层自注意力(LLaTTE,Xiong et al. 2026),稀疏转化流用交错的交叉/自注意力。消融确认每条流的架构选择都是「承重的」(load-bearing)。
  2. 多模态、跨应用的输入富化:两个上游编码器都消费事件型特征(Event-Based Features, EBF)序列,覆盖内容互动、有机 feed 参与、内容衍生的语义 ID(Roychowdhury et al. 2026),跨多个应用,以获得更丰富的用户表征。
  3. 可扩展基础设施上的异步 serving:用事件触发推理(Event-Triggered Inference, ETI)机制异步生成用户嵌入,把上游模型复杂度与 serving 延迟预算解耦。部署中加入限流(throttling)、checkpoint 校验、嵌入量化,实现可忽略的训练 QPS 与 serving 延迟开销。
  4. 实证验证:在 6 个下游 OCVR 模型上评估 DUET,展示出有意义的指标提升。

核心方法:DUET 框架

DUET 把 OCVR 建模分解为三个阶段:把训练数据划分成域同质的流(§3.1)、在每条流上预训练一个专用上游编码器(§3.2)、把产出的嵌入集成进下游 ranker(§3.3)。

3.1 域感知数据路由

把 pointwise 训练数据按标签语义归因时长划分成两条流:

  • CTR / 站内转化流(CTR / Onsite-CVR Stream):包含点击与站内转化事件,被标注的动作通常在「与被推荐 item 交互」之后很短时间内发生。在这条流上,负样本被下采样,正样本全部保留。
  • 站外转化流(OCVR Stream):包含用户在外部网站或第三方 app 上的动作,归因窗口更长。不对 OCVR 样本做下采样,以保留训练数据量。为缓解 OCVR 的稀疏问题,这条流额外纳入来自无归因转化的合成数据(Synthetic data from unattributed conversion)——那些因 cross-device 链路、cookie 限制或延迟归因而无法确定性关联到某次具体 item 曝光的转化事件。合成方式是:为一个无归因转化推断出最可能关联的排序结果。这些事件单独看是有噪声的,但携带聚合层面的用户级意图信号,并增大了有效训练量。

两条流的统计反差——稠密短时序的点击数据 vs 稀疏长时序的转化数据——同时驱动了「数据分离」与下面将要描述的「架构选择」。

3.2 上游编码器设计

两个上游编码器从一个共享骨干架构实例化,各自只在一条数据流上训练。它们在注意力配置输出维度上不同,但共享相同的输入表征与骨干结构。

3.2.1 输入表征

每个编码器都消费用户侧与目标 item 侧特征。目标 item 特征经 DLRM 骨干的非序列分支处理。用户侧特征由事件型特征(EBF)序列(Roychowdhury et al. 2026)构成,这些序列从用户在数月回看窗口内的多种参与行为构建——跨被推荐 item(曝光、站内转化)、有机 feed(浏览、点赞)、视频内容。每个事件由三部分表示:

  1. 时间戳(Timestamp):事件发生时间的稠密编码。
  2. ID 型属性(ID-based attributes):实体级特征,含 item ID、author ID、媒体类型、位置。
  3. 语义 ID(Semantic IDs):从实体内容(图像、文本、视频)经 KNN(Roychowdhury et al. 2026)或 RQ-VAE(Ramasamy et al. 2025)派生的紧凑离散码,捕捉超越 ID 表征的内容语义。

3.2.2 骨干架构

两个编码器都遵循 DLRM 结构(Figure 2 左),含两条并行分支:

  • 序列分支(sequence branch):处理用户 EBF 序列与「按下游任务特征重要性筛出的 top 用户静态特征」;
  • 非序列分支(non-sequence branch):消费排序 item 侧特征与用户非序列特征。

两条分支的输出在一个 overarch 交互层(Zhang et al. 2022,即 DHEN)中融合,做预训练期的联合预测。

在序列分支内,每种事件类型由一个专用的事件塔(event tower)处理,事件塔由 Transformer 块组成。所有事件塔的输出拼接后,过一个 DCN(Deep & Cross Network)用户摘要模块(Wang et al. 2017, 2021),产出最终用户嵌入。

Figure 2:DUET 架构。左:DLRM 骨干,含并行的序列分支(Sequence Learning Arch)与非序列分支(Non-Sequence Learning Arch),两分支输出在 Overarch 层融合后接多个 Task 头。右:事件塔(event tower)结构——堆叠的注意力块(Cross-Attention 与 Self-Attention 交错、带 fusion)作用于带 position/arch encoding 的事件序列(item_id / author_id / image / text / category / topic 等多模态字段),底部为 Embedding Lookup 与 Top User Non-Sequence Features,顶部经 DCN 用户摘要产出用户嵌入。

由此骨干实例化两个模型:

  • ClickAUN(Click-Attentive Upstream Network):在 CTR/站内转化流上训练,产出 ClickAUE 用户嵌入。
  • ConvAUN(Conversion-Attentive Upstream Network):在 OCVR 流上训练,产出 ConvAUE 用户嵌入。

3.2.3 注意力配置

每个事件塔在序列嵌入 $X_{\text{sq}}$ 与用户静态特征嵌入 $X_{\text{st}}$ 上应用 Transformer 块。定义两种块:

自注意力块(Self-Attention Block):静态与序列嵌入先拼接

$$X = \text{concat}(X_{\text{st}}, X_{\text{sq}}), \tag{1}$$

随后联合处理:

$$Y_{\text{self}} = X + \text{attention}\big(Q=\text{LayerNorm}(X),\, K=\text{LayerNorm}(X),\, V=\text{LayerNorm}(X)\big), \tag{2}$$

其中 $Q, K, V$ 分别是 attention 的 query、key、value 输入。这让模型能捕捉静态与序列特征类型之间的复杂交互。自注意力块的输出为

$$\text{SelfAttn}(X_{\text{st}}, X_{\text{sq}}) = Y_{\text{self}} + \text{FFN}\big(\text{LayerNorm}(Y_{\text{self}})\big). \tag{3}$$

交叉注意力块(Cross-Attention Block):静态嵌入作为 query 去查询序列嵌入

$$Y_{\text{cross}} = X_{\text{st}} + \text{attention}\big(Q=\text{LayerNorm}(X_{\text{st}}),\, K=\text{LayerNorm}(X_{\text{sq}}),\, V=\text{LayerNorm}(X_{\text{sq}})\big). \tag{4}$$

这让模型能用「高重要性的静态特征」去语境化序列用户行为。交叉注意力块的输出为

$$\text{CrossAttn}(X_{\text{st}}, X_{\text{sq}}) = Y_{\text{cross}} + \text{FFN}\big(\text{LayerNorm}(Y_{\text{cross}})\big). \tag{5}$$

流特化配置(关键设计)

  • ClickAUN 堆叠多层自注意力,遵循 LLaTTE 范式(Xiong et al. 2026):稠密监督 + 短归因窗口,使深层自注意力对捕捉高阶交互模式有效。
  • ConvAUN 交错交叉注意力与自注意力块。理由:在稀疏正标签下,对长序列做纯自注意力有过拟合到「无信息的多数负样本模式」的风险;而用交叉注意力去对齐稳定的用户级属性,能锚定序列表征、提供隐式正则化。这一设计还降低了计算成本——交叉注意力的 query 长度被「静态特征数量」而非「整条序列长度」所界定。该配置选择在 §5.6 经消融验证。

直觉小结:稠密流靠「深度自注意力挖高阶交互」,稀疏流靠「交叉注意力用稳定静态属性当锚正则化、防过拟合负样本」。这正是「架构匹配统计机制」原则的具体落地。

3.2.4 训练目标

记 BCE(二元交叉熵)损失 $\ell_{\text{BCE}}(\hat{y}, y) = -\big[y \log \hat{y} + (1-y)\log(1-\hat{y})\big]$,其中 $\hat{y} \in (0,1)$ 为预测概率、$y \in \{0,1\}$ 为标签。两个上游模型都用「组合多个任务特定 BCE」的多任务目标训练。

ClickAUN 在 CTR/站内转化流上优化:

$$\mathcal{L}_{\text{ClickAUN}} = \alpha_1\, \ell_{\text{BCE}}(\hat{y}_{\text{ctr}}, y_{\text{ctr}}) + \alpha_2\, \ell_{\text{BCE}}(\hat{y}_{\text{onsite}}, y_{\text{onsite}}), \tag{6}$$

其中 $\hat{y}_{\text{ctr}}, \hat{y}_{\text{onsite}}$ 为预测的点击与站内转化概率,$\alpha_1, \alpha_2 > 0$ 为任务权重。CTR 任务提供稠密监督信号;站内转化任务提供更稀疏但更「意图指示性」的监督。

ConvAUN 在站外转化流上优化:

$$\mathcal{L}_{\text{ConvAUN}} = \beta_1\, \ell_{\text{BCE}}(\hat{y}_{\text{off}}, y_{\text{off}}) + \beta_2\, \ell_{\text{BCE}}(\hat{y}_{\text{unattr}}, y_{\text{unattr}}), \tag{7}$$

其中 $\hat{y}_{\text{off}}, \hat{y}_{\text{unattr}}$ 为已归因 / 未归因站外转化的预测概率,标签 $y_{\text{off}}, y_{\text{unattr}} \in \{0,1\}$,任务权重 $\beta_1, \beta_2 > 0$。所有任务权重在留出验证集上调。

3.3 下游集成

记 $\mathbf{e}_{\text{click}}$ 与 $\mathbf{e}_{\text{conv}}$ 为某用户的 ClickAUE 与 ConvAUE 嵌入。下游 ranker 把它们当作额外输入特征,与标准特征向量 $\mathbf{x}$ 并列消费,不做任何其他架构改动。两个嵌入在下游训练期冻结——梯度不回传到 $\mathbf{e}_{\text{click}}$ 或 $\mathbf{e}_{\text{conv}}$——使上游与下游能按各自独立的节奏重训。下游模型用多任务目标训练:

$$\mathcal{L}_{\text{down}} = \lambda_1\, \ell_{\text{BCE}}(\hat{y}_{\text{cvr}}, y_{\text{cvr}}) + \sum_{k=1}^{K} \lambda_{k+1}\, \ell_{\text{BCE}}\big(\hat{y}_{\text{aux}}^{(k)}, y_{\text{aux}}^{(k)}\big), \tag{8}$$

其中主项是站外转化损失,$\{\hat{y}_{\text{aux}}^{(k)}, y_{\text{aux}}^{(k)}\}_{k=1}^{K}$ 是 $K$ 个辅助任务(如价值预测、参与度预测)的预测与标签,提供额外梯度信号做正则化,$\{\lambda_i\}_{i=1}^{K+1}$ 为对应任务权重。

Serving:嵌入经事件触发推理(ETI)系统异步生成(§4.1),存入特征库(feature store),在 serving 时于延迟预算内取回。

系统架构

Figure 3:端到端系统。左(upstream Training Module):合成训练数据 + 跨域训练数据喂入上游模型训练,周期性 checkpoint save/load。中(Embedding generation module):触发事件 → online feature storage 取用户历史特征 → online eval 产出 raw embedding → Quantization module → feature store。右(Downstream models):从 feature store 取 encoded embedding,经 decode + MLP,与 item features / other user features 一起进 interaction arch,接多个 task 头。

4.1 事件触发推理(Event-Triggered Inference, ETI)

传统嵌入流水线把「嵌入生成」耦合到「训练数据摄入」,以训练循环的节奏产出更新。这对 DUET 是个麻烦:CTR/OCVR 流数据量大,而 OC 流又太稀疏——两种节奏都给不出理想的「新鲜度 vs 基础设施负载」权衡

DUET 改为用 ETI 架构把嵌入生成与训练解耦(Figure 3)。当模型按小时/天做预训练时,一个专门的 serving 模型从最近一次校验过的预训练 checkpoint 加载,按需生成嵌入:当用户执行一个合格动作(如一次站内转化)时,系统取回该用户最新的 EBF 与静态特征(来自在线存储),跑一次前向产出更新后的嵌入。站内转化提供了一个天然的触发器——其体量适中(高于 post-click 事件、低于曝光),且与用户价值相关,从而确保高活跃用户拿到更新鲜的表征

  • 独立流水线运行:ClickAUN 与 ConvAUN 各自以匹配其数据量的节奏迭代——ClickAUN 重训更频繁,ConvAUN 被更稀疏的转化数据节制。嵌入陈旧度与 serving 健康度按流水线分别监控,对 NE 退化与延迟自动告警。
  • Checkpoint 校验:训练与推理在操作上分离——若某次训练产出了退化的 checkpoint(如梯度不稳),serving 模型会拒绝任何「相对其前代、验证 NE 超过预定阈值」的 checkpoint,从而无需人工干预即可维持嵌入质量。
  • 效率优化:推理时只从训练 checkpoint 抽取序列学习组件,减小模型尺寸与 serving 主机数。一个固定的限流窗口抑制对「频繁触发事件用户」的冗余更新。

4.2 嵌入压缩

ETI 产出的原始嵌入在入库前由一个独立的量化模块压缩(Figure 3 中段)。采用 SIDE(Semantic ID Embedding) 技术(Ramasamy et al. 2025):把连续嵌入向量经向量量化映射到离散码本条目,并把多个量化向量融合成紧凑的语义 ID 表示。量化模块在原始嵌入上离线预训练。SIDE 相对 FP16 存储取得 4× 压缩,且对下游 NE 影响可忽略

4.3 Serving 时解码

Serving 时,量化嵌入从特征库取回,经 SIDE 的规则解码器解回浮点向量。一个与下游模型联合训练的可学习 MLP,把解码后的嵌入投影到与其他输入特征对齐的维度,再进入 overarch 交互层。该设计除了这些额外嵌入输入外,不给下游 ranker 增加任何架构改动。

实验设置

5.1 评估指标:归一化熵(NE)

主指标是归一化熵(Normalized Entropy, NE)——定义为平均 log loss 除以「一个朴素模型(预测经验正样本率 $p$)的熵」:

$$\text{NE} = \frac{-\frac{1}{N}\sum_{i=1}^{N}\big[y_i \log(\hat{p}_i) + (1-y_i)\log(1-\hat{p}_i)\big]}{-\big[p\log(p) + (1-p)\log(1-p)\big]}. \tag{9}$$

NE 优于原始 log-loss,因为它对类别不平衡做了归一化,使「不同正样本率的任务/数据集」之间可比。本文报告相对 baseline 的 NE 相对下降(%ΔNE),下降越多越好。NE 在上游预训练与下游评估中一致使用,实现端到端性能追踪。

5.2 对比配置

四个配置,共享同一套下游 DLRM 架构与输入特征集:

  1. Baseline:现有下游 ranker,无预训练嵌入。
  2. ClickAUE Only:下游 ranker 增广 ClickAUE。
  3. ConvAUE Only:下游 ranker 增广 ConvAUE。
  4. DUET:下游 ranker 同时增广 ClickAUE 与 ConvAUE。

对比/掩码预训练方法(Ouyang et al. 2023a,b)被排除,因其增广式目标与本文的 pointwise BCE 形式不同。单嵌入配置(ClickAUE Only / ConvAUE Only)充当隔离每条流边际贡献的消融。

5.3 实现细节

ClickAUN 与 ConvAUN 都在 128 张 NVIDIA H100 GPU 上训练,达到约 ≈200K 离线训练 QPS——足以支撑持续训练与在严格延迟约束下及时部署更新的 checkpoint。

配置项 ClickAUN ConvAUN
任务塔数 7(含 CTR、站内转化、视频观看预测等) 7(含转化优化、link click、button click、合成转化)
事件塔数 7(每个对应一个用户侧事件特征) 13(采用「横向 scale」范式)
最大序列/事件长度 1,000 不超过 200
注意力层数 $n$ 2(堆叠) 1
注意力头数 $h$ 2 8
模型维度 $d_{\text{model}}$ 256 128
FFN 维度 $d_{\text{ff}}$ 1024 256
输出嵌入 16 个 80 维嵌入 5 × 80 维

每个任务头的贡献经一个梯度缩放超参调制,以平衡监督信号强度与任务特定的标签噪声。Baseline 用现有下游模型,保持架构与训练数据完全一致,仅修改输入特征集以纳入 ConvAUE 与 ClickAUE。

注意两个编码器的规模反差恰好体现了「架构匹配统计机制」:ClickAUN(稠密流)更深更宽、序列更长($n{=}2$、$d_{\text{model}}{=}256$、seq≤1000);ConvAUN(稀疏流)更浅、头更多、序列更短但事件塔更多($n{=}1$、$d_{\text{model}}{=}128$、event≤200、13 塔横向扩展)。

主要实验结果

5.4 嵌入分析:ClickAUE 与 ConvAUE 是否冗余?

通过两个分析检验两个嵌入编码的是冗余还是互补信息:

Figure 4:量化后用户嵌入的主成分。ConvAUE(蓝)与 ClickAUE(红)投影到前两个主成分上,占据**largely disjoint(基本不相交)**的区域,表明二者捕捉用户行为的不同侧面,而非同一信号的冗余表征。

  • 主成分可视化(Figure 4):把量化后的 ClickAUE 与 ConvAUE 向量投影到前两主成分,两类嵌入占据基本不相交的区域,说明它们捕捉的是用户行为的不同侧面而非冗余。
  • 余弦距离分布(Figure 5):画同一用户的 ClickAUE 与 ConvAUE 两两余弦距离的概率密度。分布在 $[-1, +1]$ 上近似均匀,仅在两端有轻微聚集。均匀分布意味着两个嵌入空间在聚合层面近似正交——既不系统对齐、也不系统相反。$-1$ 与 $+1$ 附近的轻微峰值说明,一小撮用户的点击与转化模式强相关或强反相关,而大多数用户由「携带独立信息」的嵌入表示。这种近正交性与 §5.5 观察到的加性 NE 增益一致:两个表征向下游 ranker 贡献了很大程度上不重叠的预测信号

5.5 主结果

Table 1:下游 ranker 的训练 NE 增益。DUET 优于单嵌入并逼近理论上界。

下游 ranker %ΔNE 增益
With ClickAUE 0.21%
With ConvAUE 0.30%
With DUET 0.38%
上界:ConvAUE ⊥ ClickAUE 0.51%

Table 1 报告主 OCVR 任务上的相对训练 NE 下降。ConvAUE 单独给出 0.30% 增益,ClickAUE 单独 0.21%,DUET(两者组合)达 0.38%。理论上界——在「ClickAUE 与 ConvAUE 完全正交、增益完全可加」假设下算出——为 0.51%。DUET 回收了约 75% 的上界(0.38 / 0.51),相对单嵌入至少有 ≈13% 的相对提升,既表明两个嵌入间的互补性,也暗示存在部分信息重叠(与 §5.4 的余弦距离分析一致)。值得注意的是,任一单流嵌入都达不到组合增益,确认点击流与转化流编码了不同的预测信号,联合起来比任一单独更有信息量。

Figure 6:六个下游 ranker 上的评估 NE 增益(%)。三条曲线 ConvAUE / ClickAUE / DUET,DUET(橙)在所有六个 ranker 上都把面积撑到最外圈,尤以 Ranker 2、Ranker 6 增益最大。越靠外越好。

Figure 6 报告六个下游站外 CVR 模型上的评估 NE 增益。这六个是不同的 OCVR 排序模型,跨不同排序阶段(如终阶段 feed vs 早阶段 explore)与优化目标,流量、归因特性、baseline 特征集各异,但共享同一 DLRM 骨干,仅在增广 DUET 嵌入时输入特征集不同。三点观察:

  1. DUET 在所有六个模型上一致优于 ConvAUE/ClickAUE,ClickAUE 带来的加性提升从 +0.04%(Ranker 5)到 +0.21%(Ranker 6)不等。确认了点击衍生表征无论下游配置如何,都对转化衍生表征提供互补信号。
  2. 增益幅度随模型变化:Ranker 2、Ranker 6 受益最大(分别 0.35% 和 0.36%),Ranker 5 提升较温和(0.10%)。这反映了各模型在数据量、归因率、以及「自身现有特征集已捕捉多少点击/转化相关模式」上的差异。
  3. ClickAUE 的相对贡献(DUET 与 ConvAUE 之差)并非恒定:Ranker 6 的加性提升最大(+0.21%),说明它的 baseline 特征集最有「被点击流表征富化」的空间;而 Ranker 3、Ranker 5 增量较小,说明它们的现有特征已捕捉了部分 ClickAUE 所编码的信息。

5.6 消融研究

在「各组件如何影响预训练(PT)与下游 ranker(DR)性能」上做消融。Table 2 报告每个组件从其上游编码器移除后的 PT/DR NE 退化;值越大越重要。

Table 2:上游编码器消融。

ConvAUE 组件 PT %ΔNE DR %ΔNE
Remove Synthetic Data(移除合成数据) 0.13% 0.03%
Reduce 1 Layer Attention(减一层注意力) 0.06% 0.025%
Remove User Journey Event(移除用户旅程事件) 0.30% 0.10%
Remove Item Impression Event(移除 item 曝光事件) 0.04% 0.015%
ClickAUE 组件 PT %ΔNE DR %ΔNE
Scaling Sequence/Non-sequence Arch(缩放序列/非序列架构) 0.13% 0.05%
Ablate Item Impression Event Feature 0.04% 0.01%
Ablate Page Event Feature(页面事件特征) 0.07% 0.03%

逐项分析:

  • ConvAUE 消融用户旅程事件特征(user journey event)是跨两个编码器最有影响的单一组件——移除它造成 0.30% PT NE 与 0.10% DR NE 损失。该特征捕捉跨站浏览模式,提供转化意图的直接证据。无归因合成数据贡献 0.13% PT / 0.03% DR NE,确认「缺乏确定性归因的转化事件」仍提供有用的弱监督。架构深度(2 层 vs 1 层注意力)贡献 0.06% PT / 0.025% DR——一个温和但一致的增益,验证了「稀疏监督下交错交叉/自注意力」设计。
  • ClickAUE 消融:缩放序列与非序列架构带来至多 0.13% PT / 0.05% DR NE 增益,说明稠密特征分支的模型容量对 ClickAUE 质量是「承重的」。在各事件特征里,页面参与(page engagement)最有影响(0.07% PT / 0.03% DR),其次是目标 item 曝光事件(0.04% PT / 0.015% DR)。
  • 跨编码器对比ConvAUE 由单一高信号源主导(用户旅程 0.30%),而 ClickAUE 的增益来自各特征的均匀贡献,无单一特征超过 0.07%。这反映了两种数据机制:稀疏转化流依赖少数高信号事件,稠密点击流则受益于「众多中等来源的广度」。
  • PT→DR 迁移比:比较 PT 与 DR 的 NE 变化可见,序列架构改动与事件特征增加表现出 30%–40% 的迁移比(因为它们直接影响嵌入生成所用的序列学习组件);数据层改动(如合成数据)迁移比较低但仍可观(23%),确认上游数据改进会经学到的嵌入表征传播到下游 ranker。

5.7 A/B 测试结果

在两个 CVR 模型上做线上 A/B(实验资源密集,限制了可并发评估的模型数)。

Table 3:A/B 测试结果(相对 baseline 的提升)。

下游 ranker 站外 CVR 提升
Ranker 3 +0.66%
Ranker 4 +0.15%

两个模型都取得统计显著提升:Ranker 3 +0.66% CVR,Ranker 4 +0.15% CVR。两者均在 $p < 0.05$(双边 $t$ 检验)显著。延迟开销可忽略——嵌入经 ETI 系统预计算、经特征库查找 serving,serving 时无额外模型推理。这与 §5.5 的离线 NE 增益相互印证:离线 NE 收益能转化为可测量的 A/B 影响。

附录要点

上游编码器优化器

Distributed Shampoo 优化器(Gupta et al. 2018)——一种利用 Kronecker 分解预条件来捕捉 pairwise 梯度相关的二阶方法。相比 Adam/AdaGrad/SGD 等一阶法,Shampoo 一致带来统计显著提升且不增加推理开销。配置:学习率 $\alpha = 0.04$,$\beta_1 = 0.9$,$\beta_2 = 1.0$,$\epsilon = 10^{-4}$,momentum $\mu = 0$,weight decay $\lambda = 10^{-5}$。线性学习率 warmup 跨 20,000 次迭代,从初始率插值到 $10^{-3}$。

「合并模型」与「分离模型」的等价性分析

附录用一个理论论证回答一个自然质疑:为什么要训两个分离的上游模型,而不是一个合并模型? 结论是:在线性交互假设下,分离设计不损失表征能力,且额外换来架构灵活性与工程收益。

  • 假设 1:AFL 上游模型与 baseline 架构一致,只是多了序列学习组件(baseline 的序列组件是冻结的)。
  • 假设 2:合并模型中不同数据源/中间嵌入的交互发生在上游;分离模型中该交互被推迟到下游模型(交互层或 overarch)。
  • 假设 3:嵌入向量间的交互通过点积实现(简化假设;实践中 DLRM 用 DCN cross 层、MLP 等非线性交互层,可能偏离下面的等价推导)。

引理 1:用一个合并模型同时利用点击与转化数据学到的「联合用户嵌入」,与「在上游分别从两种数据学嵌入、再在下游集成」近似等价

证明梗概:令 $\mathbf{u} \in \mathbb{R}^n$ 为 ConvAUE、$\mathbf{v} \in \mathbb{R}^n$ 为 ClickAUE。令 $\mathbf{w}$ 为合并上游中的标量权重,$\mathbf{w}', \mathbf{w}''$ 为 ClickAUN/ConvAUN 中的标量权重,$\mathbf{z}$ 为下游标量向量。由假设 2,无论上游合并与否,下游模型只学到 $\mathbf{z}$。

合并下游表示:

$$(\mathbf{u} \cdot \mathbf{v})\mathbf{w} = \sum_{i=1}^{n} w_i(u_i \cdot \mathbf{v}) = (w_1 u_1)\cdot \mathbf{v} + \cdots + (w_n u_n)\cdot \mathbf{v} = \Big(\sum_{i=1}^{n} w_i u_i\Big)\cdot \mathbf{v}. \tag{10}$$

分离下游表示(用假设 2,$\circ$ 为 Hadamard 积):

$$\mathbf{u}\mathbf{w}' \cdot \mathbf{v}\mathbf{w}'' = (\mathbf{u} \circ \mathbf{w}') \cdot (\mathbf{v} \circ \mathbf{w}'') = \sum_{i=1}^{n} u_i w_i' v_i w_i'' = \sum_{i=1}^{n} w_i^* u_i v_i = \Big(\sum_{i=1}^{n} w_i^* u_i\Big)\cdot \mathbf{v}. \tag{11}$$

由假设 1 比较式 (10) 与 (11),有 $\mathbf{w}^* \approx \mathbf{w}$,即近似等价。$\square$

讨论:近等价说明把嵌入拆成两个上游模型,在线性交互假设下不牺牲表征能力。但分离设计另有超越等价性的优势:(1) 它允许每个上游模型用为其数据域定制的、不同的注意力架构(ClickAUN 纯自注意力 vs ConvAUN 交错交叉/自注意力)——这是单个合并模型难以容纳的;(2) 操作收益——独立扩缩、故障隔离、各流水线按自己的节奏重训而互不影响。作者也指出实践中 DLRM 用的是非线性交互层而非纯点积,所以实际等价比线性推导更松;但实证结果(§5.5)确认分离设计至少与单流预训练表现相当,同时提供了上述架构灵活性。

核心贡献总结

  1. 「信号主导下的机制错配」这一问题诊断:明确指出单流上游编码器在 OCVR 上必然被稠密点击信号主导、欠拟合稀疏转化模式——把「为何要分流」讲清楚。
  2. 域感知数据路由 + 流特化编码器:按标签语义与归因时长把数据切成点击流/转化流,为每条流配「架构匹配统计机制」的编码器(稠密→深层自注意力;稀疏→交叉注意力锚定 + 隐式正则),并经消融逐项验证每个选择都承重。
  3. 无归因转化的合成弱监督:把「无法确定性归因的转化」通过推断最可能排序结果转成合成训练样本,缓解 OCVR 流稀疏(消融显示贡献 0.13% PT NE)。
  4. 解耦上游复杂度与 serving 预算的完整工程栈:ETI 事件触发异步生成 + checkpoint 校验自愈 + SIDE 4× 量化 + serving 时 MLP 解码投影,实现可忽略的延迟开销。
  5. 理论 + 实证双重验证分离设计:附录证明分离与合并近等价(线性假设下),实证 0.38% 训练 NE 下降(回收 75% 理论上界)、6 个下游模型一致正向、2 个线上 A/B 统计显著(+0.66% / +0.15% CVR)。

与已归档相关工作的对比

SCALR SCALR:把跨域事件迁移重铸为合成数据生成(Meta, 2026-05-29)

关系:独立并发 / 同团队姊妹工作(本文未引用 SCALR,且二者作者高度重叠——Xiangyu Wang、Yawen He、Rob Malkin 均在两篇作者列表中,发表仅相隔约 10 天)· 已加载对方精读

  • 共同关注的问题:两篇都死磕 Meta 工业转化预估的数据稀疏这一 root cause。SCALR 的框架是「转化率 <1%、很多 item 一天只有几十次转化,难训准转化模型」;DUET 的框架是「站外转化稀疏 + 大量无法归因,单流编码器被稠密点击主导」。同一公司、同一任务族(conversion/CVR prediction)、几乎同期。
  • 殊途同归的共同 insight:二者都把「解耦」作为核心设计哲学——SCALR 把跨域迁移解耦到数据层(model-agnostic,下游模型不改架构),DUET 把用户表征学习解耦到上游预训练(嵌入冻结、上下游独立重训)。二者也都强调多消费者复用:SCALR 一份合成数据集供多个下游模型复用,DUET 一套嵌入供 6+ 下游 ranker 共享。
  • 直接同构的子组件——合成数据:DUET 的「来自无归因转化的合成数据」(§3.1:为无归因转化推断最可能排序结果,作为 ConvAUN 流的弱监督)本质就是 SCALR 思想的一个特例。SCALR 把它一般化为跨域事件翻译:用重叠用户共现统计估计 item 翻译分布 $\hat P(i_\mathcal{T}\mid j_\mathcal{S})$(频率法),从分布概率采样(而非确定性 top-K)生成合成目标域转化事件,再以加权辅助损失 $\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{orig}} + \lambda\sum w\cdot\ell(f_\theta, \tilde y)$ 训练。
  • 本文的差异与推进:DUET 走的是架构/表征轴——双流专用 Transformer 编码器 + 流特化注意力 + 异步 serving;合成数据只是 ConvAUN 流的一个辅助子组件。SCALR 走的是纯数据轴——不碰任何模型架构,只在训练集里掺入翻译来的合成事件。两者高度互补:可以想象「用 SCALR 式跨域翻译来富化 DUET 的 ConvAUN 训练流」。可比的实验差异:两篇都用 NE 作离线指标、都报线上转化提升;DUET 报 0.38% 训练 NE / +0.66% A/B CVR,SCALR 报核心业务指标统计显著正向(其精读未给单一可比数值)。

RQ-FSQ RQ-FSQ:把跨域行为意图量化成 Semantic ID 喂给广告排序(LinkedIn, 2026-05-31)

关系:独立并发,殊途同归于「serving 子问题」(本文未引用,LinkedIn vs Meta,相隔约一周;核心方法骨架不同,但「预训练用户嵌入 → 量化压缩 → 冻结当输入特征喂广告 ranker」这条 serving recipe 高度同构)· 已加载对方精读

  • 共同关注的问题:两篇都要把「有机互动(organic feed engagement)衍生的丰富用户信号」注入广告/转化排序,且都受困于「dense 用户嵌入的高 serving 成本」。DUET 把有机 feed 浏览/点赞纳入 EBF 序列、用 SIDE 4× 压缩嵌入;RQ-FSQ 明确把「广告点击稀疏、但 organic feed 行为多数个量级」当作切入点,把 feed 行为量化成 viewer SID 注入广告 CTR。
  • 相近的技术骨架(serving 轴):二者都遵循「预训练用户嵌入 → 离散量化压缩 → 冻结当输入特征、下游 ranker 架构零改动」这条流水线。DUET 用 SIDE(向量量化融合成语义 ID,4× 压缩);RQ-FSQ 用 RQ-FSQ(残差 VAE + 逐维有限标量量化,30–280× 压缩,几乎不掉 AUC),并配 prefix n-gram 的 HDE 模块把 K 级 SID 端到端编码进 decoder-only ranker。两家公司独立地走到了「量化预训练用户嵌入以低成本 serving」这同一条工程路径上。
  • 本文的差异与推进核心贡献轴不同——DUET 的核心是「按统计机制分流 + 流特化编码器架构」,量化(SIDE)只是借用的部署组件;RQ-FSQ 的核心正是量化方法本身 + 跨域 SID 冷启动迁移研究(它的 root cause 更偏「存储成本 + 冷启动迁移质量」,并实证「行为活跃度决定迁移质量」,最冷启用户 +1.522% AUC)。换言之 DUET 在「编码器架构」上深耕、把量化当黑盒;RQ-FSQ 在「嵌入离散化/SID」上深耕、把骨干 ranker 当黑盒。两者拼起来恰好覆盖了「上游表征学习」与「下游嵌入接入」两端。

被剔除的近似候选(防止门槛放水): - HeteGenCTR(2605.24986, Alibaba):同样诊断「预训练中的信号/字段主导失衡」(易字段抢梯度、高信号 ID/序列字段欠拟合),与 DUET 的「信号主导下机制错配」problem 上有共鸣;但解法是「逐字段难度标量 + 难度引导注意力缩放」修正离散扩散 CTR 预训练,解法骨架完全不同(字段重加权 vs 数据流分离),剔除。 - IAT(2604.08933, ByteDance):同样「预计算紧凑嵌入供下游广告模型消费」,但 IAT 压缩的是历史训练实例(instance-as-token),不是双流用户编码器,recipe 不同,剔除。 - Coupang 工业 CVR scaling(2605.29232):同属「工业搜索 CVR 预估 + 解耦/scaling」任务族,但解法是「把 scaling 拆成 backbone/embedding/data 三维 + warmstart 重训 + CPU-GPU 解耦」,是 scaling-law 经验研究,非上游双流表征预训练,剔除。

讨论与局限性

值得借鉴的设计

  • 「架构匹配统计机制」是本文最可迁移的方法论:不要对稠密流与稀疏流套同一编码器——稠密流用深层自注意力挖高阶交互,稀疏流用交叉注意力把序列锚到稳定静态属性上做隐式正则。这条原则在任何「混合了高频/低频信号的上游表征学习」里都可复用。
  • 无归因数据当弱监督而非丢弃:把因 cross-device/cookie/延迟而无法归因的转化「推断成合成样本」,是工业 CVR 场景里榨取稀疏正信号的实用手法(与 SCALR SCALR 的跨域合成数据一脉相承)。
  • ETI 异步 serving + checkpoint 自愈校验:把「嵌入新鲜度」与「训练节奏」解耦、用站内转化当天然触发器、用「验证 NE 超阈即拒绝 checkpoint」自动维持质量——是一套完整可抄的部署护栏。

局限与争议

  • 增益温和:0.38% 训练 NE、+0.66%/+0.15% 线上 CVR——在 Meta 体量下有商业价值,但绝对幅度不大;作者也坦承「贡献不在单个组件(均为既有技术),而在其面向 OCVR 的有原则的组合」。这把它定位为扎实的工程组合工作而非方法论突破。
  • 数据路由是静态规则:当前按标签语义/归因时长硬切两条流;学习式路由有望支持更细粒度的多流划分(作者列为 future work)。
  • 注意力配置的指派未被充分对照:「点击→自注意力、转化→交叉注意力」经消融验证有效,但没有对照「反过来指派」或其他组合,缺一个干净的对照实验来证明这个指派是最优而非次优。
  • 冻结嵌入的适应性代价:下游训练期冻结嵌入换来了操作解耦,但牺牲了对分布漂移的适应能力;轻量微调(如 adapter 层)可能缓解。
  • 可复现性受限:所有下游 ranker(Ranker 1–6)与数据集匿名、全部内部 NE 指标、无公开学术 benchmark,外部难以复现或横向对标。

工业落地价值:DUET 已在 Meta 的多个站外 CVR 下游模型上验证,并跑通了完整部署栈(ETI + SIDE 量化 + checkpoint 校验 + 限流),serving 延迟开销可忽略。对「握有第一方多应用行为数据、做站外/零售媒体转化预估」的平台,这是一套已被线上 A/B 验证、可直接借鉴的上游用户表征 + 异步 serving 方案。