← Back to list
HeteGenCTR

Self-Balancing Gradient Allocation for Heterogeneity-Aware Feature Generation in Click-Through Rate Prediction

判别式推荐 Alibaba
Abstract 8 Reading 7 Rating —
2026-05-24
Moyu Zhang, Yun Chen, Yujun Jin, Jinxin Hu, Yu Zhang, Xiaoyi Zeng
Alibaba Group
提出 HeteGenCTR:用一组 per-field 可学难度标量(源自不确定性加权)同时驱动自平衡损失与难度引导注意力,纠正离散扩散生成式 CTR 预训练中易域主导梯度、难域(ID/序列)欠拟合的不均衡;五基准+7天线上A/B(+4.7% CTR,冷启动+9.2%)验证。
评分原因
摘要评分:判别式 CTR 的生成式扩散预训练方向,针对重建难度异质提出自平衡损失(有稳定性证明)+难度引导注意力,方法新颖,五基准+7 天线上 A/B 验证,工业价值高。
精读评分:实验严谨(5基准+7天线上A/B +4.7% CTR,冷启动+9.2%)、工业价值高、单信号双机制设计优雅;但核心技术为 Kendall 不确定性加权的场景迁移(新颖性增量),且经推导发现其'给难域更多梯度'的机制叙述与公式均衡(权重∝1/loss)及Fig4方向相矛盾,叠加两阶段解耦的扩展性隐患,定为扎实工作7分。
diffusion feature-interaction transformer cold-start ad-rec industrial

Self-Balancing Gradient Allocation for Heterogeneity-Aware Feature Generation in Click-Through Rate Prediction(HeteGenCTR)

Alibaba Group(Moyu Zhang, Yun Chen, Yujun Jin, Jinxin Hu, Yu Zhang, Xiaoyi Zeng),arXiv:2605.24986,2026-05-24。

研究动机与背景

CTR 预测的两条范式

点击率(Click-Through Rate, CTR)预测是工业推荐系统的基础任务:估计用户对展示物品产生点击的概率。形式化地,给定特征集 $\mathbf{F} = [f^1, f^2, \dots, f^N]$($N$ 个特征域)与二值标签 $y \in \{0,1\}$,学习一个映射 $\mathcal{F}: \mathbf{F} \to [0,1]$ 估计点击概率:

$$P(y\mid\mathbf{F}) = \mathcal{F}(f^1, f^2, \dots, f^N) \tag{1}$$

判别式范式(Discriminative):标准 CTR 模型(WDL、DeepFM、DCN、AutoInt、FiBiNet、MaskNet、PEPNet 等)端到端用二元交叉熵训练。问题在于:监督信号只在输出标量处提供,每个样本仅得到一个二值监督,面对真实推荐流量的极端稀疏性(绝大多数 user-item 特征组合在训练中只出现极少次甚至从未出现)时,稀有特征的表征会坍缩或不可靠。

生成式范式(Generative):把 CTR 重构为一个生成问题——不是预测单一标签,而是从隐分布中重建整个特征样本,对所有特征域同时提供密集监督。典型实现是耦合的两阶段流水线:第一阶段预训练一个生成模型重建特征域;第二阶段直接继承预训练参数与打分函数,做有监督微调。本文的直接前身 DGenCTR([36],同团队,2025)把点击标签当作样本里的一个额外特征域处理,统一了两个阶段——当只 mask 标签时,标签重建损失数学上等价于 CTR 校准损失,使 CTR 估计成为生成式去噪过程的一个特例。扩散模型尤其适合:离散扩散天然契合推荐特征的类别属性,对稀有特征值也能借助共现模式得到密集监督,缓解判别式训练中的稀疏性坍缩。

被所有生成式 CTR 方法共享的根本缺陷

作者指出所有现有生成式 CTR 方法(GenCTR、DGenCTR、SGCTR)都有一个被埋进训练目标公式本身的局限:把特征生成当作一个 homogeneous(同质)任务——每个特征域被赋予相同的损失权重,无视其内在重建难度。而这一假设被推荐特征空间的结构根本性地违反了。

CTR 输入特征横跨差异巨大的模态与统计特性:

  • 高基数 ID 域($\mathcal{F}^{ID}$):百万级唯一值的用户/物品 ID;
  • 稀疏类别属性域($\mathcal{F}^{cat}$):中等基数($10^1$–$10^4$);
  • 稠密数值域($\mathcal{F}^{num}$):连续值;
  • 变长行为序列域($\mathcal{F}^{seq}$)。

这些域不仅在基数/稀疏性上不同,更在生成复杂度(generative complexity)——即为每个域学一个准确生成模型的内在难度——上不同。高基数 ID 域要在巨大的离散空间里捕捉细粒度模式,而数值域可能服从紧凑的分布形式。

generative difficulty imbalance(生成难度不均衡):当所有域用统一损失权重训练时,优化动态不可避免地失衡。易重建的域(低基数类别、近常数数值)早早收敛,却仍持续施加不成比例的梯度影响,把共享网络参数拉向偏好这些简单域的表征;与此同时,高复杂度域(高基数 ID、行为序列)收敛慢,长期欠拟合。模型在简单域上取得了好的重建质量,却无法捕捉那些真正承载下游 CTR 任务最强预测信号的域的细粒度模式。

Figure 1: 生成难度不均衡示意。(a) 单体均匀生成对所有域施加等权损失,易域主导梯度、压制高信号复杂域的学习;(b) HeteGenCTR 学习 per-field 难度估计,自动再平衡梯度预算并同步驱动难度引导注意力。

这不只是理论问题。ID 域与序列域恰恰携带 CTR 预测中最强的个性化信号:用户 ID 编码长期偏好画像,物品 ID 编码内容身份,序列编码短期意图。当生成模型系统性地欠拟合这些高信号域、让简单域垄断训练梯度时,得到的特征表征恰恰在最关键的地方给出贫弱的监督,下游 CTR 模型在最要紧处收到"营养不良"的训练信号。

与 DGenCTR 的 noise schedule 是正交问题

值得强调的是,DGenCTR 已经引入了 per-field noise schedule $\{\gamma^i(t)\}$ 来适配不同词表大小(更大词表需更慢的 masking 速率)——但这解决的是分布不匹配,并没有改变各域在损失聚合 $\mathcal{L}_{gen}$ 中的相对权重(系数仍是 1)。作者明确论证:梯度不均衡源于损失聚合而非 noise schedule,二者正交、需要独立的解。HeteGenCTR 保留了 per-field noise schedule,转而攻击损失层面的梯度不均衡。

本文贡献

  1. 识别并形式化 generative CTR 建模中的 generative difficulty imbalance:对特征域的均匀处理使易域主导训练梯度、压制 ID 与序列域的学习;并论证 DGenCTR 的 per-field noise schedule 处理的是分布不匹配、与梯度不均衡正交,两个问题需各自独立的解。
  2. 提出 HeteGenCTR:引入一个统一的 per-field 难度信号,同时驱动两个协调的机制——自平衡损失聚合 + 难度引导注意力调制,不引入任何超出 baseline 的额外超参。提供稳定性分析证明自平衡均衡是严格局部最小值,并给出注意力缩放与损失层加权"设计上对齐"的原理推导。
  3. 五数据集 + 线上 A/B 验证,相对 SOTA 生成式与判别式 baseline 取得一致、统计显著的提升。

核心方法 / 模型架构

HeteGenCTR 是一个建立在离散扩散之上、带统一域难度估计的异质生成框架。它完全运行在第一阶段(特征重建)之内:改善特征重建质量,第二阶段直接继承预训练打分函数,无需任何架构改动。核心是一组 per-field 可学的 log-难度参数 $\{s^i\}_{i=1}^N$,每个是 $\mathbb{R}$ 上的标量,与去噪网络 $p_\theta$ 联合学习。这个统一信号同时在损失层与注意力层驱动难度不均衡的修正。

Figure 2: HeteGenCTR 整体架构。(a) 异质特征类型编码把特征域分成四类;(b) HSTU 去噪网络用同一组学到的 $\{s^i\}$ 施加难度引导注意力缩放 $\tilde{q}^i = \exp(-s^i/2)\cdot q^i$;(c) 自平衡损失用 $\exp(-s^i)$ 聚合 per-field 重建损失;(d) 两个机制系数 $\exp(-s^i)$ 与 $\exp(-s^i/2)$ 同源对齐。

4.0 预备:离散扩散下的生成式 CTR

DGenCTR 采用 absorbing(吸收态)离散扩散:对每个域 $i$,前向过程是以 per-field masking 速率 $\gamma^i(t)$ 走向吸收态 $[M]$ 的连续时间马尔可夫链;去噪网络 $p_\theta$ 学反向过程——给定 $t$ 时刻部分被 mask 的特征集,预测原始未 mask 的 token。数值域通过 $B$ 个均匀分桶离散化以套用同一框架。由于高基数 ID 域使全词表 softmax 不可行,DGenCTR 用基于当前 batch 负样本的 batch-softmax 近似重建:

$$q_\theta(\hat{e}^i \mid \mathbf{X}_t^{\backslash i}) = \frac{\exp(\cos(\hat{e}^i, G(\mathbf{X}_t^{\backslash i})))}{\sum_{\tilde{e}^i \in \mathcal{B}_i} \exp(\cos(\tilde{e}^i, G(\mathbf{X}_t^{\backslash i})))} \tag{2}$$

其中 $G(\cdot)$ 是打分网络,$\mathcal{B}_i$ 是 batch 负样本集。

耦合两阶段:把样本写成 $X=\{\mathbf{F}, y\}$,扩散模型重建包括标签在内的所有域。当仅 mask 标签时,去噪网络从未 mask 特征 $\mathbf{x}_t^{\backslash y}$ 预测 $y$:

$$\mathcal{L}_{label} = -\log p_\theta(y \mid \mathbf{x}_t^{\backslash y}) \tag{3}$$

$$p_\theta(y=1\mid \mathbf{x}_t^{\backslash y}) = \frac{1}{1+\exp(-(\mathcal{F}(y=1\mid\mathbf{F}) - \mathcal{F}(y=0\mid\mathbf{F})))} \tag{4}$$

由于第二阶段目标用的正是同一个打分函数 $\mathcal{F}(\cdot)$,CTR 估计是生成式去噪过程的特例,两阶段深度耦合。预训练最小化的标准离散扩散目标为:

$$\mathcal{L}_{gen} = -\mathbb{E}_t\!\left[\sum_{i=1}^N \log p_\theta(f_0^i \mid \mathbf{x}_t, t)\right] \tag{5}$$

——它对每个特征域赋予相同权重,无视基数、稀疏性、生成难度。这正是不均衡的来源。

作者用重建损失的收敛行为刻画域 $i$ 的生成难度,定义 $\tau$ 步时的归一化重建难度

$$d^i(\tau) = \frac{\ell^i(\tau)}{\ell^i(0)} \tag{6}$$

经验上,高基数 ID 域(基数 $>10^5$)在均匀加权下整个训练过程维持 $d^i(\tau) > 0.8$;低基数类别域(基数 $<10^2$)在训练前 10% 内就收敛到 $d^i(\tau) < 0.2$。总损失梯度因此被易域主导。不均衡同时体现在两个层面:损失层(易域贡献不成比例的大梯度 $\nabla_\theta \mathcal{L}_{gen}$)与注意力层(去噪网络内来自已收敛易域的 query 主导注意力输出,压制流向难域的跨域信息)。原则上的解应同时处理两层、且理想地来自一个单一可学的 per-field 信号。

4.1 异质特征类型编码(Heterogeneous Feature Type Encoding)

按模态把所有特征分四组(见 Figure 2a):

  • ID 域 $\mathcal{F}^{ID}$:高基数用户/物品 ID,每个值映射到可训练 embedding $e^i \in \mathbb{R}^d$;
  • 类别属性域 $\mathcal{F}^{cat}$:基数 $10^1$–$10^4$,映射到共享类别 embedding;
  • 数值域 $\mathcal{F}^{num}$:连续值 $v^i \in \mathbb{R}$,用 $b^i = \min(\lfloor B\cdot\hat{F}^i(v^i)\rfloor, B-1)$ 离散化到 $B$ 个均匀分桶,其中 $\hat{F}^i$ 是在训练集上算出的经验累积分布函数(CDF);
  • 序列域 $\mathcal{F}^{seq}$:变长行为历史,用一个轻量 Transformer 对物品 embedding 编码,再经 mean pooling + 线性层投影到固定尺寸的域 embedding $e^i \in \mathbb{R}^d$。

类型特定编码后,所有 $N$ 个域 embedding $\{e^i\}$ 拼接送入扩散主干。

4.2 自平衡损失(Self-Balancing Loss)

把总生成损失分解为 per-field 重建项:

$$\ell^i = -\mathbb{E}_t\!\left[\log p_\theta(f_0^i \mid \{\mathbf{x}_t^j\}_{j=1}^N, t)\right] \tag{7}$$

多任务似然。不靠启发式地手调 per-field 损失,而是从一个原理化的最大似然框架推导聚合规则。把每个特征域当作一个独立的重建"任务",引入 per-task homoscedastic 不确定性 $(\sigma^i)^2 > 0$,刻画重建域 $i$ 固有的任务级噪声(与具体输入样本无关)。沿用 Kendall 等人 [10] 的多任务不确定性加权原理,把域 $i$ 的似然建模为重建残差上的高斯:

$$p(f_0^i \mid \{\mathbf{x}_t^j\}, t; \sigma^i) = \mathcal{N}(f_0^i; \mu_\theta^i(\{\mathbf{x}_t^j\}, t), (\sigma^i)^2) \tag{8}$$

其中 $\mu_\theta^i$ 是模型对域 $i$ 的预测充分统计量。对离散重建任务,同样的函数形式从标准 softmax 似然的温度缩放近似中浮现。由于给定共享网络输出时 $N$ 个域条件独立,联合似然因子化为:

$$p(\{f_0^i\}_{i=1}^N \mid \{\mathbf{x}_t^i\}, t; \{\sigma^i\}) = \prod_{i=1}^N p(f_0^i \mid \mathbf{x}_t^i, t; \sigma^i) \tag{9}$$

对数似然目标。取对数、代入 (8)、丢弃常数项:

$$\log p = -\sum_{i=1}^N \left[\frac{1}{(\sigma^i)^2}\ell^i + \log\sigma^i\right] \tag{10}$$

于是对网络参数 $\theta$ 与任务不确定性 $\{\sigma^i\}$ 同时最小化负对数似然:

$$\mathcal{L}_{ML}(\theta, \{\sigma^i\}) = \sum_{i=1}^N \left[\frac{1}{(\sigma^i)^2}\ell^i + \log\sigma^i\right] \tag{11}$$

权重 $1/(\sigma^i)^2$ 下调高不确定性任务的权重,而正则项 $\log\sigma^i$ 防止模型靠把 $\sigma^i \to \infty$ 平凡地忽略任何域。

梯度分析。对 $\theta$ 求导:

$$\nabla_\theta \mathcal{L}_{ML} = \sum_{i=1}^N \frac{1}{(\sigma^i)^2}\nabla_\theta\ell^i \tag{12}$$

每个域对总梯度的贡献正比于其任务不确定性的倒数:大 $(\sigma^i)^2$(高不确定、难重建)的域权重小、贡献弱;小 $(\sigma^i)^2$(低不确定、易重建)的域主导梯度——这正是 §3.3 描述的不均衡现象。为找到最优不确定性,对 $\sigma^i$ 求导置零:

$$\frac{\partial\mathcal{L}_{ML}}{\partial\sigma^i} = -\frac{2\ell^i}{(\sigma^i)^3} + \frac{1}{\sigma^i} = 0 \;\Longrightarrow\; (\sigma^i)^2 = 2\ell^i \tag{13}$$

最优不确定性下,均衡权重为 $1/(\sigma^i)^2 = 1/(2\ell^i)$,与重建损失成反比。

对数方差重参数化。直接回归 $\sigma^i$ 数值不稳定((11) 的梯度含 $(\sigma^i)^3$ 相除,可能消失)。沿用 [10],用对数方差 $s^i := \log(\sigma^i)^2 \in \mathbb{R}$ 重参数化,则 $(\sigma^i)^2 = \exp(s^i)$、$\log\sigma^i = s^i/2$,目标变为:

$$\mathcal{L}_{bal} = \sum_{i=1}^N \left[\exp(-s^i)\cdot\ell^i + \frac{s^i}{2}\right] \tag{14}$$

映射 $s^i \mapsto \exp(-s^i)$ 自动解决正定域问题,无需约束优化即可保证良定义的正权重。对 $s^i$ 的梯度:

$$\frac{\partial\mathcal{L}_{bal}}{\partial s^i} = \frac{1}{2} - \exp(-s^i)\cdot\ell^i \tag{15}$$

与 (13) 共享同样的均衡条件 $\exp(-s^i) = 1/(2\ell^i)$。

自平衡均衡。令 (15) 为零给出均衡:

$$\exp(-s^i) = \frac{1}{2\ell^i} \tag{16}$$

均衡损失权重与当前重建损失成反比。

均衡稳定性与唯一性。$\mathcal{L}_{bal}$ 对 $s^i$ 的二阶导:

$$\frac{\partial^2\mathcal{L}_{bal}}{\partial(s^i)^2} = \exp(-s^i)\cdot\ell^i > 0 \quad \text{for all } s^i \in \mathbb{R},\, \ell^i > 0 \tag{17}$$

由于目标对每个 $s^i$ 严格凸,均衡 $(s^i)^* = \log(2\ell^i)$ 是唯一全局最小值。在学习率 $\eta$ 下,动态在均衡附近线性化为 $\delta_{t+1} = (1-\eta/2)\delta_t$($\delta_t = s_t^i - (s^i)^*$)。对任意标准学习率 $\eta \in (0,4)$,有 $|1-\eta/2| < 1$,保证指数收敛。该稳定性确保 $s^i$ 在训练中可靠跟踪随 $\theta$ 演化的移动目标 $(s^i)^*$。

动态梯度再分配。$s^i$ 的梯度更新:

$$s_{t+1}^i = s_t^i - \eta\left(\frac{1}{2} - \exp(-s_t^i)\ell_t^i\right) \tag{18}$$

作者的叙述:若域 $i$ 变难($\ell^i$ 增大),括号项在旧均衡处变负,驱动 $s^i$ 下降、增大权重 $\exp(-s^i)$;反之域变易则权重减小——形成负反馈回路,自动把梯度预算重分配给当下最需要的域。训练初期所有域都难、$s^i \approx 0$、权重接近 1;随着易域收敛、其 $s^i$ 增大,机制逐步把容量移向剩余的难域。

与基于梯度的平衡方法对比。GradNorm [13]、PCGrad [27]、MGDA [12] 都在梯度层操作,需要 per-task 梯度访问、投影或 Pareto 优化,开销大且为离散任务边界设计。自平衡损失完全在损失层操作:$\{s^i\}$ 是标量参数,靠标准反向传播更新,仅引入 $N$ 个额外标量。且基于梯度的方法用梯度范数/冲突角度定义难度,训练早期噪声大;自平衡损失沿整条训练轨迹累积 per-field 难度,提供更平滑、更稳定、随特征分布自动适应的信号。

4.3 难度引导去噪(Difficulty-Guided Denoising)

同一组学到的 $\{s^i\}$ 处理注意力层的不均衡。去噪网络的每个 HSTU 层中,域 $i$ 的注意力 query 被调制为:

$$\tilde{q}^i = \exp\!\left(-\frac{s^i}{2}\right)\cdot q^i \tag{19}$$

其中 $q^i = W_Q e^i$ 是标准线性 query 投影。缩放因子 $\exp(-s^i/2)$ 是 homoscedastic 标准差的倒数——难域(小 $s^i$)大、易域(大 $s^i$)小。它抑制已收敛易域的注意力影响、放大流向难域的跨域信息流,不引入任何新参数:query 矩阵 $W_Q$ 与标准 HSTU 共享,$\{s^i\}$ 也已为自平衡损失学好。调制后的注意力输出:

$$\text{Attn}^i = \text{softmax}\!\left(\frac{\tilde{q}^i \mathbf{K}^\top}{\sqrt{d}}\right)\mathbf{V} \tag{20}$$

缩放移动注意力分布,使低难度(易)域更均匀地 attend、对池化表征贡献更柔和;高难度(难)域则更选择性地 attend 到最相关上下文。

为何调制 query 而非 key/value?域 $i$ 的 query 决定它多激进地从所有其他域聚合信息。压制易域的 query 降低其外向注意力质量,使其成为更被动的信息接收者——这正是想要的,因为易域已收敛、不该驱动去噪计算。相反,调制 key 会控制其他域多大程度 attend 到域 $i$(即缩放域 $i$ 对其他域输出的贡献),调制 value 会缩放域 $i$ 自身的贡献——二者都不能直接刻画"控制域 $i$ 自身的信息聚合行为"这一目标。

与自平衡损失的系数对齐。选 $\exp(-s^i/2)$ 而非 $\exp(-s^i)$ 是刻意的。自平衡损失里权重 $\exp(-s^i)$ 作为乘子作用在标量损失 $\ell^i$ 上;注意力机制里 query 按 $\exp(-s^i/2)$ 缩放,直接调制 pre-softmax logits 的幅度。难域小 $s^i$ → 更大 query 范数 → 更尖锐注意力分布、更激进地 attend 最相关上下文键;易域大 $s^i$ → 更小 query 范数 → 更柔和、更均匀的注意力、降低其对池化表征的影响。因此注意力调制与损失再加权定性一致——都压制易域、放大难域,两组件相互强化而非冲突(见 Figure 2d)。

4.4 生成训练目标

预训练目标。HeteGenCTR 沿用 DGenCTR 的耦合两阶段范式:预训练重建所有域(含被当作额外特征域的点击标签),但把 (5) 的均匀损失聚合替换为自平衡目标;标签域在预训练中仍像 DGenCTR 那样被精确重建。总预训练损失:

$$\mathcal{L}_{pretrain} = \sum_{i=1}^N \left[\exp(-s^i)\cdot\ell^i + \frac{s^i}{2}\right] \tag{21}$$

$\theta$ 与 $\{s^i\}$ 都通过梯度下降更新。

算法 1(HeteGenCTR 生成预训练)

  • 输入:训练集 $\mathcal{D}$、扩散步数 $T$、离散化分桶数 $B$;输出:训练好的去噪网络 $p_\theta$ 与 log-难度参数 $\{s^i\}$。
  • 初始化 $p_\theta$ 与 $\{s^i = 0\}_{i=1}^N$;
  • 对每个训练 batch $\{\mathbf{F}_n\}$:
  • 用类型特定编码器把每个域 $f_n^i$ 编码为 $e_n^i$;
  • 采样时间步 $t \sim \text{Uniform}(1, T)$;
  • 对每个域 $i$:用 per-field schedule $\gamma^i(t)$ 采样 $\mathbf{x}_t^i \sim q(\cdot\mid f_n^i)$;
  • 计算难度引导 query $\tilde{q}^{i,n} = \exp(-s^i/2)\cdot W_Q e_n^i$;
  • 用调制注意力对所有域预测 $p_\theta(f_0^i \mid \{\mathbf{x}_t^{i,n}\}_j, t)$;
  • 计算所有输入域的 per-field 重建损失 $\ell^i$;
  • $\mathcal{L} \leftarrow \sum_i[\exp(-s^i)\ell^i + s^i/2]$(仅输入特征损失走自平衡;标签预测损失如 DGenCTR 保留);
  • 对 $\mathcal{L}$ 做梯度下降更新 $\theta$ 与 $\{s^i\}$。

CTR 定向微调。第二阶段预训练打分函数与全部网络参数被直接继承、微调用于精确 CTR 预测,与 DGenCTR 一致。关键点:继承的打分函数与训练目标保持不变,唯一区别是预训练网络参数现在编码了更高质量、异质感知的特征表征——自平衡机制确保难域在第一阶段获得充分梯度信号。由于标签感知生成目标((3))数学上等价于 CTR 校准损失,预训练学到的打分函数已与下游 CTR 目标对齐。第二阶段最小化标准二元交叉熵:

$$\mathcal{L}_{SFT} = -y\log\sigma(z) - (1-y)\log(1-\sigma(z)) \tag{22}$$

$$z = \mathcal{F}(y=1\mid\mathbf{F}) - \mathcal{F}(y=0\mid\mathbf{F}) \tag{23}$$

实验设置

数据集(4 个大规模公开 + 1 个工业):

数据集 #Fields #Impressions #Positive 特征类型
Criteo 39 45M 26% num/cat
Avazu 23 40M 17% cat
KDD12 11 60M 4.5% cat
Amazon (Electronics) 18 12M 8.3% ID/cat/seq
Industrial 68 513M 2.5% all
  • Criteo:展示广告 CTR 基准,13 个稠密数值 + 26 个高基数类别,混合特征类型的均衡测试;
  • Avazu:10 天移动广告日志,23 个类别域,特征压倒性稀疏,是高稀疏鲁棒性的强测试;
  • KDD12:搜索广告,11 个类别域描述 user-query-ad 交互,类别极不均衡(CTR < 5%);
  • Amazon (Electronics):含 user ID、item ID、品类、品牌、历史行为序列——是最异质的公开基准,直接测试处理多样域类型的能力;
  • Industrial:某大规模电商在线展示广告系统专有数据集,68 个特征域跨数值/低高基数类别/user-item ID/变长行为序列;训练用最近 20 天 impression,测试用次日留出曝光样本,高异质 + 真实长尾分布,是最具挑战的评测。

对手:判别式(DeepFM、DCN、AutoInt、FiBiNet、MaskNet、PEPNet)、通用架构(HSTU)、生成式(GenCTR、DGenCTR、SGCTR)。

实现细节:TensorFlow,8×NVIDIA A100,Adam 优化器,Xavier 初始化,ReLU 激活。embedding 维度公开数据集 32、工业 8;batch size 4096;学习率搜索 $\{3\text{e-}3, \dots, 1\text{e-}5, 0\}$,$L_2$ 正则 $\{3\text{e-}6, \dots, 0\}$。扩散过程 $T = 100$ 步,per-field cosine noise schedule(沿用 DGenCTR);生成预训练默认 $N_{pretrain} = 10$ epoch;数值离散化分桶 $B = 100$;log-难度参数 $\{s^i\}$ 初始化为 0。去噪网络用 HSTU 架构(沿用 DGenCTR,本文核心设计与之正交);推理沿用 SGCTR 的 masked 生成范式以高效服务。

评估指标:AUC(越高越好)、LogLoss(二元交叉熵,越低越好)。

主要实验结果(RQ1)

Table 2 给出五数据集整体预测性能($^*$ 表示 $p<0.05$ 显著性检验):

方法 Criteo AUC Criteo LogLoss Avazu AUC Avazu LogLoss KDD12 AUC KDD12 LogLoss Amazon AUC Amazon LogLoss Industrial AUC Industrial LogLoss
DeepFM 0.7692 0.4713 0.7756 0.4469 0.7933 0.1422 0.8021 0.2314 0.7785 0.0852
DCN 0.7703 0.4703 0.7762 0.4458 0.7941 0.1426 0.8035 0.2301 0.7792 0.0851
AutoInt 0.7695 0.4710 0.7748 0.4473 0.7928 0.1429 0.8019 0.2318 0.7823 0.0847
FiBiNet 0.7732 0.4691 0.7759 0.4456 0.7968 0.1402 0.8043 0.2287 0.7825 0.0844
MaskNet 0.7882 0.4644 0.7813 0.4415 0.8012 0.1381 0.8074 0.2265 0.7846 0.0831
PEPNet 0.7981 0.4498 0.7944 0.4402 0.8041 0.1370 0.8096 0.2247 0.7904 0.0817
HSTU 0.7993 0.4483 0.7902 0.4403 0.8087 0.1358 0.8112 0.2235 0.7926 0.0814
GenCTR 0.8003 0.4472 0.7931 0.4391 0.8091 0.1354 0.8118 0.2231 0.7934 0.0810
DGenCTR 0.8024 0.4459 0.7947 0.4383 0.8106 0.1348 0.8127 0.2219 0.7948 0.0806
SGCTR 0.8031 0.4455 0.7953 0.4378 0.8118 0.1342 0.8139 0.2211 0.7956 0.0804
HeteGenCTR 0.8048$^*$ 0.4445$^*$ 0.7962$^*$ 0.4373$^*$ 0.8127$^*$ 0.1334$^*$ 0.8157$^*$ 0.2188$^*$ 0.7974$^*$ 0.0799$^*$

结论分析: 1. 生成式 > 判别式:生成式 baseline(GenCTR/DGenCTR/SGCTR)一致超过最好的判别式模型,证实生成预训练的价值——重建对所有域提供密集监督,判别式每样本只得一个二值信号。 2. HeteGenCTR > 所有生成式 baseline:在最强生成式 baseline SGCTR 之上仍有一致提升(相对 SGCTR:Criteo +0.0017、Avazu +0.0009、KDD12 +0.0009、Amazon +0.0018、Industrial +0.0018 AUC)。现有生成式方法用均匀损失权重让易域主导梯度、把高基数 ID 与序列域留在欠拟合状态;自平衡损失把梯度预算重分配给难域、难度引导注意力阻止已收敛易域垄断跨域信息流,组合产生对承载最强个性化信号的域更高质量的重建。 3. 增益在异质性最高的数据集上最大:Amazon 与 Industrial(特征类型多样性最高)增益最显著——异质性高时易难差距更大、均匀权重 baseline 更次优、再平衡的修正作用更大。Criteo/Avazu 难度差距本就较小,再平衡增益被削弱但仍一致显著。 4. LogLoss 同步改善:对难域更好的重建产出更有信息的 embedding,不仅提升排序质量也改善概率校准。

消融与分析

消融研究(RQ2)

Figure 3: 两种变体的消融结果(HSTU 骨干,Industrial 数据集上 ID/序列域是主要贡献来源)。

两个变体:

  • HeteGenCTR-FIX:禁用自平衡损失(域权重退回均匀),保留难度引导注意力调制;log-难度参数 $\{s^i\}$ 仍学习,但其梯度仅来自注意力调制通路。
  • HeteGenCTR-STD:禁用难度引导注意力调制(退回标准未调制注意力),保留自平衡损失;$\{s^i\}$ 仅从损失再加权梯度学习。

结论:FIX 保留注意力调制但用均匀域权重,没有自适应梯度再分配时易域仍主导训练预算,单靠注意力调制无法补偿无监督学到的贫弱 embedding。恢复自平衡损失(Full vs FIX)在每个数据集都带来可观 AUC 提升,证实损失层再加权是主要驱动;增益在 Amazon 与 KDD12(异质性最高)最大。STD 用自平衡损失但标准注意力,即便梯度平衡,HSTU 注意力在表征层仍可能被易域不成比例影响;加入难度引导注意力调制(Full vs STD)进一步提升——抑制易域 query、让难域施加更强跨域影响。$\exp(-s^i/2)$ 系数的推导确保注意力层加权与损失层加权对齐、强化同一难度信号。FIX < STD < Full 的渐进改善确认每个机制提供独立、可加的价值,统一 $\{s^i\}$ 信号成功协调两组件。在 Industrial 上 ID 与序列域是整体 AUC 增益的主要贡献者:单独对 ID 域施加自平衡贡献最大单域增益,其次序列域,类别/数值域增益较小但一致;组件效应次可加(sub-additive,因共享表征空间),完整 HeteGenCTR 取得最大整体增益。

难度参数分析(RQ3)

Figure 4: 学到的难度参数分析。(a) 训练中 $\exp(s^i)$ 演化;(b) 收敛的 per-field 损失权重 $\exp(-s^i)$ 与注意力缩放 $\exp(-s^i/2)$;(c) 按用户活跃度分层的 AUC。

难度演化(Figure 4a):训练初期所有 $\exp(s^i) \approx 1$(对应 $s^i=0$ 初始化)。随训练推进,数值与低基数类别域的 $\exp(s^i)$ 急剧上升,表明模型已掌握这些域、其有效损失权重已被显著减小;而 ID 与序列域的 $\exp(s^i)$ 上升慢得多,反映持续偏高的重建难度、为这些域维持强梯度信号。这一差异化演化确认自平衡机制按设计工作。

收敛权重(Figure 4b):Industrial 上收敛的 per-field 有效损失权重 $\exp(-s^i)$ 与注意力缩放 $\exp(-s^i/2)$——ID 域损失权重约 0.46(注意力缩放 0.68)、序列域 0.28(0.53)、类别域 0.13(0.36)、数值域 0.09(0.30)。论文表述 ID 与序列域收敛到使其保留较大有效权重、数值与低基数类别域获较小有效权重;关键是注意力缩放与损失权重保持同样的秩序,确认两机制由同一学到信号驱动、训练中相互一致。

生成质量与下游 CTR(RQ4)

Per-field 生成质量:在留出验证集上测重建准确率(离散域用类别准确率、数值域用分桶准确率)。HeteGenCTR vs DGenCTR:ID 域 +4.3% 绝对提升、序列域 +2.8%、类别域 +1.1%、数值域 +0.9%。这确认自平衡机制专门提升了最难重建、对下游 CTR 最有信息的域类型的生成质量。

按域类型的下游影响:构造受控变体,每次只对一种域类型应用自平衡机制(其余用 DGenCTR 均匀生成)。Industrial 结果确认 ID 与序列域是整体 AUC 增益的主要来源;per-type 效应次可加(共享表征空间所致),完整版取得最大整体增益——验证异质自平衡通过专门增强最难、最有信息的域类型的生成质量来改善下游 CTR。

预训练敏感性与成本(RQ5)

Figure 5: 预训练敏感性分析(左:预训练 epoch 数;右:扩散步数 T)。

对预训练 epoch $N_{pretrain}$ 的敏感性:下游 AUC 随预训练 epoch 单调改善,从 1 epoch 的 0.7948 升到 5 epoch 的 0.7961,最大边际增益出现在 1→3 epoch(+0.0009)。确认自平衡机制需要足够预训练迭代来发现并稳定 per-field 难度估计;太少 epoch 时 $\{s^i\}$ 未收敛、梯度再分配仍次优;超过 3 epoch 收益递减,表明难度参数已大致达到稳定均衡。

对扩散步数 $T$ 的敏感性:$T=50 \to T=100$ 时 AUC 从 0.7959 升到 0.7974,随后 $T=200/300/500$ 平台化(0.7974/0.7974/0.7973)。与 DGenCTR 观察一致——适中扩散步数提供足够噪声粒度即可有效生成预训练,过多步数只增计算无下游收益。

训练开销(Table 3,相对单阶段 DeepFM 归一化):

方法 预训练 微调 总计
DGenCTR 1.8× 0.4× 2.2×
SGCTR 2.1× 0.5× 2.6×
HeteGenCTR 2.0× 0.4× 2.4×

HeteGenCTR 预训练成本与 DGenCTR 相当。额外开销来自两个轻量加项:(1) per-field log-难度参数更新;(2) 难度引导注意力计算(用一个带缩放的变体替换标准 query 投影、无需额外参数),相对 HSTU 骨干都可忽略。第二阶段微调成本所有生成式方法一致(0.4×),生成预训练阶段离线进行,不增加任何在线服务延迟

冷启动与稀疏用户分析(RQ6)

特征异质性对高基数域稀疏观测的实例(冷启动用户、长尾物品)伤害最大。Industrial 测试集按用户活跃度分层(Table 4):

方法 Cold (<10) Medium (10-100) Active (>100) Overall
DeepFM 0.7421 0.7803 0.8112 0.7785
DGenCTR 0.7514 0.7870 0.8150 0.7948
SGCTR 0.7538 0.7882 0.8159 0.7956
HeteGenCTR 0.7604 0.7921 0.8171 0.7974
Δ vs SGCTR +0.0066 +0.0039 +0.0012 +0.0018

结论:相对 SGCTR 的提升随用户活跃度单调递减:冷用户 +0.0066、中活跃 +0.0039、活跃用户 +0.0012。这确认核心机制——冷用户的 ID embedding 最稀疏、在均匀监督下最难重建,自平衡机制专门把训练容量重分配给这些高难度 ID 域,恰在最需要处产出更高质量特征重建(Figure 4c 可视化此分层改善)。物品长尾分析同样:HeteGenCTR 相对 SGCTR 在尾部(<10 曝光)/腰部/头部物品分别 +0.0091/+0.0051/+0.0019 AUC,镜像冷用户结果。

线上 A/B 测试

在某大规模电商平台做 7 天线上 A/B(2026-05-07 至 05-13)。生产 baseline 是类 PEPNet 判别式架构、无生成预训练。HeteGenCTR 取得 CTR 相对提升 +4.7%($p<0.01$,随机用户级流量切分的双边 $z$ 检验),七天一致。按用户活跃度拆分:冷启动用户 +9.2% CTR、活跃用户 +3.1%,与离线分层分析一致。

服务延迟:生成预训练完全在离线阶段,服务时不调用任何生成组件;部署的 CTR 模型架构上与 baseline 相同,99 分位服务延迟在 baseline 的 0.5ms 以内,远在生产 SLA 之内。

核心贡献总结

  1. 问题识别:首次形式化生成式 CTR 建模中的 generative difficulty imbalance——对异质特征域的均匀损失处理使易域主导训练梯度、压制 ID 与序列域,且这与 DGenCTR 的 noise schedule(解决分布不匹配)正交。
  2. 统一单信号双机制:一组 per-field 可学 log-难度 $\{s^i\}$(源自 Kendall homoscedastic 不确定性加权)同时驱动自平衡损失聚合($\exp(-s^i)$ 加权)与难度引导注意力缩放($\exp(-s^i/2)$ 调制 query),零额外超参,两机制系数设计上对齐、相互强化。
  3. 理论保证:自平衡均衡 $\exp(-s^i)=1/(2\ell^i)$ 是严格凸目标的唯一全局最小值,标准学习率下指数收敛。
  4. 充分验证:五数据集 + 7 天线上 A/B(+4.7% CTR,冷启动 +9.2%),ID 域生成质量 +4.3%,且无在线服务成本。

讨论与局限性

值得借鉴的设计

  • "单一可学信号同时驱动两个层面的修正" 是优雅的设计:用同一组 $\{s^i\}$ 既做损失再加权又做注意力缩放,且通过 $\exp(-s^i)$ 与 $\exp(-s^i/2)$ 的平方根关系保证两者方向一致、不会互相打架——这比 GradNorm/PCGrad 那种重的梯度层操作(需 per-task 梯度、投影、Pareto 求解)便宜得多,仅引入 $N$ 个标量。
  • 把特征域当作多任务,借 Kendall 不确定性加权做损失聚合,是把成熟的多任务学习工具迁移到生成式特征重建场景的合理嫁接;冷启动/长尾分层的单调增益对"难域=高信号域"的机制叙事提供了有力的经验支撑。
  • 工业落地完整:离线预训练、在线零额外延迟、7 天 A/B、按活跃度/曝光度双重分层验证,部署细节与业务收益(冷启动 +9.2% CTR)都交代清楚,工业参考价值高。

局限、争议与需澄清之处

  1. 理论叙述与公式之间存在方向性张力(核心存疑点)。自平衡损失 (14) 与其均衡 (16) $\exp(-s^i)=1/(2\ell^i)$ 是标准的 Kendall homoscedastic 不确定性加权——而该范式的权重与损失成反比。按字面:持续高损失的难域 $\ell^i$ 大 → 均衡权重 $\exp(-s^i)=1/(2\ell^i)$ ,于是难域在 (12) 中贡献的梯度 $\exp(-s^i)\nabla_\theta\ell^i$ 反而被压低。这与论文反复声称的"把更多梯度预算分配给难域"在均衡处方向相反。进一步推敲动态:由 (15) 梯度下降 $s^i \leftarrow s^i - \eta(1/2 - \exp(-s^i)\ell^i)$,当域偏难($\exp(-s^i)\ell^i > 1/2$)时 $\partial\mathcal{L}/\partial s^i < 0$,更新使 $s^i$ 增大、权重 $\exp(-s^i)$ 减小——这与论文"动态梯度再分配"段落"域变难则驱动 $s^i$ 下降、增大权重"的文字描述、以及 Figure 4a"易域 $s$ 快涨/难域 $s$ 低权重高"的注解都自相矛盾。Figure 2c/4b 给出的收敛权重(ID 难域权重最大、数值易域最小)也无法与闭式均衡 $1/(2\ell^i)$ 在给定难度排序下对上。综合看,论文实证增益是真实的(多基准 + 显著性 + A/B),但其"自平衡=给难域更多梯度"的机制解释可能并不准确:真实收益或许来自不确定性加权提供的自适应损失归一化、正则项 $s^i/2$、以及注意力缩放等其他效应,而非所声称的"梯度向难域倾斜"。这一点强烈建议读者回到原文公式自行验证(本精读已给出完整推导)。
  2. 核心技术为既有方法迁移。自平衡损失本质是 Kendall et al. [10] 多任务不确定性加权的直接套用,新颖性主要在"应用场景(per-field 特征重建)+ 注意力缩放的同源扩展",而非全新的优化原理;与"开创性工作"尚有距离。
  3. 两阶段解耦的可扩展性隐患。框架沿用 DGenCTR 的"离线生成预训练 + 在线判别微调"两阶段范式:预训练的去噪/打分函数与下游 CTR 模型无法真正端到端联合优化,参数量 scaling 时"如何表征特征"与"如何建模序列/交互"两条路径难以同步扩张,存在架构瓶颈(参见精读评分标准中对多阶段解耦的提示)。
  4. 去噪骨干固定为 HSTU,核心机制虽声称正交,但所有实验都基于 HSTU,未在其它去噪骨干上验证迁移性。
  5. 部分关键数据仅以图(Figure 3/4/5)呈现,缺少精确数表(如各消融变体在每个数据集上的具体 AUC),可复现性与精确比较受限。

与已有工作的差异:相对直接前身 DGenCTR,HeteGenCTR 不动其 per-field noise schedule(解决分布不匹配),转而新增损失层 + 注意力层的难度再平衡(解决梯度不均衡),两者正交互补;相对 GradNorm/PCGrad/MGDA 等梯度层平衡方法,它完全在损失层用标量参数操作、开销可忽略且更稳定。