1. 研究动机与核心问题¶
近年来,受 LLM scaling law 启发,工业界搜索与推荐系统开始探索模型规模化。然而,作者观察到两个关键瓶颈:
- 纯参数缩放收益递减:随着模型规模增长,边际性能提升持续下降。作者认为瓶颈在于训练数据信息容量有限——在固定数据量下,高表达力模型无法充分发挥潜力。
- 异构数据分布导致性能退化:复杂异构数据分布带来的性能退化,往往无法仅通过模型设计来恢复。
核心假设:数据缩放与架构缩放必须协同演进(synergistic co-design),才能突破性能天花板。
2. UniScale 整体框架¶
UniScale 包含两个核心组件:
- ES3 (Entire-Space Sample System):高质量数据缩放系统,将训练信号从传统搜索曝光样本扩展到包含域内未曝光候选和跨域用户行为的全空间。
- HHSFT (Heterogeneous Hierarchical Sample Fusion Transformer):异构层次化样本融合 Transformer,通过层次化特征交互和全空间用户兴趣融合,有效建模缩放数据带来的复杂异构分布。
3. ES3:全空间采样系统¶
3.1 问题背景¶
传统搜索排序模型仅在搜索曝光样本(exposed samples)上训练,存在三大瓶颈:
- 选择偏差(selection bias):未曝光候选缺乏监督
- 标签稀疏(label sparsity):跨域反馈被丢弃
- 跨域盲区(cross-domain blind spots):非搜索交互被完全排除
ES3 通过两个模块解决这些问题。
3.2 域内样本与标签扩展(Intra-domain Sample and Label Expansion)¶
域内未曝光样本扩展:从每个搜索请求的全候选列表中均匀随机采样未曝光物品,对齐训练分布与推理空间,缓解选择偏差。
层次化标签归因(Hierarchical Label Attribution):直接将未曝光样本作为纯负样本会加剧流行度偏差。论文提出层次化归因机制,系统性地从跨场景行为信号中恢复监督标签:
- 跨域点击(Cross-domain clicks):按优先级归因到 (1) 搜索曝光样本, (2) 未曝光样本
- 跨域转化(Cross-domain conversions):按优先级归因到 (1) 搜索点击样本, (2) 曝光但未点击样本, (3) 未曝光样本
这种双向丰富策略使:(a) 未曝光样本从跨域交互中获得正向监督,变"无信息负样本"为"有监督训练实例";(b) 原搜索曝光样本获得来自延迟跨域转化的补充标签。
3.3 跨域样本搜索化(Cross-domain Sample Searchification)¶
大量非搜索用户交互(如推荐场景的点击)蕴含有价值的跨场景兴趣信号,但存在两个挑战:(1) 样本分布差异;(2) 缺少搜索查询字段,特征 schema 异构。
样本搜索化引擎(Sample Searchification Engine) 将任意用户-物品交互转换为符合搜索样本特征 schema 的训练实例,包含两个核心组件:
负样本生成模块(Negative Sample Generation Module):非搜索场景中同一请求内物品语义异质性大,直接将曝光未点击物品转为负样本会引入查询无关噪声。采用相似性感知负采样:对每个非搜索点击样本,从同一请求曝光序列中选择语义上与点击物品相似的未点击物品作为合成负样本,保持语义一致性。
特征对齐模块(Feature Alignment Module):为非搜索样本生成语义对齐的合成查询,采用三级层次策略: 1. 历史查询复用:优先使用用户对该物品的历史搜索查询 2. 共现统计:无历史查询时,根据物品-查询共现统计选择高频查询 3. 语义检索:无共现数据时,通过 ANN 近邻检索从物品标题 embedding 到全查询语料库中获取最相似查询
最终非搜索点击样本及其合成负样本通过搜索特征日志基础设施处理,生成与原始搜索样本完全对齐的训练实例。
3.4 数据规模影响¶
| 阶段 | Requests | Samples | Click Pos. |
|---|---|---|---|
| Baseline(仅搜索曝光) | 1.0x | 1.0x | 1.0x |
| + 未曝光扩展 | 1.0x | 3.0x | 1.0x |
| + 层次化标签归因 | 1.0x | 3.0x | 2.0x |
| + 跨域样本搜索化 | 2.0x | 5.0x | 4.0x |
ES3 将请求数扩展至 2 倍,样本数扩展至 5 倍,正样本(点击)数扩展至 4 倍。
此外,论文采用 list-wise 数据格式,每行包含一个请求及其候选物品,通过请求级共享用户/查询特征,节省约 50% 存储空间和 IO 操作。
4. HHSFT:异构层次化样本融合 Transformer¶
4.1 异构层次化特征交互(HHFI)¶
标准 Transformer 中 $\mathbf{W}^Q, \mathbf{W}^K, \mathbf{W}^V$ 在所有 token 间共享,但电商搜索中异构输入特征(如用户 ID、连续价格、序列行为特征)来自显著不同的语义空间,共享投影矩阵会导致语义混淆。
特征分块与 Token 化:将输入特征划分为语义一致的块(用户属性、物品属性、查询、序列行为),每个特征块通过 MLP 映射到相同维度的 token 表示。
异构特征注意力层(HFA):包含三个步骤:
1) Token 特定 QKV 投影:第 $l$ 层第 $i$ 个 token 的表示 $h_i^{(l)} \in \mathbb{R}^{d_H}$,使用 token 专属投影矩阵:
$$q_i^{(l)} = h_i^{(l)} \mathbf{W}_i^Q, \quad k_i^{(l)} = h_i^{(l)} \mathbf{W}_i^K, \quad v_i^{(l)} = h_i^{(l)} \mathbf{W}_i^V \tag{1}$$
其中 $\mathbf{W}_i^Q, \mathbf{W}_i^K, \mathbf{W}_i^V \in \mathbb{R}^{d_H \times d_H}$ 为 token 专属权重,捕捉每个特征域的独特语义特征。
2) 多头自注意力(MHSA):在投影向量上执行标准 MHSA,建模跨特征交互。
3) Token 专属 FFN:注意力后每个 token 送入块专属 FFN 进行非线性变换:$h_i^{(l+1)} = \text{FFN}_i(a_i^l)$。堆叠 $L_H$ 层。
全局特征注意力层(GFA):在异构特征注意力层之上,通过复合投影机制建模所有 token 间的高阶交互。将 $n$ 个 token 的 HFA 输出通过复合投影矩阵 $\tilde{W}^K \in \mathbb{R}^{(n \cdot d_H) \times d_G}$ 投影为 $m$ 组维度 $d_G$ 的向量:
$$\tilde{k}_j = \text{concat}([h_1^{L_H}, \ldots, h_n^{L_H}]) \tilde{W}_j^K \tag{2}$$
$\tilde{q}_j$ 和 $\tilde{v}_j$ 同理。通过多头自注意力融合后,堆叠 $L_G$ 层全局特征注意力模块,得到最终表示 $\mathbf{Z} \in \mathbb{R}^{d_Z}$。
4.2 全空间用户兴趣融合(ESUIF)¶
直接混合跨域数据会导致严重负迁移。ESUIF 通过两个互补组件联合学习跨域统一用户兴趣表示。
域路由专家融合(Domain-Routed Expert Fusion, DREF):与传统 MoE 所有专家被所有样本更新不同,引入样本路由约束:将专家分为域共享专家 $f_s$ 和域专属专家 $f_d$。$f_s$ 接收所有样本 $X$ 学习跨域共性,$f_d$ 仅接收对应域样本 $X_d$ 学习域特有模式,从而在优化层面隔离跨域噪声。
对每个样本表示 $z \in \mathbf{Z}$,共享专家输出 $f_s(z)$,域专属专家输出 $f_d(z)$。通过门控网络进行样本级自适应融合:
$$[\alpha_s, \alpha_d] = \text{softmax}(g_{\text{moe}}(z)) \tag{3}$$
$$e = \alpha_s \cdot f_s(z) + \alpha_d \cdot f_d(z) \tag{4}$$
域感知个性化门控注意力(Domain-Aware Personalized Gated Attention, DAPGA):DREF 在单域内运行,DAPGA 则实现跨域知识传递。提出域感知注意力(Domain-Aware Attention)机制,具有"跨域前向可见、域内反向隔离"的特性:
$$O = [o^{cur}, \text{sg}(o^1), \ldots, \text{sg}(o^N)] \tag{5}$$
$$q_i^{cur} = o^{cur} \mathbf{W}^Q, \quad K = O\mathbf{W}^K, \quad V = O\mathbf{W}^V \tag{6}$$
其中 $\text{sg}(\cdot)$ 表示梯度停止(stop gradient)。当前域表示作为 query,所有域表示作为 key 和 value,通过缩放点积注意力(SDPA)选择性地从辅助域传递知识到目标域。反向传播时通过损失 masking 和梯度停止防止跨域梯度干扰。
此外,引入轻量级 sigmoid 门控网络,以用户静态特征 $u$ 和域特征 $d$ 为输入,生成逐元素缩放向量 $\gamma$ 增强跨域迁移的个性化和域感知:
$$\boldsymbol{\gamma} = \phi(W[\text{Emb}_u; \text{Emb}_d] + b) \tag{7}$$
$$\tilde{o} = \boldsymbol{\gamma} \odot \hat{o} \tag{8}$$
4.3 损失函数¶
每个域有独立输出头。样本 $\mathbf{x}$ 在域 $d$ 下的预测值为 $\hat{y}^{(d)}$,训练目标为最小化各域二元交叉熵损失之和:
$$\mathcal{L}(\theta) = -\sum_{d \in \mathcal{D}} \sum_{(\mathbf{x}, y) \in \mathcal{S}_d} \left[ y \log \hat{y}^{(d)} + (1 - y) \log(1 - \hat{y}^{(d)}) \right] \tag{9}$$
虽然多域联合训练,但生产环境中仅部署搜索域($d = \text{search}$)。辅助域用于知识迁移。
5. 训练与部署优化¶
5.1 训练优化¶
- 高并发数据读取器(High-Concurrency Data Reader):辅助异步预读取器处理大规模特征数据的 I/O 瓶颈
- 特征预哈希(Feature Pre-hashing):将原始字符串特征的哈希过程前移到数据流水线最早阶段,减少内存开销
- RDMA 高性能集群通信:用 RDMA 替代 TCP 协议用于分布式训练域间通信
5.2 推理优化¶
- FP16 量化:半精度推理,最大化 GPU 吞吐
- Tile-Level 算子下推(Operator Push-Down):将轻量级操作(scaling、bias)直接集成到 embedding 查找阶段
- 融合 Masked QKV 注意力(Fused Masked QKV Attention):自定义融合 kernel 将整个 QKV 注意力流水线(投影、转置、masking)合并为单一操作
工程优化使 GPU 推理成本降低约 55%,训练开销降低约 40%。
6. 实验结果¶
6.1 离线实验设置¶
- 数据集:淘宝电商数据集,数十亿用户-物品交互
- 评估指标:AUC(user-query-wise)、GAUC(Group-AUC)、Hitrate@5(HR@5)
- 离线评估集:仅包含搜索域样本的 held-out 测试集
- 行业经验:AUC 提升 0.05% 即可被视为有信心的改进
6.2 推荐模型对比(Table 2)¶
| Model | AUC | GAUC | Params(M) | TFLOPs |
|---|---|---|---|---|
| DLRM-MLP (base) | - | - | 15 | 0.42 |
| DCNv2 | +0.08% | +0.01% | 24 | 0.65 |
| AutoInt | +0.26% | +0.14% | 150 | 1.19 |
| HiFormer | +0.54% | +0.49% | 170 | 1.98 |
| Wukong | +0.21% | +0.13% | 32 | 0.94 |
| RankMixer | +0.38% | +0.32% | 140 | 1.93 |
| HHSFT | +0.82% | +0.62% | 300 | 1.22 |
| HHSFT+ES3 | +1.14% | +0.86% | 300 | 1.22 |
关键发现:
- Transformer 架构优越性:Transformer 类模型(AutoInt、HiFormer、HHSFT)一致优于传统 DNN 和 FM 方法(DCNv2、Wukong),证明显式注意力机制在捕捉复杂高阶特征交互方面的有效性。
- 层次化特征交互有效性:HHSFT 在 AUC (+0.82%) 和 GAUC (+0.62%) 上大幅领先 HiFormer (+0.54%, +0.49%) 和 Wukong (+0.21%, +0.13%),且在相近参数量(300M vs 170M/32M)下取得,验证异构特征注意力层和全局特征注意力层的设计有效性。
- 数据与架构协同效应:HHSFT+ES3 (+1.14%, +0.86%) 比仅 HHSFT 额外提升 +0.32% AUC,且该提升高度依赖架构——同样的数据扩展在标准 backbone 上反而导致 AUC 下降 -0.43%(见 Table 4),说明 HHSFT 的路由机制对于将异构样本的"表示干扰"转化为"信息增益"至关重要。
6.3 HHFI 消融实验(Table 3)¶
| Setting | MLP | Transformer | Heterogeneous Attention | HHFI |
|---|---|---|---|---|
| AUC gain | - | +0.17% | +0.41% | +0.80% |
- Transformer backbone:替换 DNN-MLP 为基础 Transformer 即有显著提升,确认自注意力在特征交互建模中优于 MLP
- 异构注意力有效:Token 专属 QKV 投影和 FFN 进一步提升性能,验证区分异构特征语义可缓解表示歧义
- 层次化交互有价值:添加全局特征交互层进一步增强高阶交互,超越成对依赖
6.4 ESUIF 消融实验(Table 4)¶
| Sample | Setting | AUC | GAUC | HR@5 |
|---|---|---|---|---|
| search | HHSFT | - | - | - |
| search | HHSFT+DREF+DAPGA | +0.02% | +0.01% | +0.02% |
| ES3 | HHSFT | -0.43% | -0.24% | -4.76% |
| ES3 | HHSFT+DREF | +0.19% | +0.25% | +0.39% |
| ES3 | HHSFT+DAPGA | +0.22% | +0.18% | +0.17% |
| ES3 | HHSFT+DREF+DAPGA | +0.32% | +0.26% | +0.44% |
关键发现:
- HHSFT + 全空间数据直接混合导致负迁移:仅用 HHSFT backbone 混合跨域数据,所有指标显著下降(AUC -0.43%,HR@5 -4.76%),确认严重负迁移现象。
- DREF 有效:通过硬路由显式解耦共享与域专属表示,有效抑制跨域噪声,在域内训练基础上带来稳定提升。
- DAPGA 有效:通过个性化门控和注意力机制自适应调节目标域表示,将跨域信号对齐到上下文意图,在 DREF 基础上进一步提升。
- ESUIF 各组件叠加效果良好:组合效果(+0.32%/+0.26%/+0.44%)优于单独使用任一组件。
6.5 Scaling Law 验证(Figure 4)¶
基础 HHSFT 配置:异构特征注意力 1 层、token 维度 $d_H = 1648$;全局特征注意力 1 层、token 维度 $d_G = 256$、token 数 $m = 8$。
模型缩放:固定搜索域数据,缩放全局特征注意力维度 $d_G$ 的收益显著高于缩放异构特征注意力维度 $d_H$(如 +0.30% vs +0.17% ΔAUC at 4x),验证 HHSFT 层次化设计将容量策略性分配给高阶融合组件以最大化缩放效率。
协同缩放效应:关键发现——HHSFT 仅用搜索数据(HHSFT+Search)与 HHSFT 利用全异构数据(HHSFT+ES3)之间的性能差距,随模型缩放渐进扩大(从 1x 时 +0.12% ΔAUC 到 4x 时 +0.32%)。这验证了协同缩放律:模型与数据的协同演进产生非线性加速收益,更大架构从多样化数据源中解锁渐进增长的回报。
6.6 在线 A/B 测试¶
在淘宝搜索平台进行 10 天 A/B 测试,实验组分配 5% 生产流量,对照组使用生产 DNN baseline:
- 购买量提升 1.70%
- GMV 提升 2.04%
基于淘宝平台的巨大用户基数和交易量,这些增益具有统计显著性,代表可观的增量收入。
7. 核心贡献总结¶
- 识别数据-架构协同缩放的重要性:指出传统采样策略的根本局限性,提出数据与架构协同优化的 UniScale 框架,突破有限信息和偏差学习导致的性能瓶颈。
- ES3 全空间采样系统:通过域内未曝光扩展、层次化跨域标签归因、跨域样本搜索化三个机制,将训练数据从搜索曝光扩展到全用户行为空间,同时缓解负迁移。
- HHSFT 异构层次化融合 Transformer:通过 token 专属投影的异构特征交互、全局特征注意力、域路由专家融合和域感知个性化门控注意力,有效建模大规模异构数据分布。
- 验证协同缩放律:架构缩放放大数据多样性的边际效用,数据与模型协同演进产生超线性收益。