← Back to list
UniMixer

UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

判别式推荐 Kuaishou
Abstract 8 Reading 7 Rating —
2026-04-01
Mingming Ha, Guanchen Wang, Linxun Chen, Xuan Rao, Yuexin Shi, Tianbao Ma, Zhaojie Liu, Yunqian Fan, Zilong Lu, Yanan Niu, Han Li, Kun Gai
Kuaishou Technology
提出UniMixer统一架构,通过参数化TokenMixer建立attention、TokenMixer和FM三大推荐Scaling模块的理论联系,并设计轻量UniMixing-Lite模块实现最优Scaling效率
transformer feature-interaction parameter-scaling ad-rec industrial

UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

1. 核心问题与动机

推荐系统领域近年来借鉴LLM的Scaling Law思想,通过设计可堆叠的Scaling模块并增加模型深度来建立模型性能与参数量/FLOPs之间的Scaling Law。目前主要存在三种Scaling架构范式:

  1. Attention-based:如HiFormer、FAT、HHFT,使用token-specific的Q/K/V投影实现异构特征交互
  2. TokenMixer-based:如RankMixer、TokenMixer-Large,使用无参数的规则token mixing操作
  3. FM-based:如Wukong、Kunlun,通过Factorization Machine Block建模特征交互

这三类方法在设计哲学和结构上存在本质差异,但都展现了Scaling能力。论文提出一个核心问题:能否构建一个统一的Scaling模块,融合三类方法的优势?

2. 方法详解

2.1 Feature Tokenization

输入特征 $\mathbf{X}$ 按语义类别划分为 $N$ 个不相交的特征域:

$$\mathbf{X} = \left[\underbrace{\mathbf{x}_U^{(1)}, \ldots, \mathbf{x}_U^{(n_U)}}_{\text{User Profile}}, \underbrace{\mathbf{x}_I^{(1)}, \ldots, \mathbf{x}_I^{(n_I)}}_{\text{Item Features}}, \underbrace{\mathbf{x}_B^{(1)}, \ldots, \mathbf{x}_B^{(n_B)}}_{\text{Behavior Sequence}}, \underbrace{\mathbf{x}_Q^{(1)}, \ldots, \mathbf{x}_Q^{(n_Q)}}_{\text{Query Features}}, \ldots\right]$$

每个特征域通过独立的embedding层映射为 $d_{\text{domain}}$ 维向量:

$$\mathbf{e}_n = \text{Embedding}(\mathbf{X}_{\text{domain}}) \in \mathbb{R}^{d_{\text{domain}}}$$

所有域的embedding拼接后均匀分块,通过token-specific线性层投影为token embedding:

$$\boldsymbol{x}_i = W_i^{\text{proj}} \mathbf{E}_{d_i:d_{i}+d} + \mathbf{b}_i^{\text{proj}} \in \mathbb{R}^D$$

2.2 TokenMixer的等价参数化

论文的关键发现是TokenMixer操作可以等价表示为一个置换矩阵 $W^{\text{perm}}$ 与展平输入的矩阵乘法:

$$\text{TokenMixer}(X) = \text{reshape}(W^{\text{perm}} \text{flatten}(X))$$

其中 $W^{\text{perm}} \in \mathbb{R}^{TD \times TD}$ 是一个大型置换矩阵。

置换矩阵 $W^{\text{perm}}$ 的性质

  • 可压缩性 (Compressibility):$W^{\text{perm}} = G \otimes I$,其中 $I \in \mathbb{R}^{\frac{D}{T} \times \frac{D}{T}}$ 是单位矩阵,$G \in \mathbb{R}^{T^2 \times T^2}$,$\otimes$ 是Kronecker积
  • 双随机性 (Doubly Stochastic):每行每列之和为1
  • 稀疏性 (Sparsity):每行/每列恰好有一个非零元素
  • 对称性 (Symmetry):当 $T = H$ 时,$W^{\text{perm}}$ 是对称矩阵

2.3 UniMixing模块

基于上述发现,论文定义block size $B$,blocks数量为 $(L // B)^2$,其中 $L$ 是embedding维度。通过参数化矩阵 $W_G$(全局mixing)和 $\{W_B^i\}$(局部mixing),构建UniMixing模块:

$$\text{UniMixing}(X) = \text{reshape}\left(\left(W_G \otimes \{W_B^i\}_{i=1}^{L//B}\right) \text{flatten}(X), 1, L\right)$$

计算流水线优化

先将 $\text{flatten}(X)$ 均匀分为 $L//B$ 个向量:

$$\left[\boldsymbol{x}_1 | \boldsymbol{x}_2 | \ldots | \boldsymbol{x}_{\frac{L}{B}}\right] = \text{Split}\left(\text{flatten}(X), \frac{L}{B}\right)$$

然后分别与block权重相乘得到局部特征交互:

$$\text{reshape}\left(H, \frac{L}{B}, B\right) = \begin{bmatrix} \boldsymbol{x}_1 W_B^1 \\ \vdots \\ \boldsymbol{x}_{\frac{L}{B}} W_B^{\frac{L}{B}} \end{bmatrix}$$

最终输出:

$$\text{UniMixing}(X) = \text{reshape}\left(W_G \text{reshape}\left(H, \frac{L}{B}\right), 1, L\right)$$

该优化将计算复杂度从 $O(L^2)$ 降至 $O(L^2/B + LB)$。

2.4 约束满足

为使学习到的参数矩阵满足双随机性、稀疏性和对称性:

  • 对称性:$\tilde{W}_G = \frac{W_G + W_G^\top}{2}$,$\tilde{W}_B^i = \frac{W_B^i + W_B^{i\top}}{2}$
  • 双随机性和稀疏性:通过Sinkhorn-Knopp迭代和温度系数控制

$$\hat{W}_G = \text{Sinkhorn-Knopp}\left(\frac{\tilde{W}_G}{\tau}\right), \quad \hat{W}_B^i = \text{Sinkhorn-Knopp}\left(\frac{\tilde{W}_B^i}{\tau}\right)$$

残差连接和归一化处理输出:

$$O = \text{RMSNorm}(X + \text{UniMixing}(X))$$

2.5 统一理论框架

论文建立了统一的特征交互理论框架(公式17):

$$\text{UniMixing}(X) = \text{reshape}\left(\underbrace{G(X, W_G)}_{\text{Global Mixing Pattern}} \begin{bmatrix} \boldsymbol{x}_1 W_B^1 \\ \vdots \\ \boldsymbol{x}_{\frac{L}{B}} W_B^{\frac{L}{B}} \end{bmatrix}_{\text{Local Mixing Pattern}}, 1, L\right)$$

方法 Local Mixing Pattern Global Mixing Pattern $G(X, W_G)$
Self-Attention $XW_V$ $\text{softmax}\left(\frac{(XW_Q)(XW_K)^\top}{\sqrt{d}}\right)$
Heterogeneous Attention $X\tilde{W}_V$ $\text{softmax}\left(\frac{(X\tilde{W}_Q)(X\tilde{W}_K)^\top}{\sqrt{d}}\right)$
TokenMixer $X$ $G$
FM $Y$ $XI(XI)^\top$

关键联系

  • 当 $L//B = T$ 且 $W_V^{1h} = W_B^i$ 时,UniMixer的局部交互投影等价于异构attention的value投影
  • $W_G$ 的角色与attention权重相同,但需满足双随机性、稀疏性和对称性约束
  • 当attention中 $W_Q = I, W_K = I, V_h = W_V = Y$ 时,attention退化为FM模块

2.6 UniMixing-Lite

为进一步降低参数量和计算成本,设计了轻量化的UniMixing-Lite模块:

局部交互的basis-composed策略:定义一组basis矩阵 $\{Z_\ell\}_{\ell=1}^b$ 和block-specific权重向量 $\{\boldsymbol{\omega}^i\}_{i=1}^{L//B}$:

$$W_B^{*i} = \text{Sinkhorn-Knopp}\left(\sum_{\ell=1}^{b} \omega_\ell^i Z_\ell\right)$$

全局交互的低秩近似:用 $A_G B_G$ 近似 $W_G$,其中 $A_G \in \mathbb{R}^{(L//B) \times r}$,$B_G \in \mathbb{R}^{r \times (L//B)}$:

$$W_r = \text{Sinkhorn-Knopp}(A_G B_G)$$

完整的UniMixing-Lite公式:

$$\text{UniMixing-Lite}(X) = \text{reshape}\left(W_r \text{reshape}\left(\left[\boldsymbol{x}_1 W_B^{*1} | \ldots | \boldsymbol{x}_{\frac{L}{B}} W_B^{*\frac{L}{B}}\right], \frac{L}{B}, B\right), 1, L\right)$$

2.7 Pertoken SwiGLU

每个token使用独立的SwiGLU前馈网络建模特征异构性:

$$\text{pSwiGLU}(\boldsymbol{o}_i) = W_{\text{down}}^i ((W_{\text{up}}^i \boldsymbol{o}_i + b_{\text{up}}^i) \odot \text{Swish}(W_{\text{gate}}^i \boldsymbol{o}_i + b_{\text{gate}}^i)) + b_{\text{down}}^i$$

2.8 SiameseNorm

引入SiameseNorm解决Pre-Norm和Post-Norm之间的矛盾,维护两个耦合流 $\bar{X}_\ell$ 和 $\bar{Y}_\ell$:

$$\bar{Y}_\ell = \text{RMSNorm}(\bar{Y}_\ell), \quad O_\ell = \text{UniMixer}(\bar{X}_\ell + \bar{Y}_\ell)$$ $$\bar{X}_{\ell+1} = \text{RMSNorm}(\bar{X}_\ell + O_\ell), \quad \bar{Y}_{\ell+1} = \bar{Y}_\ell + O_\ell$$

最终输出:

$$X_{\text{output}} = \bar{X}_M + \text{RMSNorm}(\bar{Y}_M)$$

2.9 温度退火训练策略

温度系数 $\tau$ 控制参数矩阵的稀疏度。采用线性温度退火:

$$\tau_j = \max\left\{\tau_{\text{start}} - \frac{(\tau_{\text{start}} - \tau_{\text{end}})j}{J}, \tau_{\text{end}}\right\}$$

从较高初始温度(如 $\tau = 1.0$)逐渐退火至 $\tau = 0.05$。也可采用两阶段策略:先用高温cold-start训练,再用低温重训。

3. 实验

3.1 实验设置

  • 数据集:快手广告投放场景的真实logged数据,包含超过7亿用户样本,覆盖一年
  • 标签:二元标签(User Retention = 1/0),表示用户激活后次日是否回访快手
  • 特征:数百个异构特征(数值特征、ID特征、交叉特征、序列特征)
  • 评估指标:AUC、UAUC(User-Level AUC)评估性能;参数量、FLOPs、MFU评估效率
  • 训练设置:40 GPU混合分布式训练,Adam优化器,学习率0.001

Baselines

  • Attention-based:Heterogeneous Attention、HiFormer、FAT
  • TokenMixer-based:RankMixer、TokenMixer-Large
  • FM-based:Wukong

3.2 主实验结果(~100M参数)

Table 2: 约100M参数UniMixer与SOTA模型在广告场景的性能和效率对比

Model AUC $\Delta$AUC UAUC $\Delta$UAUC Params FLOPs/Batch
Heterogeneous Attention [1] 0.744577 - 0.733829 - 132.7M 1.68T
HiFormer [1] 0.741685 -0.2892% 0.731086 -0.2743% 107.5M 1.37T
Wukong [6] 0.744477 -0.0100% 0.733849 0.0020% 107.1M 1.40T
FAT [2] 0.744883 0.0306% 0.734280 0.0451% 138.4M 1.83T
RankMixer [4] 0.749329 0.4752% 0.738938 0.5109% 135.5M 1.68T
TokenMixer-Large [5] 0.748410 0.3833% 0.737940 0.4111% 103.3M 1.27T
UniMixer-2-Blocks 67.5M 0.749770 0.5193% 0.739331 0.5502% 67.5M 2.07T
UniMixer-2-Blocks 101.5M 0.750238 0.5661% 0.739983 0.6154% 101.5M 2.50T
UniMixer-Lite-2-Blocks 42.4M 0.751121 0.6544% 0.740739 0.6910% 42.4M 2.17T
UniMixer-Lite-2-Blocks 76.2M 0.751401 0.6824% 0.741215 0.7386% 76.2M 2.60T
UniMixer-Lite-4-Blocks 38.2M 0.752327 0.7750% 0.742091 0.8190% 38.2M 1.26T
UniMixer-Lite-4-Blocks 84.5M 0.752718 0.8141% 0.742530 0.8701% 84.5M 4.24T

结论

  • 在更小的参数量和计算成本下,UniMixer和UniMixer-Lite均显著优于所有SOTA模型
  • UniMixer-Lite-4-Blocks 38.2M仅用38.2M参数(约为RankMixer的28%)就超越了所有baseline
  • 最优的UniMixer-Lite-4-Blocks 84.5M在AUC上领先RankMixer 0.3389%,UAUC领先0.3592%

3.3 Scaling Law对比

三个模型的Scaling Law公式:

$$\Delta \text{AUC}_{\text{RankMixer}} = 0.002718 \cdot \text{Params}^{0.116043}, \quad \Delta \text{AUC}_{\text{RankMixer}} = 0.002022 \cdot \text{FLOPs}^{0.116635}$$

$$\Delta \text{AUC}_{\text{UniMixer}} = 0.003032 \cdot \text{Params}^{0.131973}, \quad \Delta \text{AUC}_{\text{UniMixer}} = 0.002058 \cdot \text{FLOPs}^{0.125702}$$

$$\Delta \text{AUC}_{\text{UniMixer-Lite}} = 0.003767 \cdot \text{Params}^{0.141903}, \quad \Delta \text{AUC}_{\text{UniMixer-Lite}} = 0.002338 \cdot \text{FLOPs}^{0.135327}$$

UniMixer-Lite在参数和FLOPs上都具有最大的Scaling指数和系数,Scaling效率最优。

3.4 消融实验

Table 3: UniMixer 6.57M各组件消融

Setting AUC $\Delta$AUC UAUC $\Delta$UAUC Params FLOPs/Batch
UniMixer 0.748464 - 0.738017 - 6.57M 0.16T
w/o Temperature Coefficient 0.746819 -0.1645% 0.736527 -0.1490% 6.57M 0.16T
w/o Symmetry Constraint 0.747891 -0.0573% 0.737447 -0.0570% 6.57M 0.16T
w/o Block-Specific Local Mixing Weight 0.748028 -0.0436% 0.737770 -0.0240% 6.53M 0.16T
w/o Model Warm-Up 0.747608 -0.0856% 0.737180 -0.0837% 6.57M 0.16T
SiameseNorm $\to$ Post Norm 0.748191 -0.0273% 0.737660 -0.0357% 6.56M 0.16T

结论

  • 温度系数对性能影响最大($\Delta$AUC -0.1645%),验证了参数矩阵稀疏性的重要性
  • 模型warm-up排第二(-0.0856%),说明两阶段温度退火策略有效
  • 所有组件去除或替换都导致性能下降,验证了各模块设计的必要性

3.5 UniMixing-Lite超参数分析

Table 4: Basis数量、Rank和Block数量的影响

Basis Number影响

Basis Number AUC $\Delta$AUC UAUC $\Delta$UAUC Params FLOPs/Batch
b=2 0.749228 - 0.738776 - 4.968M 0.161T
b=4 0.750230 0.1002% 0.739876 0.1100% 4.973M 0.161T
b=8 0.750283 0.1055% 0.739854 0.1078% 4.98M 0.161T

Rank影响

Rank AUC $\Delta$AUC UAUC $\Delta$UAUC Params FLOPs/Batch
r=2 0.748568 - 0.738177 - 4.4525M 0.160T
r=64 0.749002 0.0434% 0.738604 0.0427% 4.705M 0.160T
r=128 0.749228 0.0660% 0.738776 0.0599% 4.9675M 0.161T
r=256 0.749539 0.0971% 0.739437 0.1260% 5.4925M 0.163T

Block Number影响

模型 AUC $\Delta$AUC UAUC $\Delta$UAUC Params FLOPs/Batch
RankMixer-2-Blocks 0.747772 - 0.737322 - 4.4375M 0.056T
RankMixer-4-Blocks 0.746706 -0.1066% 0.736018 -0.1304% 8.6575M 0.108T
UniMixer-Lite-2-Blocks 0.749228 - 0.738776 - 4.9675M 0.161T
UniMixer-Lite-4-Blocks 0.750803 0.1575% 0.740594 0.1818% 9.715M 0.316T
UniMixer-Lite-8-Blocks 0.750875 0.1647% 0.740602 0.1826% 19.2125M 0.629T

结论

  • Basis数量 $b$ 增加对AUC提升的参数效率高于增加rank $r$
  • RankMixer在增加depth时出现性能退化(4-Blocks比2-Blocks差),而UniMixer-Lite持续提升
  • Depth scaling比width scaling更高效

3.6 在线A/B测试(Q4)

  • 部署场景:快手多个广告投放场景
  • 指标:Cumulative Active Days (CAD),30天窗口(排除安装日)
  • 结果:CAD D1-D30平均提升超过15%

4. 总结与评价

核心贡献: 1. 揭示了TokenMixer的置换矩阵性质,建立了等价参数化表示 2. 通过UniMixing模块统一了attention、TokenMixer、FM三大Scaling范式 3. UniMixing-Lite通过basis-composed和低秩近似策略实现了最优参数/计算效率 4. 在快手大规模线上系统验证,CAD提升超15%

优势

  • 理论贡献扎实,从TokenMixer置换矩阵的数学性质出发,自然地建立了三类方法的联系
  • 实验充分,包括离线对比、Scaling Law拟合、消融实验和在线A/B测试
  • 工业落地价值高,在更少参数下取得更好效果

局限

  • 实验仅在快手工业数据集上进行,缺少公开数据集验证
  • FLOPs/Batch较高(UniMixer-Lite-4-Blocks 84.5M为4.24T),计算效率优势不如参数效率优势明显
  • 未讨论与序列推荐/生成式推荐的结合