← Back to list
RankUp

RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems

判别式推荐 Tencent
Abstract 9 Reading 8 Rating —
2026-04-20
Jin Chen, Shangyu Zhang, Bin Hu, Chao Zhou, Junwei Pan, Gengsheng Xue, Wentao Ning, Gengyu Weng, Wang Zheng, Shaohua Liu, Zeen Xu, Chengyuan Mai, Tingyu Jiang, Lifeng Wang, Shudong Huang, Chengguo Yin, Haijie Gu, Jie Jiang
Tencent
RankUp 通过随机置换分片、多嵌入表、全局 token、跨域嵌入融合与任务专属 token 五个机制提升工业排序器的 Effective Rank,在微信三大广告场景 100% 部署并带来 3.41–4.81% GMV 提升。
评分原因
摘要评分:针对大规模广告推荐 MetaFormer 的表示秩崩塌问题提出多机制解决方案,已在微信视频号/公众号/朋友圈三端全量部署,GMV 提升显著(2.21%-4.81%),工业价值极高。
精读评分:工业界扎实之作:把 MetaFormer 类排序器的瓶颈从参数规模重新框定为 Effective Rank 不足,五个互补机制组合清晰、消融充分,并在微信三大广告场景 100% 全量部署拿到数亿美元级 GMV 提升。未与其他 rank-preserving 正则对比,且 erank 作为代理指标的因果链不完全直接,故未给 9-10。
industrial ad-rec transformer parameter-scaling

RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems

Tencent WeChat 广告团队针对 MetaFormer 家族工业排序模型(RankMixer / HiFormer / MixFormer / TokenMixer-Large 等)在深层网络出现的表征坍缩与有效秩退化问题,提出 RankUp 架构,通过随机置换分片、多嵌入表、全局 token、跨域预训练嵌入融合、任务专属 token 解耦五个机制系统性提升 token 表征的 Effective Rank。已在微信视频号 / 公众号 / 朋友圈广告三大场景 100% 全量部署,GMV 相对提升 3.41% / 4.81% / 2.21%,在 Order Task 上 GMV 提升高达 7.18%,新广告冷启动场景 Weixin Official Accounts 上 GMV 提升 9.67%。

研究动机与背景

推荐系统的 scaling law 近年得到了越来越多经验验证:MetaFormer 结构(AutoInt / Hiformer / Wukong / Interformer / RankMixer / TokenMixer-Large / Mixformer)依赖加深模型深度、加宽隐藏维度、延长用户行为序列带来排序性能提升。然而一个被广泛忽视的问题是:表达能力(representation capacity)是否真的和参数规模成正比?

Chen 等人(Expand, Pool and Shrink, [19])的经验分析指出,在深度推荐模型(如 RankMixer)中,token 表征的 Effective Rank 随着层深呈现阻尼振荡(damped oscillatory)轨迹:浅层快速扩张,但深层反而逐层衰减甚至坍缩。从理论上看,这是因为:

  • Token Mixer(跨 token 的特征交互模块)只能提供有界的跨 token 秩扩张
  • Per-token FFN(Channel 方向的独立变换)本质上是秩收缩算子(rank-contractive);
  • 两者叠加,深层表征逐层向低维子空间坍缩,阻碍了进一步 scaling 的收益。

作者据此提出关键论点:scaling 模型规模不等于 scaling 表达能力。增加参数若不能突破结构性表征瓶颈,反而会加剧 embedding collapse 并在深层模型中产生递减收益。

与其通过更复杂的 token mixer(Self-Attention、Full-Mix、Unimixer)在受限空间内"挤"更多交互,RankUp 的思路是直接扩张潜空间本身的表达多样性——通过五个互补机制系统性地提升 Effective Rank,从根源上减缓 representation collapse。

Figure 1: Overall Framework of RankUp

RankUp 已经在腾讯广告平台(微信视频号 / 公众号 / 朋友圈)大规模部署,主要评测任务为 CVR(Click-Conversion-Rate)预测,在 20% 流量的 A/B 实验上 Realtime AUC 获得显著提升,并翻译为可观的 GMV 收益(3.41% / 4.81% / 2.21%)。

预备知识

2.1 问题形式化

考虑工业排序系统的异构输入:稀疏特征、稠密数值向量、用户行为序列。对 $M$ 个稀疏特征 $\mathcal{F} = \{f_1, \dots, f_M\}$,每个 $f_i$ 经嵌入层映射到 $\mathbf{e}_i \in \mathbb{R}^{d_i}$。由于稀疏特征数量可达几百,工业界普遍采用"分组"(splitting)机制将高维向量切成 $T$ 个 token 表征。

Autosplit 方式(如 [42] RankMixer):将级联向量 $\mathbf{e}_{\text{input}} = [\mathbf{e}_1; \dots; \mathbf{e}_M]$ 平均切成 $T$ 段,每段长度 $d_s$,第 $i$ 个 token 为

$$\mathbf{x}_i = \text{Proj}_i(\mathbf{e}_{\text{input}}[d_s \cdot (i-1) : d_s \cdot i]) \tag{1}$$

Semantic Grouping 方式:利用领域经验预定义分组 $\mathcal{F}_i$,将组内嵌入先拼接再投影:

$$\mathbf{x}_i = \text{Proj}(\text{Concat}(\{\mathbf{e}_j \mid f_j \in \mathcal{F}_i\})) \tag{2}$$

其他辅助信息(稠密向量、序列表征)同样被投影到 $D$ 维空间。最终得到初始表征矩阵 $\mathbf{H}_0 \in \mathbb{R}^{T \times D}$。

现代工业排序模型基本沿用 MetaFormer 范式 [37],将 token 间交互与 channel 内变换解耦。主干由 $L$ 个 block 堆叠,每个 block 由 Token Mixer 与 Per-token FFN 组成:

$$\mathbf{H}'_l = \text{TokenMixer}(\text{LN}(\mathbf{H}_{l-1})) + \mathbf{H}_{l-1} \tag{3}$$

$$\mathbf{h}_{l,i} = \text{FFN}(\text{LN}(\mathbf{h}'_{l,i})) + \mathbf{h}'_{l,i}, \quad i = 1, \dots, T \tag{4}$$

其中 $\text{LN}(\cdot)$ 为 LayerNorm。在 RankMixer 中,Token Mixer 采用 multi-head shuffle 混合:每个 token 切成多个 head,所有 token 的子向量跨序列重组,无参数而高度并行;Per-token FFN 则独立作用在每个 token 上,保留 permutation equivariance。

2.2 表征的 Rank 缺陷

为量化潜空间利用情况,作者采用 Effective Rank 作为核心指标。对每层的表征 $\mathbf{H}_l \in \mathbb{R}^{T \times D}$,做 SVD 得到奇异值 $\sigma_1, \dots, \sigma_k$($k = \min(T, D)$),定义

$$\text{erank}(\mathbf{H}_l) = \exp\left(-\sum_{i=1}^{k} p_i \ln p_i\right), \quad p_i = \sigma_i / \sum_{j=1}^{k} \sigma_j \tag{5}$$

数值范围 $[1, k]$:接近 1 表示完全坍缩到一维方向,接近 $k$ 表示信息在所有正交维度上均匀分布。相比标准代数秩(对无穷小噪声高度敏感),Effective Rank 是对有效信息维度的稳健估计。

前序工作 [19] 实证指出,深层 MetaFormer 排序模型中 token 表征的有效秩并非单调递增,而是初期快速扩张后在深层逐层衰减。这意味着即便 scaling 参数,潜空间仍坍缩到低维子空间,无法被充分利用。两个根因:Token Mixer 的有界秩扩张、Per-token FFN 的秩收缩,二者共同压缩了跨层表征多样性的增长。因此仅依赖 token mixing 设计是不够的,需要在结构上直接扩张潜空间本身的表达多样性。

Rank-Up 方法

3.1 总体框架

RankUp 基于 MetaFormer 主干,包括五个核心机制:

  1. Randomized Permutation Splitting:降低 token 间的相关性和共线性,生成更丰富的组合性交互;
  2. Multi-embedding Representation Paradigm:扩展初始 token embedding 的自由度;
  3. Global Token Integration:引入一个全局 token,承载跨 token 的全局信息;
  4. Cross Integration of Pre-trained Embeddings:将跨域预训练嵌入(两塔得到的 user / item 向量)的结构化先验注入表征空间;
  5. Task-Specific Token Decoupling:在 multi-task 场景下,将任务相关信息独立为任务 token,缓解共享表征的梯度干扰。

同时采用 Pre-LayerNorm (PreNorm) [31, 36] 稳定深层梯度,采用 SwiGLU [7, 25] 作为 FFN 的门控激活来增强高阶交互建模。

3.2 随机置换分片(Randomized Permutation Splitting)

传统工业 Ranker 要么等距切分(Autosplit),要么按语义分组(Semantic Grouping)。这两类方式都对特征施加了固定的结构 / 语义先验,但往往会导致 信息冗余:高度共线的特征被分到同一个 token,压缩了信息熵。

RankUp 引入一个随机置换算子 $\sigma$,对稀疏特征集 $\mathcal{F}$ 的索引做随机重排:

$$\mathcal{F}_\sigma = \{f_{\sigma(1)}, \dots, f_{\sigma(M)}\} \tag{6}$$

之后每组内的特征再向量化、拼接、投影。通过把高相关特征随机分散到不同 token,token 间的相关性被解耦,初始表征矩阵 $\mathbf{H}_0$ 的几何基底被扩大,从而在后续层中减缓 rank collapse。

3.3 多嵌入表征范式(Multi-embedding Representation Paradigm)

常规工业 Ranker 用单张嵌入表 $\psi: \mathcal{F} \to \mathbb{R}^d$ 将稀疏特征映射到低维潜空间,这在计算上高效,但施加了固定、低维的限制,限制了 token mixer 可用的信息多样性。

RankUp 采用 Multi-embedding([11, 23]):用 $K$ 张独立嵌入表 $\psi_1, \dots, \psi_K$ 同时表示输入特征。每个特征 $f_j$ 的表征变成一个嵌入元组

$$\mathbf{e}_j = \{\psi_k(f_j) \mid \psi_k \in \mathcal{K}_j\} \tag{7}$$

其中 $\mathcal{K}_j$ 是分配给 $f_j$ 的表子集。这种冗余映射让同一个 categorical 信号从多个几何视角被投影出来,为 token 拼装提供更细粒度的初始化。

该设计显著提升初始 $\mathbf{H}_0$ 的多样性,缓解单嵌入系统在早期的低秩瓶颈,使深层模型更能捕获稀疏场景下的长尾信号。

3.4 全局 Token 融合(Global Token Integration)

典型 MetaFormer 中每个 token 仅表达局部特征视图。为给深层交互提供一个整体视图,RankUp 新增一个 Global Token $\mathbf{g}$,与所有局部 token 并行参与交互:

$$\mathbf{g} = A(f_1, f_2, \dots, f_M) = \text{func}(\text{Pool}(\{\text{Embed}(f_i)\}_{i=1}^{M})) \tag{8}$$

这里 $A$ 为聚合函数,$\text{func}$ 可以是 MLP,也可以是 FM [17, 18, 22] 或 DCNv2 [33] 等更复杂的跨特征交互模块。全局 token 被拼接到 token 序列前,形成新的输入

$$\mathbf{H}^{(0)} = [\mathbf{g}, \mathbf{e}_1, \dots, \mathbf{e}_T] \tag{9}$$

这一设计让每一层的 token mixing 都能在局部交互之外看到一个全局上下文,类似 Transformer 中的 [CLS] 语义,但目标更偏向给深层表征注入全局方向,防止潜空间被局部 token 交互压缩。

3.5 跨域预训练嵌入融合(Cross Integration of Pre-trained Embeddings)

工业排序中普遍引入从两塔模型(user / item retrieval)学习到的预训练嵌入作为基础特征。但这些嵌入主要优化"全局相似度"(距离目标),而非精细的特征交互,因此直接拼接或线性投影到 ranker 往往无法充分释放它们的结构先验。

RankUp 在特征级别显式注入交互先验:对给定的 user / item 嵌入 $\mathbf{z}_{ue}, \mathbf{z}_{ie}$,计算 element-wise 乘积,再投影:

$$\mathbf{e}_{\text{cross}} = \text{Proj}(\mathbf{z}_{ue} \odot \mathbf{z}_{ie}) \tag{10}$$

该 token 可视为对齐于 factorization 式排序模型的 inductive bias 的"软"特征交互,把预训练模型中的交互先验显式带入下游 token mixing 层。得到的 $\mathbf{e}_{\text{cross}}$ 被追加到初始 token 序列 $\mathbf{H}_0$ 中。

3.6 任务专属 Token 解耦(Task-Specific Token Decoupling)

工业 ranker 往往在多任务目标下训练(CTR / CTCVR / GMV / 时长等),共享同一个输入特征空间可能导致表征坍缩:大任务的梯度支配学习方向,把共享空间压缩到自己偏好的子空间,挤占异质任务所需表达。

RankUp 为每个任务显式分配一组可学习的任务 token $\{\mathbf{x}_{\text{task}}^{(k)}\}_{k=1}^{K}$(共 $K$ 个任务),这些 token 参与所有的 token mixing,但只会被送入其对应任务塔:

$$y^{(k)} = \text{Tower}^{(k)}(\mathbf{x}_{\text{task}}^{(k)}, \text{Pool}(\mathbf{H}'_L)) \tag{11}$$

这样,共享 backbone 负责挖掘通用特征交互,而 task token 承担任务偏向信息的累积,将共享潜空间解耦为任务相关的子空间。对多任务排序尤其重要——既缓解梯度干扰,又让 backbone 保持更高的表征能力。

实验设置

4.1 数据集

大规模真实工业数据集来自微信视频号(Weixin Video Accounts)广告场景,日样本 2000 万、超过 1200 个稀疏特征,覆盖 2024 年 7 月至 2026 年 3 月。训练用历史生产日志,评测在实时服务条件下进行。优化目标是 CVR(Click-Conversion-Rate) 预测,其由 32 个业务子任务组成,每个子任务对应一个独立业务目标。主基线为 RankMixer(SOTA 工业排序结构),所有实验使用一致的 2 层 backbone 配置。

4.2 评测指标

  • Realtime AUC:在短而连续的时间窗口内计算,监控模型对漂移数据分布的判别能力;
  • Effective Rank (erank):每个 block 的输出上,以 $\mathbf{H}_b \in \mathbb{R}^{B \times T \times D}$($B$ 为 batch)在每个样本 token 表征矩阵上计算并取批内平均,分别报告 Token Mixer 后(TM)和 FFN 后(FFN);
  • 在线端:AUC / CTCVR / GMV

主要实验结果

5.1 离线消融:各组件对 Realtime AUC 的贡献

在微信视频号广告系统上,以 Order / Book / Add Service 三个最核心、流量最大的子任务为评测对象,做组件级消融。

Table 1: Improvement of Realtime AUC over top-3 tasks

变体 Order Book Add Service
Randomized Permutation Split +0.06% +0.06% +0.08%
w/ Global Token + Multi-Emb +0.21% +0.18% +0.13%
w/ Cross Embedding +0.22% +0.10% +0.03%
w/ Task Token +0.09% +0.02% +0.02%
Rank-Up(全部) +0.41% +0.23% +0.25%

结论

  • 每个组件都对基线有稳定的正增益;
  • 最大贡献来自 Global Token + Multi-Embedding 组合,说明"扩展初始表征空间 + 全局信息汇聚"是减缓深层坍缩最有效的一对;
  • Randomized Permutation 虽然单独提升不大,但它为后续组件提供了更去相关的初始空间(从而对整体有效秩的改善是"基建级"的);
  • Cross Embedding 在 Order 上提升最明显(+0.22%),与转化率这类强依赖用户-商品精细交互的任务一致;
  • Task Token 在 Order 上 +0.09%,在 Book/Add Service 更小,表明多任务解耦在强任务竞争场景下效果更显著。

5.2 Split 策略分析

5.2.1 token 独立性:互信息分析

将 token embedding 通过 k-means 聚类到 $K$ 个离散 cluster 得到离散状态 $c_i^{(b)}$,再在样本维度上计算两两 token 的 pairwise 互信息(MI)矩阵 $\mathbf{M} \in \mathbb{R}^{T \times T}$:

$$M_{ij} = \sum_{a=1}^{K} \sum_{b=1}^{K} p(a, b) \log \frac{p(a, b)}{p_i(a) \cdot p_j(b)} \tag{12}$$

其中 $p(a, b)$ 是 token $i$ 被分到 cluster $a$、token $j$ 被分到 cluster $b$ 的联合概率。更高的 $M_{ij}$ 表示两个 token 间统计冗余更大。为隔离 split 策略本身的影响,作者定义

$$\Delta \mathbf{M} = \mathbf{M}_{\text{Randomized}} - \mathbf{M}_{\text{Semantic}} \tag{13}$$

负值区域代表随机切分更好地降低了 token 间冗余。

Figure 2: MI difference matrices

如 Figure 2(a)($K=48$)所示,稀疏 token 间(ID 0–31)的 MI 在 Randomized 下一致低于 Semantic Grouping,说明随机切分产生了更统计独立的 token 表征。非稀疏 token(ID 32–46)构造一致所以不变。稀疏 × 非稀疏交叉项也显著降低,说明该策略不仅在组内,还在异构组间有效解耦。Figure 2(b)($K=64$)验证结论对聚类粒度不敏感。

5.2.2 Effective Rank 对比

Figure 3: Effective rank comparison of token embeddings

Figure 3 中,Random Splitting 在全部 32 个稀疏 token 上给出更高且更均匀的 Effective Rank;Semantic Grouping 在若干 token 上(12、29、31)erank 急剧下降(低于 20),原因是语义聚合把长尾共现的特征集中到同一个 token,形成 low-rank 子空间。随机切分将这类长尾特征分散开,避免了因长尾聚集导致的 rank collapse,让每个 token 都保留丰富且多样的表征。

5.3 Effective Rank 动态分析

Figure 4: Layer-wise Effective Rank Evolution under RankUp Ablations

在两层 backbone 的 4 个检查点(Block1-TM → Block1-FFN → Block2-TM → Block2-FFN)上观察 erank:

  • 所有变体在深层(尤其 FFN 后)都呈现不同程度的 rank 下降,与 [19] 报告的现象一致;
  • RankUp 曲线在所有深度都高于其他消融变体,特别是 Block2-FFN 上明显更高,表明 RankUp 有效缓解了深层 rank 衰减;
  • Multi-Embedding 的作用集中在初始阶段,通过独立子空间映射原始特征,避免早期压缩;
  • Global Token 在深层交互上最有用,让 Subset-based 变体的深层 erank 不会过快塌陷;
  • Cross Embedding 对 Block 0 的 erank 最关键,说明外部语义先验决定了初始表征的几何基底;
  • Randomized Permutation 与 cross embedding 互补,共同在 token level 增强 rank。

这解释了组件的互补性:Multi-Emb 和 Cross Emb 主攻初始层的 rank 基底,Global Token 和 Permutation 负责深层交互的 rank 保持。

5.4 任务 Token 的作用

为度量任务 token 是否真把任务相关信息压入潜空间,作者用表征与任务标签的互信息来评估:将隐表征通过 k-means 聚到 $K$ 个区域得到 cluster $Z$,对二分类任务标签 $Y \in \{0, 1\}$ 计算

$$I(Z; Y) = \sum_{z, y} P(z, y) \log \frac{P(z, y)}{P(z) P(y)} \tag{14}$$

Figure 5: Mutual Information across Different Cluster Granularities

如 Figure 5 所示,在 Book 和 Order 任务上,带 Task Token 的 RankUp 变体 MI 始终高于不带 Task Token 的变体,且随 cluster 数增加 MI 差距愈加显著(从 K=8 增到 K=64)。这说明任务 token 不仅让模型获得"粗粒度"任务意识,还捕获了细粒度的任务子结构,在高分辨率聚类下体现出更好的潜空间任务分离。

在线部署与业务收益

6.1 部署细节

RankUp 已在腾讯微信视频号 / 公众号 / 朋友圈三个广告场景 100% 全量部署 服务 CVR 预测。关键工程数据:

  • 训练数据:18 个月真实生产用户 × 广告交互日志;
  • 输入层:> 1000 个特征字段(domain-specific 类别特征、序列行为 token、多个预训练语义嵌入);
  • 多任务:jointly 优化 32 个预测任务;
  • Backbone:2-layer MetaFormer;
  • 参数量:从 ~10M 扩至 ~100M(同量级扩展);
  • 部署 batch size:300,约 70 GFLOPs / batch;
  • MFU(Model FLOPs Utilization)= 23%,说明计算效率良好;
  • 满足实时服务延迟约束,能与既有在线排序系统(如微信公众号中的 rankmixer 子模块)无缝替换。

6.2 在线 A/B 收益

在 20% 生产流量上进行 14 天连续 A/B,核心指标:

Table 2: Online Performance Lift

场景 ΔAUC CTCVR GMV
Weixin Video Accounts +0.367% +1.41% +3.41%
Weixin Official Accounts +0.331% +0.21% +4.81%
Weixin Moments +0.269% +0.87% +2.12%

Table 3: Online Performance Lift for New Ads(冷启动)

场景 GMV
Weixin Video Accounts +5.83%
Weixin Official Accounts +9.67%
Weixin Moments +2.84%

Table 4: Order Task 上的 GMV 提升

场景 GMV
Weixin Video Accounts 5.18%
Weixin Official Accounts 7.18%
Weixin Moments 4.79%

业务影响:3.41% / 4.81% / 2.21% 的 GMV 提升在微信广告体量下换算为数亿美元级的年度营收增量。冷启动场景(新广告)收益尤其可观:微信公众号 +9.67% GMV,说明 RankUp 丰富的表征空间与更强的特征交互确实对"行为信号稀缺"的样本群体极为有效,能显著改善新广告的发现与变现效率。Order Task 上 +7.18% GMV 也表明 RankUp 对转化质量高度相关的排序目标有细腻的捕获力。

讨论与相关工作

7.1 相关工作:Dense Scaling 与 Representation Collapse

  • Dense Scaling 线(AutoInt → Hiformer → Wukong → InterFormer → RankMixer → MixFormer)的区别在于:后者追求 token mixer 的表达力提升,或硬件友好的 scaling 架构;RankUp 并不改造 token mixing,而是扩张潜空间本身的表达多样性,与这些工作正交,可以叠加;
  • Representation Collapse 在自监督 / 对比学习中被广泛研究,常通过加均匀性正则(uniformity, orthogonality)缓解;在推荐系统里 RankUp 是少数针对 MetaFormer ranker 的长尾分布和幂律数据显式引入结构性机制(permutation + multi-emb + task token)以防止 collapse 的工作;
  • LLM 中的注意力层 rank 分析 类似,RankUp 的发现也支持"在 residual / MLP 侧做 rank 保持"是防止深层表征退化的关键。

7.2 核心贡献

  1. 诊断:把工业 ranker 的性能瓶颈从"参数规模不够"重新框定为"表征能力不足",用 Effective Rank 给出量化度量;
  2. 架构:五个互补机制(Random Permutation / Multi-Embedding / Global Token / Cross Embedding / Task Token)协同提升深层 token 表征的多样性;
  3. 实证:首次在超大规模广告场景(微信)上验证 scaling recommender 应关注"有效秩"而非单纯参数量,并通过 100% 全量 A/B 取得数亿美元级收益。

7.3 值得借鉴的设计

  • Randomized Permutation Splitting 是非常"便宜"的改动——几乎零成本,却能在初始表征的几何基底上给出显著的 erank 提升,对所有基于 split 的 MetaFormer ranker 都值得尝试;
  • Global Token 的 FM / DCNv2 变体做聚合函数,这一小设计使得全局 token 不只是均值池化,而承载了高阶交互先验;
  • Cross Embedding(user × item 的 element-wise 积投影)给出了一种把跨域预训练嵌入"translate"到 ranker 交互空间的便捷桥接,对大量有"向量召回"能力的业务都可复用;
  • Task Token 的解耦范式把共享表征 vs. 任务专属信息的平衡显式化,对多任务排序(尤其 CVR / GMV / 时长等异构目标)极具工程价值。

7.4 局限与争议

  • 论文未披露五个机制带来的训练 / 推理额外开销(除了整体 MFU=23% 和 GFLOPs),读者难以判断每个机制的性价比;
  • erank 是有效信息维度的度量,但并非直接证明下游推荐性能——MI 分析、AUC、GMV 之间的因果链依赖 Effective Rank 这一代理指标;
  • 消融未与其他常见的 rank-preserving 技巧(正交正则、orthogonal 初始化)对比,不能完全排除类似效果可以用更轻量的正则得到;
  • Cross Embedding 采用 element-wise 乘积,是否在更高维 / 更稀疏场景下仍是最佳设计值得进一步验证;
  • 数据截至 2026 年 3 月,且仅在微信场景上验证,迁移到其他广告平台(抖音、小红书、淘宝)需重新调优随机切分的 seed 分布、多嵌入表数量等超参。

7.5 结论

RankUp 把对 scaling recommender 的关注点从"参数量"转移到"有效秩"——只有在扩张参数的同时扩张表达空间,才能真正获得 scaling 的收益。工业 A/B 实验验证了这一视角的实践价值,其对应的五个机制为后续 MetaFormer 家族排序模型(OneTrans、MixFormer、TokenMixer-Large 等)的迭代提供了可直接复用的模板。