← Back to list
UniVA

Unified Value Alignment for Generative Recommendation in Industrial Advertising

生成式推荐 Tencent
Abstract — Reading 8 Rating —
2026-05-07
Xinxun Zhang, Yuling Xiong, Jiale Zhou, Zhengkai Guo, Zhennan Pang, Junbang Huo, Jingwen Wang, Xuyang Sun, Enming Zhang, Jiaguang Jin, Changping Wang, Yi Li, Jun Zhang, Xiao Yan, Jiawei Jiang, Jie Jiang
Wuhan University, Tencent Inc., Peking University
UniVA 在腾讯微信视频号广告平台上提出统一价值对齐的生成式推荐框架,通过 Commercial SID 分词器、Generation-as-Ranking 双头解码器和 eCPM-aware 强化学习实现 SID 构造、解码和服务三层的商业价值对齐,离线 HR@100 提升 37.04%,线上 GMV +1.50%。
评分原因
精读评分:Token-level value alignment via Commercial SID + dual-head Generation-as-Ranking + eCPM-aware PPO/MCTS-PPO, validated by +37.04% offline HR@100 and +1.50% online GMV at WeChat Channels — production-grade work that meaningfully extends GR4AD/OneRanker/GEM-Rec lineage with novel integrated solution.
transformer moe pretrained-lm rl recursive-depth semantic-id ad-rec industrial

UniVA: Unified Value Alignment for Generative Recommendation in Industrial Advertising

研究动机与背景

生成式推荐(Generative Recommendation, GR)将推荐重新表述为基于离散 Semantic ID(SID)的 next-token 生成问题,借助 LLM 的建模能力将长链路、多模块的传统推荐系统压缩为端到端的统一架构,已经在搜索、电商和内容推荐等多个工业领域取得显著进展。然而,把 GR 直接平移到广告推荐并非平凡——广告系统是一个固有的多目标优化问题:除了优化用户兴趣外,必须同时考虑广告主侧的出价(bid)、ROI、eCPM 等商业信号,否则会损害平台收入或加剧投放质量恶化。

作者将这一问题归纳为"价值不一致"(Value Inconsistency),并指出现有 GR 流水线在以下三个层面均不足以贯通商业价值:

  1. Value-insensitive SID tokenization(SID 生成阶段缺乏价值感知):现有 RQ-based 分词器主要保留多模态语义相似性,但忽略广告内在的商业异质性。语义相似的两条广告可能对应截然不同的变现潜力,却被映射到相邻 SID 路径,token 空间本身就缺少商业可分性,使得后续语义连贯但商业偏离。
  2. Semantic-dominated SID decoding(SID 解码阶段商业信号断裂):商业目标通常只在训练目标级注入,自回归解码本身仍由 likelihood 主导。一旦商业前景较好的 SID 前缀在早期 beam 步被语义分数剪掉,后续目标无法挽回,商业可期的轨迹被过早剪枝
  3. Value-unaware online serving(线上服务阶段价值外置):即使训练时已经引入价值感知,线上 beam 扩张仍依赖语义相似度和启发式过滤;在 full SID space 上 expand 还会浪费大量算力到违反库存/定向的非法候选上,传统补丁是再加一个外置的 value ranking 模块,引入额外延迟和系统复杂度。

作者的核心洞察是:商业价值不应该是生成之后才补丁式注入的辅助信号,而应该被贯穿地嵌入 SID 构造、自回归解码和在线服务三个环节。基于此提出 UniVA (Unified Value Alignment),覆盖:

  • Commercial SID 分词器:在 SID 构造时显式注入价值相关属性(OG/ROI/Industry/Bid),得到 value-discriminative 的 token 表示;
  • Generation-as-Ranking SID Decoder:在 SID 解码器内部引入 dual-head(generation head + value head),由监督学习和 eCPM-aware 强化学习联合训练,使生成与排序在同一次 decoding 中完成;
  • Value-Guided Personalized Beam Search:将 generation-as-ranking 的融合 logits 直接复用为线上 value 评分,并配合个性化 trie tree 把 beam 扩张限制在请求合法的 SID 路径内。

实验在腾讯微信视频号(WeChat Channels)广告平台上进行:UniVA 在 offline Hit Rate@100 上比 baseline 提升 37.04%,在 online A/B 上获得 1.50% GMV 与 1.42% GMV(normal) 提升。

核心方法/模型架构

UniVA 整体框架如 Figure 1 所示,分为三个核心组件:a) Commercial Semantic ID、b) Generation as Ranking SID Decoder、c) eCPM-aware Reinforcement Learning,并配合 d) Value-Guided Personalized Beam Search 完成线上服务。

Figure 1: The framework of UniVA — 包含 a) Commercial Semantic ID 构造、b) Generation as Ranking SID Decoder、c) eCPM-aware Reinforcement Learning 和 d) Value-Guided Personalized Beam Search 四个模块

Preliminaries

Semantic ID:GR 把推荐建模为序列生成问题。给定用户 $u$、上下文 $c$ 和历史 item 序列 $\mathbf{i}_{1:T} = (i_1, i_2, \ldots, i_T)$,模型直接预测下一目标 item,而不是在候选集上排序。每个 item 通过映射 $s_i = \Phi(i) = \{s_i^1, s_i^2, \ldots, s_i^L\}$ 编码为长度 $L$ 的离散 SID 序列;推荐通过自回归生成 SID 完成。常见实现是 RQ:将 item embedding 残差量化为多级 codebook 索引:

$$s_i^{l+1} = \arg\min_k \|\mathbf{r}_i^l - \mathbf{c}_k^l\|_2^2, \quad \mathbf{r}_i^{l+1} = \mathbf{r}_i^l - \mathbf{c}_{s_i^l}^l \tag{1a}$$

Advertisement Attributes:每条广告 item $i$ 关联两类异构特征——

  • 语义属性 $x_i^s = (x_i^\text{text}, x_i^\text{img}, x_i^\text{video})$;
  • 商业属性 $x_i^c = (x_i^O, x_i^r, x_i^\text{ind}, x_i^b)$,分别对应优化目标(O)、ROI 目标(r)、行业(ind)和出价(b)。

UniVA 聚焦这四个商业属性,因为它们与计费和商业价值最紧密。

Objective:UniVA 的目标是在历史交互序列 $\mathbf{x}_{1:T}$ 之上自回归地生成下一条广告的 SID:

$$p_\theta(s_{T+1} \mid \mathbf{x}_{1:T}, u, c) = \prod_{l=1}^L p_\theta\bigl(s_{T+1}^l \mid s_{T+1}^{\lt l}, \mathbf{x}_{1:T}, u, c\bigr) \tag{2a}$$

模型需要同时优化"用户相关性"和"商业价值"。

3.1 Commercial SID Tokenization

UniVA 采用语义+商业混合 SID 结构:上层 codebook 仍由 RQ-Kmeans+ 提供的语义分词器 $\Phi_\text{sem}$ 生成,保留语义局部性;最后一层切换为商业感知 token $\Phi_\text{com}$,即

$$(s_i^1, \ldots, s_i^{L-1}) = \Phi_\text{sem}(x_i^s), \qquad s_i^L = \Phi_\text{com}(x_i^c) \tag{1}$$

这样 SID 路径的前 $L-1$ 层维持粗到细的语义层级,最后一层显式承担商业可分性。$\Phi_\text{com}$ 的构造分两步:属性空间压缩价值感知离散化

属性空间压缩(Attribute Space Compression)

原始商业属性空间过于稀疏——优化目标和行业都呈长尾分布,直接 Cartesian 乘积会导致词表爆炸和细粒度统计不稳定。UniVA 先对每个商业属性独立压缩:

$$x_i^{O'} = \phi_O(x_i^O), \quad x_i^{r'} = \phi_R(x_i^r), \quad x_i^{\text{ind}'} = \phi_I(x_i^\text{ind}) \tag{2}$$

具体策略:

  • 优化目标 (O):保留覆盖 99% 数据的 value,剩余按 bid 分布相似度聚类,最终得到 25 个类别;
  • ROI:保留覆盖 99% 数据的 value,长尾合并为单一 fallback 类,得到 8 类;
  • 行业 (Industry):保留覆盖 75% 数据的 top-9 一级行业,长尾合并为 1 个 fallback 类,得到 10 类。

价值感知离散化(Value-Aware Discretization)

属性压缩后,UniVA 为每条广告构造一个组合键

$$k_i = (x_i^{O'}, x_i^{r'}, x_i^{\text{ind}'}) \in \mathcal{K} \subseteq \mathcal{O} \times \mathcal{R} \times \mathcal{I} \tag{3}$$

每个 $k_i$ 代表了一个"局部商业上下文"——共享相似业务条件的广告集合。对每个 $k$,对应的样本集合为:

$$\mathcal{B}_k = \{x_i^b \mid k_i = k\} \tag{4}$$

使用 classify-then-bin 策略:广告先按 $k$ 聚类,再在每个 cluster 内按出价做等频 bin 化。bin 数量 $n_k$ 受样本量约束,且被限定在 $[n_\text{min}, n_\text{max}]$ 内。在词表预算 $\sum_{k \in \mathcal{K}} n_k \leq V$ 下,按下式选择 $\{n_k\}$ 以最大化加权熵:

$$H_k = -\sum_{j=1}^{n_k} p_j^{(k)} \log p_j^{(k)}, \qquad H = \sum_{k \in \mathcal{K}} w_k H_k \tag{5}$$

其中 $p_j^{(k)}$ 是 key $k$ 下第 $j$ 个 bin 的样本占比,$w_k$ 是 key $k$ 的样本权重。Weighted entropy 鼓励所有 bin 上样本分布平衡,从而获得更稳定的 bid 离散化:稠密商业上下文得到更细的 bid 分辨率,稀疏上下文则保持紧凑、鲁棒。

固定 binning 方案后,UniVA 给每个 (key, bin) 对分配一个全局商业 SID,最后一层 token 定义为:

$$s_i^L = \Phi_\text{com}(x_i^c) = \psi(k_i, x_i^b) \tag{6}$$

$\psi(\cdot)$ 把压缩后的 key 与 bid 值映射到对应的 global bin ID。未见过的 key 在推理期 fallback 到全局 bid 离散化。最终:共享同一 SID 全路径的广告,在内容上和商业上都更一致——既保持语义组织,又获得更强的价值聚合。

3.2 Generation-as-Ranking SID Decoder

Commercial SID 解决了 token 空间的可分性,但 SID 解码本身仍由 likelihood 主导。UniVA 借鉴 GPR 的统一输入 schema 与 HSTU encoder 骨干,在 decoder 顶部引入 Generation-as-Ranking 设计。输入序列包括四类 token:User Token (U)、Organic Token (O)、Environment Token (E)、Item Token (I),分别编码用户偏好、用户有机内容行为、请求上下文与历史广告交互。Encoder 输出 user-conditioned hidden state:

$$h = \text{Enc}(U, O, E, I) \tag{7a}$$

Context-Conditioned SID Decoding

给定 $h$,decoder 自回归生成目标 SID。在解码 step $t$,当前 SID hidden state 先做 cross-attention(注入 user context)再做 causal self-attention:

$$\bar{z}^{(t)} = \text{CrossAttn}(Q = z^{(t)}, K = h, V = h), \quad \hat{z}^{(t)} = \text{SelfAttn}(\bar{z}^{(t)}) \tag{7}$$

cross-attention 注入请求上下文,self-attention 整合 SID 前缀依赖,使每个 next-token 决策同时基于 user intent 与 SID-prefix 一致性。这里 SID hidden state 作为 query,encoder 输出作为 K/V。

Scalable SID Decoder:MoE × MoR

为进一步增强 decoder 容量,UniVA 同时融合 Sparse MoEMoR (Mixture-of-Recursions),分别提供宽度上的条件特化和深度上的递归扩展。

MoE 部分:使用 $N$ 个 routed experts,每 token 激活 top-$K$ 个:

$$g(\hat{z}^{(t)}) = \text{Softmax}(W_r \hat{z}^{(t)}), \tag{8}$$

$$z^{(t+1)} = E_0(\hat{z}^{(t)}) + \sum_{m \in \text{TopK}(g(\hat{z}^{(t)}), K)} g_m(\hat{z}^{(t)}) E_m(\hat{z}^{(t)}) \tag{9}$$

其中 $W_r$ 是 routing 矩阵,$E_0$ 是始终激活的共享 expert(捕捉公共变换),$\{E_m\}$ 是上下文特化的 routed experts。为避免 router collapse(少数 expert 被反复选中),UniVA 引入动态负载均衡:维护历史 expert load 统计,超载 expert 在 top-$K$ 选择前 receive 较低 routing bias,欠载 expert 获得正向 bias。

MoR 部分:采用 Mixture-of-Recursions 在深度上递归共享一个中间 block:

$$h^{(0)} = \ell_\text{in}(x), \quad h^{(r)} = \ell_\text{mid}(h^{(r-1)}), \quad y = \ell_\text{out}(h^{(R)}) \tag{10}$$

通过反复施加同一中间变换,MoR 在不显著增加参数的情况下增加了有效深度,提供了"宽度特化 + 深度迭代精化"的统一 SID decoder backbone。

Dual-Head Generation-as-Ranking

在共享 decoder trunk 之上,UniVA 引入两个输出头:generation head $f_\text{gen}$ 与 value head $f_\text{value}$。在 SID level $l$ 处:

$$o_\text{gen}^{(l)} = f_\text{gen}(z^{(l)}), \quad o_\text{value}^{(l)} = f_\text{value}(z^{(l)}) \tag{11}$$

随后做 fused next-token 分布

$$\tilde{\pi}_\theta(\cdot \mid s_{\lt l}, h) = \text{Softmax}\bigl(\text{Fuse}(o_\text{gen}^{(l)}, o_\text{value}^{(l)})\bigr) \tag{12}$$

实现中 $\text{Fuse}(\cdot, \cdot)$ 取逐元素求和。这个 dual-head 设计的关键意义是:generation head 仍然保留序列生成的能力,value head 则在每个 next-token 决策上注入 token 级商业偏好;两个 head 在同一次 decoding 内同时作用,从而在 SID 自回归过程中真正完成 generation-as-ranking,而不是先生成后再单独排序,从而避免了引入额外的 post-generation ranking stage。

SID Decoder 学习目标(监督学习阶段)

UniVA 先用 SL 建立稳定的 SID 生成行为:

$$\mathcal{L}_\text{SL} = -\sum_{(u, c, \mathbf{x}_{1:T}, s_{T+1}) \in \mathcal{D}_\text{SL}} \sum_{l=1}^L \log p_\theta\bigl(s_{T+1}^l \mid s_{T+1}^{\lt l}, h\bigr) \tag{13}$$

注意此阶段共享的 decoder trunk 与 generation head 都被 SL 优化,但 SL 本身不能直接给 token 选择提供 value 监督——这是后续 RL 的位置。

3.3 eCPM-aware Reinforcement Learning

仅靠 SL 无法直接优化商业回报。UniVA 引入 eCPM-aware RL 阶段:把 SL 训练好的 generation head 直接当作 RL policy head,把 value head 作为 critic 来估计商业价值。Reward 由一个线上 eCPM 生成器产生,decoder 通过迭代 SL-RL 共训练,在同一模型中学习稳定的 SID 生成与商业价值对齐。

Simulation-Based Value Optimization

直接对每条采样 SID path 调用真实的生产 ranking 服务来取奖励代价过高。UniVA 沿用 GPR 的 simulation-based post-training 范式,从最近的生产快照构造高保真离线模拟器——重现候选 inventory、特征 pipeline、业务约束和下游 ranking stack——为 RL 训练提供可扩展的 reward 评估能力,且无需占用 serving 资源。

RL 训练数据通过对录制的线上请求进行 simulation sampling 获得,因此 sampling 策略直接决定 policy learning 上限。UniVA 把原本的固定 5% 采样改为自适应采样到全流量,依据是历史学习难度与预测熵,并进一步用从用户最新状态推断的 simulated future requests 增广 replay。

Trajectory Collection(Beam Search + MCTS-PPO)

RL 阶段中,encoder 先产生 context state $h$,policy head 定义 token 生成 policy $\tilde{\pi}_\theta(\cdot \mid s_{\lt l}, h)$。Trajectory 由两条来源构成:

$$\mathcal{Y}(h) = \mathcal{Y}_\text{beam}(\tilde{\pi}_\theta(\cdot \mid h)) \cup \mathcal{Y}_\text{mcts-ppo}\bigl(\tilde{\pi}_\theta(\cdot \mid h), V_\theta(\cdot \mid h)\bigr) = \{y^{(1)}, \ldots, y^{(K)}\} \tag{14}$$

其中 $y^{(k)} = (a_1^{(k)}, \ldots, a_L^{(k)})$ 是一条完整 SID path,$V_\theta$ 是 value head 给出的中间 prefix 的价值估计。Beam search 提供 high-probability rollouts;MCTS-PPO 进一步以 value head 作为节点评估器在 SID 前缀上做结构化探索,发现高价值但 likelihood 偏低的有前途路径。在节点 $n$ 处,MCTS-PPO 按下式选择 action:

$$a^* = \arg\max_{a \in \mathcal{A}(n)} \left( \tilde{Q}(n, a) + c \sqrt{\frac{\log N(n)}{1 + N(n, a)}} \right) \tag{15}$$

其中 $\tilde{Q}$、$N(n)$、$N(n, a)$ 分别是运行平均 action value、节点访问数和边访问数。线上服务则只用 beam search 以保证效率——这一点很关键:MCTS 只在训练阶段提供探索能力,线上 inference 不会承担 MCTS 开销。

每条采样 path resolve 为具体广告并由复用的生产 pCTR/pCVR 模型产生 eCPM reward:

$$R_\text{eCPM}^{(k)} = g_\text{eCPM}(h, y^{(k)}) \tag{16}$$

UniVA 进一步在每个请求内做 batch-level normalization 来减少跨流量上下文的尺度差异:

$$\hat{R}^{(k)} = \frac{R_\text{eCPM}^{(k)} - \mu_R(h)}{\sigma_R(h) + \epsilon_r} \tag{17}$$

这样 policy update 取决于同一请求内候选间的相对 value 差异而非绝对值,与广告排序"在请求内做 list-wise 选择"的实际目标更一致。

Advantage Estimation 与 Loss

对采样 SID path $y = (a_1, \ldots, a_L)$,UniVA 用 PPO-style GAE 取得 token 级 advantage $A_l$。设 $a_l$ 是 level $l$ 的所选 token,则

$$v_l = o_\text{value}^{(l)}[a_l], \quad \hat{G}_l = A_l + v_l \tag{18}$$

$A_l$ 是相对当前 value baseline 的 advantage,$\hat{G}_l$ 即对应 return target,让 value head 学习预测当前 decoding policy 下 token 级未来 value。

设 $\tilde{\pi}_\text{ref}$ 是与 current model 同架构、参数周期性同步的 lagged reference policy。PPO ratio 与 clipped objective:

$$\rho_l = \frac{\tilde{\pi}_\theta(a_l \mid s_{\lt l})}{\tilde{\pi}_\text{ref}(a_l \mid s_{\lt l})}, \quad \mathcal{L}_\text{PPO} = -\mathbb{E}\left[\min\bigl(\rho_l A_l, \text{clip}(\rho_l, 1-\epsilon, 1+\epsilon)A_l\bigr)\right] \tag{19}$$

value head 用 MSE loss:

$$\mathcal{L}_\text{value} = \mathbb{E}\left[(v_l - \hat{G}_l)^2\right] \tag{20}$$

总 RL loss:

$$\mathcal{L}_\text{RL} = \mathcal{L}_\text{PPO} + \lambda_v \mathcal{L}_\text{value} \tag{21}$$

$\lambda_v$ 平衡 policy 更新与 value 回归。该目标使 SID decoding 同时偏向 high-eCPM 路径学到 token 级价值估计

3.4 Joint Optimization

SL 建立稳定的 SID 生成、RL 注入下游商业价值监督。UniVA 把两个阶段以协同迭代训练统一在同一个 decoder 中:

$$\mathcal{L}_\text{train} = \mathbb{I}_\text{SL} \mathcal{L}_\text{SL} + \mathbb{I}_\text{RL} \mathcal{L}_\text{RL} \tag{22}$$

$\mathbb{I}_\text{SL}$、$\mathbb{I}_\text{RL}$ 指示当前 batch 是 SL 还是 RL:SL batch 更新共享 decoder + generation head 走 $\mathcal{L}_\text{SL}$,RL batch 走 $\mathcal{L}_\text{RL}$ 同时更新融合 policy 与 value head。通过交替 SL/RL batches,UniVA 在同一 decoder 内渐进对齐 SID 生成与价值估计,使 decoding 过程趋向 commercially valuable paths——构成一个 training-time generation-as-ranking 与 serving-time 的闭环。

UniVA 把 value-guided 思想贯彻到线上服务,让 commercial value 直接参与 beam expansion:

Personalized Trie

首先在候选 inventory 上建一个全局 valid-path trie tree。对每个进入请求,将定向、库存、创意规则应用到全局 trie,得到个性化子树:

$$\mathcal{T}_u = \Gamma(u)(\mathcal{T}) \tag{23}$$

给定 SID prefix $s_{\lt l}$,它在 personalized trie 下的合法 next-token 集为:

$$\mathcal{V}(s_{\lt l}; \mathcal{T}_u) = \{s_l \in \mathcal{S}_l \mid s_{\leq l} = (s_{\lt l}, s_l) \in \mathcal{P}(\mathcal{T}_u)\} \tag{24}$$

其中 $\mathcal{S}_l$ 是 SID 第 $l$ 层 vocabulary,$\mathcal{P}(\mathcal{T}_u)$ 是 personalized trie 下的合法前缀集。条件在 user state 下,UniVA 仅在 $\mathcal{V}(s_{\lt l}; \mathcal{T}_u)$ 上做 beam search,substantially 减少非法路径扩张,把 decoding 预算集中在请求合法的候选上。

Value Guidance via Fused Logits

在受限搜索空间内,UniVA 把价值信号注入 SID 选择:dual-head decoder 给 candidate token 同时产生 generation 与 value 分数,二者直接 fused 用作 beam-expansion 信号。SID prefix 的累积 beam score 为:

$$\text{Score}(s_{\leq l}) = \sum_{t=1}^l \text{Fuse}\bigl(o_\text{gen}^{(t)}, o_\text{value}^{(t)}\bigr)[s_t], \quad \text{s.t. } s_{\leq l} \in \mathcal{P}(\mathcal{T}_u) \tag{25}$$

这样 commercial value 在线上 decoding 全程参与 token-level 竞争,而不是依赖 likelihood 过滤后的二段排序。结果:beam search 保留的 SID prefix 是 user relevance 与 monetization value 联合首选的,commercial-promising trajectory 在 early decoding 步被剪掉的风险显著降低。Personalized trie 与 value-guided beam scoring 形成互补:前者保证 request-validity 并压缩搜索空间,后者支撑轻量级 value-aware 在线 serving 而不引入额外的 value-ranking 模块。线上服务因此保持 single-pass generation-as-ranking 流程,并完全对齐端到端价值目标。

实验

实验设置

Datasets and Baselines:沿用 GPR,从一个大规模腾讯广告语料构造离线数据集——该语料混合广告与有机媒体(短视频、社交 feed、新闻),训练样本包含 session 级行为与 item 级多模态特征(含 textual metadata、视频帧采样的视觉信号),涵盖现实 mixed-context 评估。预处理上去重、再均衡 category、按 80%/20% 切分训练/测试。Baseline 系统级是 GPR(带 SID Decoder),decoder 级再加入 vanilla decoder-only Transformer 作为额外 baseline,并把 Commercial SID 与不同 SID-decoder 设计逐项叠加做消融。

Implementation Details

  • SID 结构:3 级,codebook size = 2048
  • SID decoder:4 层、embedding 维度 256
  • Commercial SID:自适应 bid-binning 超参 $n_\text{max} = 25$、$n_\text{min} = 3$,最终 binning 方案在词表预算 2048 下按 grid search 最大化 weighted entropy
  • Sparse MoE:64 routed experts,每 token 激活 top-16;hidden dim 128
  • 优化器:Adam,学习率 0.001,batch size 16
  • 输入序列长度:2048

Evaluation Metrics

  • Offline:HR@K(next interacted item retrieval hit rate)。
  • 在 GMV-weighted next-conversion set 上额外报告两个 value-oriented metric:

$$\text{ValueHR@K} = \frac{\sum_{t=1}^T \text{gmv}_{i_t} \cdot \mathbb{I}(i_t \in R_t^K)}{\sum_{t=1}^T \text{gmv}_{i_t}} \tag{value-hr}$$

$$\text{wNDCG@K} = \frac{\sum_{t=1}^T w_t \cdot \text{NDCG}_t @K}{\sum_{t=1}^T w_t}, \quad w_t = \log_{10}(1 + \text{gmv}_{i_t}) \tag{wndcg}$$

其中 $T$ 是 evaluation request 数,$i_t$ 是 ground-truth 转化 item,$\text{gmv}_{i_t}$ 是其 GMV,$R_t^K$ 是模型 top-K 候选集合。ValueHR@K 衡量"top-K 召回覆盖了多少转化金额";wNDCG@K 强调"高价值请求是否被排在前面"。

  • 线上:GMVGMV(normal)——前者直接反映商业回报,后者排除 ROI 类广告。

4.2 Overall Performance

Table 1 报告 SID-level 消融,逐项叠加 Commercial SID、深 decoder(layer2→layer4)、MoR、Sparse MoE,最终得到 UniVA Full。

Table 1: Offline next interacted item prediction performance (HR@100, ΔHR@100 vs. GPR+SID Decoder, Parameters/FLOPs 仅含 SID decoder)

Model Parameters FLOPs ΔHR@100
Base
GPR + SID Decoder 3M 4.1G +0.0%
SID Design
+ Commercial SID 3M 4.1G +5.78%
+ (layer2→layer4) 7M 7.1G +6.10%
+ MoR 5M 7.1G +13.56%
+ Sparse MoE 60M 8.5G +18.40%
UniVA (Full) 80M 23.2G +37.04%

分析:

  • Commercial SID 单独贡献 +5.78%——在不增 decoder 参数和算力的情况下提升下一 item 召回。说明 Commercial SID 引入的 value-structured bias 让同 SID 路径的 item 在商业上更内聚,给模型带来更清晰的学习信号。
  • decoder scaling:从 layer2 到 layer4 的纯加深只带 +6.10%,加 MoR 后冲到 +13.56%(递归复用提升 effective depth),加 Sparse MoE 后到 +18.40%(条件特化容量)。两条 scaling 路径互补:MoR 走深、MoE 走宽。
  • UniVA Full:在 SID design + decoder scaling 之上叠加 eCPM-aware RL 与 joint optimization 后达 +37.04%,远超单纯参数扩展能给的上限。结论是:Commercial SID + 解码器规模化 + value-aware RL + 联合优化是相互独立、可叠加的改进维度

4.3 Value Alignment Performance

为验证 UniVA 是否真的捕获到商业价值,作者在 GMV-weighted next-conversion set 上做 value-oriented 消融。Figure 2 横轴为 K(top-K cutoff),纵轴为 ValueHR 与 wNDCG。

四种 SID 配置对比:32048 SID、38192 SID、22048 SID + CSID、28192 SID + CSID。

  • 2*2048 SID + CSID 在大多数 cutoff 上最优:在 K=10/32/50 都拿到最高的 ValueHR 与 wNDCG。在 K=100 时 ValueHR@100 = 0.0677、wNDCG@100 = 0.0554,明显优于两个 3-level 纯语义 SID 设置。
  • 纯语义 SID 仅在最严格的小 K 处(如 wNDCG@1、wNDCG@10)保留些许优势,对应"pure semantic similarity 在最高严格匹配的小集合内有用"。
  • 3-level vs. 2-level + CSID:增加 codebook size 反而不一定更好。8192 codebook 上 28192 SID + CSID 也只在某些 cutoff 上接近 22048 + CSID,说明中等大小 codebook 与 Commercial SID 配合更稳定——过大词表会 disperse 数据并削弱稳定的商业聚类。
  • 整体结论:UniVA 不仅提升了 prediction accuracy,更显著强化了 value capture。

4.4 More Insights

Commercial SID Quality Analysis

Figure 3 比较引入 Commercial SID 前后在 path-level 上的 bid 离散性统计。横轴为 cutoff 统计量(Mean、P75、P99),纵轴为 log-scale 的 bid std / bid range。

Figure 3: Path-level bid-dispersion statistics for 3-level SID and 2-level SID + Commercial SID — 显示 Commercial SID 显著降低同 SID path 内的 bid 离散度

相对 3-level SID,2-level + CSID 在 Mean、P75、P99 三个统计量上 bid std 与 bid range 都降低约一个数量级。在 log scale 下,中段与尾部下降尤其明显——意味着同一 SID full path 内的 ad 在商业价值上变得更一致,而不再混合宽差距 bid 的广告。直接结论:Commercial SID 给 value-aware decoding 提供了更干净的结构基础,并降低了高方差的不稳定路径。

Commercial SID Strategy Analysis

Figure 4 在两个维度上对比 9 种 Commercial SID 构造组合:横轴 In-bin 策略(Equal-width / Equal-frequency / Clustering),纵轴 Overall 策略(Direct Binning / Classify-then-Bin / Cluster-then-Bin)。每格写出 weighted entropy $H$ 与 vocabulary size $V$,颜色表示 $H$。

Figure 4: Commercial SID strategy comparison across three overall strategies and three in-bin strategies — Classify-then-Bin × Equal-frequency 取得最高 H=7.487、V=1939

  • Classify-then-Bin + Equal-frequency 取得最高 weighted entropy $H = 7.487$、$V = 1939$(接近预算 2048),是最平衡的策略组合。
  • Direct Binning 忽略结构化商业属性,把异构广告混合后再做 bid 离散化,结果分区粗、不平衡。
  • Cluster-then-Bin 改善了 bid 分布分组,但 cluster 不稳定,常以词表效率换取有限的 entropy 收益。
  • In-bin 策略:Equal-width 对长尾出价分布敏感;Clustering 倾向消耗更多词表但 H 收益不一致。

整体结论:Classify-then-Bin + Equal-frequency 是 Commercial SID 构造的最佳折中。

Codebook Size Analysis

Table 2:HR@K comparison under different SID codebook sizes(值为百分点 %)

SID Configuration HR@1 HR@10 HR@32 HR@50 HR@100
3*2048 SID 0.09 0.72 1.60 2.15 3.23
3*8192 SID 0.10 0.83 2.06 2.77 4.03
2*2048 SID + CSID 0.14 1.02 2.17 2.84 4.20
2*8192 SID + CSID 0.09 0.92 1.98 2.63 3.84

分析:

  • 22048 SID + CSID 在所有 cutoff 上一致最优,相比 32048 SID 在 HR@1/HR@10/HR@32/HR@100 上分别提升 55.56%/41.67%/32.09%/30.03%
  • 但 28192 SID + CSID 在所有 cutoff 上反而比 38192 SID 略差。原因是 Commercial SID 词表固定 2048,与 2048 semantic codebook 自然对齐;换成 8192 semantic codebook 后引入了词表 mismatch,反而削弱了细化语义切分的收益。
  • 结论:Commercial SID 与中等规模 semantic codebook 配合最稳——明确价值建模补充语义结构,但不需要过度的语义碎片化。

4.5 Online A/B Test

在固定 beam width = 300 的条件下:

  • Personalized trie-based beam search 产出 300 条 valid SID path
  • 未加 trie 的 beam search 仅产出 48 条——只有 16% 是 trie-合法的有效路径。

意味着 trie 在 expansion 之前就过滤了非法分支,beam capacity 集中到 feasible path 上而不是浪费在违反 inventory/targeting 的候选上。UniVA 因此节省了线上搜索资源,同时在相同 decoding budget 下产出更多 valid 广告创意。

Online GMV Results

Table 3:Online A/B test on Tencent WeChat Channels advertising traffic, March 7-11, 2026, 5% traffic(相对生产 baseline 的相对 lift)

Online Version GMV Lift GMV(normal) Lift
v1 w/o Generation-as-Ranking +1.03% +1.17%
v2 with Generation-as-Ranking +1.50% +1.42%

分析:

  • v1(仅 Commercial SID + value-enhanced decoder,但不加 generation-as-ranking 的线上版本)已经获得 +1.03% GMV、+1.17% GMV(normal)。这验证了即使在 Generation-as-Ranking 之前,value-aware SID 构造与 value-enhanced decoder 在生产中已带来显著正向收益
  • v2 进一步引入 generation-as-ranking,GMV / GMV(normal) lift 上升到 +1.50% / +1.42%。说明 candidate generation 与 value guidance 在同一次 decoding 中统一后,SID decoder 真正在线上 search 中"使用价值信号",把 joint optimization 转化为可观察的真实 monetization 改进。

与已归档相关工作的对比

OneRanker OneRanker: Unified Generation and Ranking with One Model in Industrial Advertising Recommendation (Tencent WeChat Ads, 2026-03-03)

关系:独立并发(UniVA 与 OneRanker 同源 Tencent WeChat 广告系统但互不引用,各自给出截然不同的"统一生成+排序"路径)· 已加载对方精读

  • 共同关注的问题:两者都瞄准微信视频号广告中的生成式广告推荐 + 兴趣/价值统一优化问题,都强调商业价值不能仅作为 post-generation 的下游辅助信号;都明确指出"生成器先做、排序器再做"的二段式范式存在 representation/optimization fragmentation。
  • 相近的技术骨架:两者都把 GR backbone(HSTU-style decoder + GPR token schema)作为统一架构的起点,都在 decoder 内部把 value/ranking 信号"内化",避免线上额外加一段 ranking module;都用 list-wise 价值信号来训练,并都做了线上 A/B 验证。
  • 本文(UniVA)的差异与推进:UniVA 把"价值统一"贯彻到了 token 空间本身——通过 Commercial SID(classify-then-bin + weighted entropy)让最后一层 SID 直接编码商业属性 + bid bin;同时通过 dual-head(generation head + value head)在每个 token-level 决策上融合价值,并且用 eCPM-aware PPO + MCTS-PPO 做 RL 后训练,再以 personalized trie + fused logits 把同一信号搬到线上 beam search。它的"统一"是 token-level 的,且关键改造在 SID 构造与 RL 阶段。
  • OneRanker 的差异:OneRanker 把"统一"放在架构级三阶段(Generation → Multi-Task/Target-Aware → Unified Ranking),通过 task tokens(含独立的 value-aware task token)+ fake item tokens 做 target-aware 的多任务解耦;价值信号通过 BPR loss 与 KL 形式的 Distributional Consistency Loss 注入,而不是 RL/dual-head logits。Decoder 端不改 SID tokenizer,主要靠 R-Decoder + Cross-Attention prioritization。
  • 可比的方法 / 实验差异:UniVA 强调 Commercial SID 单独 +5.78% HR@100、Full UniVA +37.04% HR@100、Online GMV +1.50%;OneRanker 不在同一表里直接对比,但报告其 Wechat Channels 部署 lift。两者各自承担互补假设:UniVA 倾向"在 SID 与 RL 上重做一遍",OneRanker 倾向"在 decoder 之上加一个统一 ranking 阶段",对未来工作可以作为同问题域的 architecturally orthogonal 候选。

GR4AD GR4AD: Generative Recommendation for Large-Scale Advertising (Kuaishou, 2026-02-26)

关系:显式引用但原文未展开对比(UniVA 把 GR4AD 与 LLaTTE/EGA-v2 一起作为"existing approaches still optimize commercial objectives in a fragmented manner"的代表,未在 ablation 中直接比对)· 已加载对方精读

  • 共同关注的问题:完全同构——把 GR 范式落到工业广告系统时,需要协同重设 tokenization、训练、和服务三层,使商业价值(eCPM/GMV)成为一等公民;两者都坚信单纯靠在 loss 上加权或 post-rank 做不到 production-grade value alignment。
  • 相近的技术骨架:两者都引入 value-aware 的 SID 分词器(UniVA 的 Commercial SID vs. GR4AD 的 UA-SID);都把训练分成 SL + value-aware RL(UniVA 的 SL+PPO/MCTS-PPO vs. GR4AD 的 VSL+RSPO);都引入 batch/request 级 normalization;都做 value-aware 的服务侧裁剪(UniVA 的 personalized trie + value-guided beam vs. GR4AD 的 Dynamic Beam Serving)。
  • 本文(UniVA)的差异与推进:UniVA 的 value 信号在 SID 最后一层显式离散化 bid + 商业属性的组合(classify-then-bin + weighted entropy 选 bin),并通过 dual-head fused logits 在 decoding 内部参与 token 选择;RL 用 MCTS-PPO 做高价值低概率路径的探索。这两点是 GR4AD 没有的关键设计。
  • GR4AD 的差异:GR4AD 的 UA-SID 在最后一层用 hash-based 数值映射处理非语义业务信号(vs. UniVA 的 attribute compression + classify-then-bin 真正离散化 bid);其 VSL 把 eCPM 离散化为序列尾的额外 token 而不是融入解码器输出 head;其 RL(RSPO)走 list-wise NDCG 上界 + reliability-gated reference policy,而 UniVA 走 single-request normalized PPO + MCTS。两者在工程取舍上互补:GR4AD 强调 inference 加速(LazyAR / DBS),UniVA 强调线上 trie + dual-head 的 single-pass generation-as-ranking。
  • 数据点对比:UniVA 在 Tencent WeChat Channels 报告 +1.50% GMV / 5% traffic A/B;GR4AD 在 Kuaishou 报告 +4.2% ad revenue(量级不同、业务定义不同,不能直接比对)。两者协同验证了"value-aware GR 是 industrial advertising 的可落地方向"。

GEM-Rec GEM-Rec: One Model, Two Markets — Bid-Aware Generative Recommendation (Google Research, 2026-03-23)

关系:独立并发(UniVA 未引用 GEM-Rec,两者都把"价值/出价"引入 SID-based GR,但落点不同)· 已加载对方精读

  • 共同关注的问题:均认为现有 SID-based GR 完全忽略商业价值/出价,需要让 decoder 直接处理经济信号而不是依赖外部 merge/blend 模块。
  • 相近的技术骨架:两者都在 SID 解码阶段直接接入价值信号;都明确 single-pass decoding 内同时完成 candidate generation 与 value 评估。
  • 本文(UniVA)的差异与推进:UniVA 面向的是纯广告场景下的 value alignment,价值信号通过 Commercial SID 的最后一层 token 与 dual-head value 在每个 token 级竞争中注入;并通过 eCPM-aware RL 学习端到端 generation-as-ranking policy
  • GEM-Rec 的差异:GEM-Rec 解决的是有机内容 + 赞助广告混合序列问题,引入 <ORG>/<AD> flag token 来显式分槽位,并用 inference-time logit modulation(slot-level + item-level)把实时出价注入 beam search,定价采用 first-price 拍卖;它的 value 信号主要通过 logit 加性 modulation 进入解码,没有 RL 后训练,也没有改 tokenizer。
  • 核心差异:UniVA 是训练时 + 解码时双重价值对齐(重做 SID + 加 value head + RL);GEM-Rec 是仅解码时通过 logit 调制注入 bid,并把 organic vs. ad 的混合预算建模为分层采样问题。两者代表了"重 training-side 改造 (UniVA) vs. 轻 decoder-side 调制 (GEM-Rec)"两条对偶设计哲学,可在不同体量与业务约束下互相借鉴。

核心贡献总结

  1. 形式化 value inconsistency 问题:作者首次系统地将广告 GR 中的"价值不一致"分解为 tokenization、autoregressive decoding、online serving 三层断裂,并以此为问题域设计统一解。
  2. Commercial SID tokenizer:通过 attribute compression + classify-then-bin + weighted entropy 离散化 bid,让 SID 路径的最后一层从纯语义切到显式商业可分,为后续 value-aware decoding 提供了 token 级基础。
  3. Generation-as-Ranking SID Decoder:dual-head(gen + value)+ fused logits + MoE × MoR scalable backbone,使 generation 与 ranking 在同一次 SID 自回归内同时发生,避免传统 generate-then-rank 的额外 stage 与表示断裂。
  4. eCPM-aware RL (PPO + MCTS-PPO):以 simulation-based reward 与 batch-level normalized advantage 在 SID 自回归 policy 上做 RL,结合 MCTS 进行结构化 prefix 探索,发现高价值低概率路径。
  5. Value-Guided Personalized Beam Search:以 personalized trie 把 beam expansion 限制到 request-valid 路径,再以 dual-head fused logits 直接复用为线上 value 评分,不引入额外 ranking 模块。
  6. 生产验证:在 Tencent WeChat Channels 广告平台的离线 / 线上实验中,offline HR@100 +37.04%,online GMV +1.50%、GMV(normal) +1.42%,证明 value-aware GR 在量级最大的工业广告场景下可落地、可观测、可演进。

讨论与局限性

值得借鉴的设计

  • Token-level value injection(Commercial SID)相比仅在 loss / post-rank 加权更"原生"——它从结构上避免"语义路径上的高价值候选被早剪",对所有价值导向的 GR 都是值得复用的设计。
  • Dual-head fused logits 用作线上 value 信号:把 RL 训练时学到的 value head 直接挪到线上 beam scoring,避免线上加额外 ranking 模型,是一个 cost-effective 的工程妙招。
  • Personalized trie + valid-path constraint:把 inventory/targeting 规则作为生成时的 hard constraint 而不是事后过滤,让 beam capacity 集中在合法分支,是工业 GR 落地的一个重要 enabler。
  • MCTS-PPO 仅用于训练阶段:保留高价值低概率路径的探索能力,又不付线上 MCTS 开销,对其它 industrial GR RL 后训练有借鉴意义。

局限与争议

  • Commercial SID 假设 bid 信号可观测且足够稳定——对于 ROI 类广告或冷启广告,bid 不存在或漂移大,需要 fallback 到全局 bid 离散化,这部分 inference 期 fallback 的覆盖与稳定性论文未充分量化。
  • A/B lift 的可解释性:只有两个版本(v1 / v2),缺少把 RL、joint optimization、value-guided beam search 各自单独的线上 lift 拆开的细分实验,无法定位每个组件在生产中的贡献占比。
  • simulation-based reward 与真实线上 reward 的 gap:UniVA 强调把 RL 的 reward 由真实 ranking 服务换成 simulator 来节省成本,但 simulator 与生产 ranker 的差距如何随时间漂移、是否需要 periodic recalibration 论文未说明。
  • 可迁移性:所有实验都基于 WeChat Channels 单平台,token-level value 离散化中"O/r/ind"等属性的取值与 99% 覆盖切分都依赖该平台的具体分布,迁移到其它广告平台需重新做 attribute coverage 调参。
  • 对长尾广告主公平性:value-guided beam 会偏向 high-eCPM 路径,长尾广告主的曝光是否被进一步压制?论文没有专门的 fairness / diversity 评估。

与已有工作的差异:相对 GPR、HSTU 等 semantics-centric GR backbone,UniVA 在 SID + decoder + RL + serving 四个层次上同时把"商业价值"作为一等信号嵌入;相对 GR4AD(Kuaishou)等同期工业广告 GR 工作,UniVA 在 SID 上选择"显式离散化 bid + classify-then-bin"路线,在 decoder 上选择"dual-head fused logits"路线,在 RL 上选择"PPO + MCTS-PPO"路线,与 GR4AD 的 LazyAR + VSL + RSPO 形成同问题域下的并行解法;相对 OneRanker,UniVA 更强调 token-level 价值嵌入而非架构级三阶段重构,是一种"轻架构改造、重 token+RL 改造"的对偶选择。

工业落地价值:UniVA 的几乎每一个设计——Commercial SID、dual-head、personalized trie、MCTS-PPO 仅训练用——都明确以 production-grade serving 为约束。其在 WeChat Channels 上的 5% 流量 A/B 已经验证 GMV +1.50%,对一个亿级 DAU 的广告系统而言意味着可观的实际收入提升。