1. 研究背景与动机¶
生成式推荐(Generative Recommendation, GR)利用 Semantic IDs(SIDs)替代传统 item embedding,通过编码-解码架构和 Next Token Prediction(NTP)框架实现候选生成,在存储效率和训练效率上具有优势。然而,现有 GR 框架(如 OneRec、TIGER、HSTU 等)均面向单一业务设计,缺乏多业务优化能力。
在美团等大型平台上,用户行为横跨外卖、团购、娱乐、医疗等多个业务线。为每个业务独立部署 GR 模型导致训练和维护成本高,且无法充分利用跨业务用户数据。设计多业务 GR 框架面临两个核心挑战:
- 跷跷板效应(Seesaw Phenomenon):多业务信号混合且难以区分,不同业务的用户行为差异大,NTP 框架难以捕获跨业务的复杂行为模式
- 表征混淆(Representation Confusion):多个业务共享统一 SID 空间,压缩异构数据到同一语义空间导致梯度耦合,无法在生成语义 ID 时区分不同业务的语义信息
2. 问题形式化¶
给定用户 $u$ 的跨业务历史交互序列:
$$S_u = \{s_{u,1}, s_{u,2}, ..., s_{u,L}\} \tag{1}$$
其中每个交互 $s_{u,t} = (i_{u,t}, b_{u,t}, t_{u,t})$ 包含 item ID、业务类型和时间戳。
目标是同时为 $K$ 个业务生成下一个 item 的 Semantic ID,最大化条件概率:
$$P(T_u^{(1:K)} | S_u) = \sum_{k=1}^{K} P(T_u^{(k)} | S_u, b_k) \tag{2}$$
其中 $T_u^{(k)} = \{t_1^{(k)}, t_2^{(k)}, ..., t_{L_k}^{(k)}\}$ 为业务 $b_k$ 的 Semantic ID token 序列。
3. MBGR 框架¶
MBGR 由三个核心模块组成:Business-aware semantic ID(BID)、Multi-Business Prediction(MBP)和 Label Dynamic Routing(LDR)。
3.1 Business-aware Semantic ID(BID)模块¶
BID 模块采用双路径自编码器架构,同时服务于输入表征学习和下一项预测,解决两个问题:(1) 将业务上下文融入共享 token 表征;(2) 减少编码过程中的语义信息损失。
Business-Aware Encoder:将输入 token embeddings $\mathbf{t}_i = [\mathbf{t}_{i,1}, \mathbf{t}_{i,2}, ..., \mathbf{t}_{i,K}] \in \mathbb{R}^{K \cdot d_t}$ 转换为业务感知 item 表征 $\mathbf{e}_i \in \mathbb{R}^{d_e}$:
$$\mathbf{e}_i^{enc} = \text{FFN}_{enc}([\mathbf{t}_i, \mathbf{b}_i]) \tag{3}$$
$$\mathbf{g}_i^{enc} = \sigma(\text{FFN}_{gate}^{enc}([\mathbf{e}_i^{enc}, \mathbf{b}_i])) \tag{4}$$
$$\mathbf{e}_i = \mathbf{e}_i^{enc} \odot \mathbf{g}_i^{enc} \tag{5}$$
Business-Conditioned Decoder:从 item 表征重建 token embeddings 并生成下一项 token 序列:
$$\hat{\mathbf{t}}_i^{dec} = \text{FFN}_{dec}([\mathbf{e}_i, \mathbf{b}_i]) \tag{6}$$
$$\mathbf{g}_i^{dec} = \text{ReLU}(\text{FFN}_{gate}^{dec}([\hat{\mathbf{t}}_i^{dec}, \mathbf{b}_i])) \tag{7}$$
$$\hat{\mathbf{t}}_i = \hat{\mathbf{t}}_i^{dec} \odot \mathbf{g}_i^{dec} \tag{8}$$
BID 模块的关键创新:
- 双路径架构:同时学习业务感知表征和预测多业务 token
- 语义保持:重建目标确保编码过程最小信息损失
- 业务上下文注入:编码器和解码器均通过业务类型 embedding $\mathbf{b}_i$ 注入业务信息
- 参数共享:同一解码器用于重建和预测,提升效率
3.2 Multi-Business Prediction(MBP)模块¶
MBP 基于 Transformer 自回归框架,同时为多个业务域预测下一项。
Sequence Encoding:历史交互序列 $S_u$ 经 BID encoder 编码为 item 表征。
Business-Aware Item Representation:采用参数共享的 Mixture-of-Experts(MoE)架构,将通用 item 表征动态转换为业务特定表征。给定通用 item 表征 $\mathbf{e} \in \mathbb{R}^{d_e}$,MBP 模块通过三阶段变换生成业务特定表征 $\mathbf{e}^b$:
- Contextual Fusion:拼接 item embedding 与业务上下文
$$\mathbf{z}^b = [\mathbf{e}, \mathbf{b}] \in \mathbb{R}^{d_e + d_b} \tag{9}$$
- Adaptive Gating:计算业务特定的注意力权重
$$\mathbf{g}^b = \text{SiLU}(\text{FFN}_{gate}(\mathbf{z}^b)) \in \mathbb{R}^K \tag{10}$$
- Expert Aggregation:组合专家化变换
$$\mathbf{e}^b = \sum_{k=1}^{K} g_k^b \cdot \text{FFN}_k^{exp}(\mathbf{z}^b) \in \mathbb{R}^{d_e} \tag{11}$$
Business-Aware SID 表征生成:业务特定表征 $\mathbf{e}^b$ 通过 BID 的 Business-Conditioned Decoder 解码为 Semantic ID token 序列:
$$\tilde{T}_u^{(k)} = \text{Decode}(\mathbf{e}^b, b_k) \tag{12}$$
3.3 Label Dynamic Routing(LDR)模块¶
对于序列中每个位置 $t$ 和每个业务类型 $b_k$,预测目标为该业务最近的下一次交互:
$$i_{u,t+1}^{(k)} = i_{u,t'} \quad \text{where} \quad t' = \min\{t'' \gt t | b_{u,t''} = b_k\} \tag{13}$$
若某业务在位置 $t$ 之后没有交互,则对该业务 mask 损失。模型为每个业务 $b_k$ 使用独立的预测头,以自回归方式生成 Semantic ID token 序列 $T_u^{(k)} = \{t_1^{(k)}, t_2^{(k)}, ..., t_{b_k}^{(k)}\}$。
LDR 将稀疏的多业务标签转换为密集标签,增强多业务生成能力。
4. 模型训练¶
4.1 训练目标¶
总训练目标结合 InfoNCE 损失和重建损失:
$$\mathcal{L} = \mathcal{L}_{\text{infoNCE}} + \lambda \cdot \mathcal{L}_{\text{recon}} \tag{14}$$
4.2 InfoNCE Loss¶
InfoNCE 损失跨所有业务域和 token 位置计算:
$$\mathcal{L}_{\text{infoNCE}} = -\sum_{b=1}^{B} w_b \cdot w_t \sum_{i=1}^{N} \sum_{k=1}^{K} \log \frac{\exp(\text{sim}(\hat{\mathbf{t}}_{i,k}^b, \mathbf{t}_{i,k}^b) / \tau)}{\sum_{j=1}^{|\mathcal{V}_k|} \exp(\text{sim}(\hat{\mathbf{t}}_{i,k}^b, \mathbf{v}_{j,k}) / \tau)} \tag{15}$$
其中:
- $B$ 为业务数量,$w_b$ 为业务权重
- $w_t = \exp(-\alpha \cdot (t_{\text{last}} - t_{u,t+1}^{(k)}))$ 为时间衰减系数,$\alpha$ 控制衰减速率
- $N$ 为 batch 中 item 数量,$K$ 为每个 item 的 SID token 数量
- $\tau$ 为温度参数
- $\hat{\mathbf{t}}_{i,k}^b$ 为预测的第 $k$ 个 token embedding,$\mathbf{t}_{i,k}^b$ 为真值 token embedding
- $\mathbf{v}_{j,k}$ 为词表 $\mathcal{V}_k$ 中的负样本
4.3 重建损失¶
$$\mathcal{L}_{\text{recon}} = \frac{1}{K} \sum_{k=1}^{K} \|\bar{T}_u^{(k)} - \tilde{T}_u^{(k)}\|_2 \tag{16}$$
度量原始和重建 token embeddings 的差异,确保编码过程最小信息损失。
5. 实验¶
5.1 实验设置¶
数据集:
- 生成式训练数据集(美团平台,一年用户行为数据):
- 用户量:38,258,649
- 商户量:54,875,570,分四个业务:A(61.47%)、B(9.56%)、C(12.31%)、D(16.66%)
-
时间跨度:一年连续用户交互
-
下游应用数据集(部署阶段,更大规模):
- 用户量:37,349,276
- 交互量:783,946,360
- 更新频率:每日刷新,保留最近 30 天窗口
Baselines:
- SASRec:单向 Transformer 架构,利用自注意力捕获序列依赖
- HSTU(Hierarchical Sequential Transduction Unit):层次化 Transformer 架构,专为大规模生成式推荐设计
评估指标:
- 生成式训练阶段:HR@10(按业务分别计算)
- 下游应用阶段:GAUC(按业务分别计算)
实现细节:
- 框架:PyTorch 2.7.0,NVIDIA A100-80GB GPU
- 优化器:Adam,学习率 0.001
- 参数初始化:正态分布($\mu = 0, \sigma = 0.01$)
- 模型配置:8 attention heads,16 transformer layers,128 维 embeddings
- 批大小:1024
- 最大序列长度:1500
5.2 生成式性能(Table 1: Hit@10 Performance Across Business Categories)¶
| Model | All | A (61.47%) | B (9.56%) | C (12.31%) | D (16.66%) |
|---|---|---|---|---|---|
| SASRec | 0.0192 | 0.0218 | 0.0101 | 0.0178 | 0.0269 |
| Tiger | 0.0202 | 0.0231 | 0.0128 | 0.0180 | 0.0278 |
| HSTU | 0.0214 | 0.0231 | 0.0127 | 0.0198 | 0.0299 |
| Transformer-MBGR | 0.0341 | 0.0245 | 0.0412 | 0.0321 | 0.0387 |
| HSTU-MBGR | 0.0410 | 0.0252 | 0.0554 | 0.0398 | 0.0421 |
结论:HSTU-MBGR 在所有业务类别上均取得最佳性能。相比基线 HSTU,整体 HR@10 从 0.0214 提升至 0.0410(+91.6%),在小业务 B 上提升最为显著(0.0127 -> 0.0554,+336%)。MBGR 框架对小业务的提升尤为突出,验证了其多业务信号分离的有效性。
两个 MBGR 变体中,HSTU-MBGR 优于 Transformer-MBGR,因为 HSTU 的层次化转导机制更适合处理高基数 item 空间。
5.3 下游 CTCVR GAUC 性能(Table 2: Downstream CTCVR GAUC Comparison)¶
| Model | All | A (61.47%) | B (9.56%) | C (12.31%) | D (16.66%) |
|---|---|---|---|---|---|
| Baseline | 0.7748 | 0.7080 | 0.7594 | 0.8852 | 0.7466 |
| MBGR | 0.8040 | 0.7135 | 0.8258 | 0.9052 | 0.7717 |
| Improvement | +3.8% | +0.8% | +8.7% | +2.3% | +3.4% |
结论:MBGR 在下游 CTCVR GAUC 上整体提升 3.8%,其中小业务 B 提升最为显著(+8.7%),验证了 BID 和 MBP 模块生成的业务感知表征对下游排序模型的增强效果。
5.4 BID Encoder 有效性分析¶
通过 PCA 降维可视化 embedding 分布,BID encoder 相比简单 sum pooling 方法呈现三个特性: 1. 业务分离:不同业务类型之间边界更清晰,尤其小业务 B 和 C 2. 自然关联保持:业务间保持合理重叠,反映真实业务关联 3. 比例对齐:聚类模式与实际业务比例对齐
5.5 消融实验(Table 3: Ablation Study Results on Hit@10 Performance)¶
| Model (HSTU based) | All | A (61.47%) | B (9.56%) | C (12.31%) | D (16.66%) |
|---|---|---|---|---|---|
| w/o LDR | 0.0268 | 0.0215 | 0.0312 | 0.0245 | 0.0301 |
| w/o MBP | 0.0330 | 0.0241 | 0.0401 | 0.0312 | 0.0365 |
| w/o BID | 0.0335 | 0.0243 | 0.0408 | 0.0318 | 0.0372 |
| Full MBGR | 0.0410 | 0.0252 | 0.0554 | 0.0398 | 0.0421 |
结论:
- LDR 模块贡献最大:移除后整体 HR@10 从 0.0410 降至 0.0268(-34.6%),尤其小业务 B 从 0.0554 降至 0.0312(-43.7%)
- MBP 模块对小业务提升显著,B 从 0.0554 降至 0.0401(-27.6%)
- BID 模块在所有业务上均有贡献
- 三个模块存在协同效应,组合后性能最优
5.6 超参数分析¶
时间衰减系数 $\alpha$(Table 4)¶
| $\alpha$ | All | A | B | C | D |
|---|---|---|---|---|---|
| 0.01 | 0.0382 | 0.0241 | 0.0512 | 0.0371 | 0.0403 |
| 0.05 | 0.0410 | 0.0252 | 0.0554 | 0.0398 | 0.0421 |
| 0.10 | 0.0397 | 0.0248 | 0.0531 | 0.0385 | 0.0412 |
| 0.20 | 0.0375 | 0.0239 | 0.0498 | 0.0362 | 0.0391 |
| 0.50 | 0.0341 | 0.0225 | 0.0442 | 0.0328 | 0.0357 |
结论:$\alpha = 0.05$ 最优,平衡近期和历史交互。小业务(B, C)受益于适度衰减($\alpha = 0.05-0.10$),大业务 A 对 $\alpha$ 更鲁棒,过大的 $\alpha$($\geq 0.20$)在所有业务上均损害性能。
业务权重 $w_b$(Table 5 & Table 6)¶
| Business | Proportion | Weight ($w_b$) | Rationale |
|---|---|---|---|
| A | 61.47% | 0.9 | 稳定用户偏好,更新频率低 |
| B | 9.56% | 1.5 | 偏好变化快,业务价值高 |
| C | 12.31% | 1.3 | 适度动态性,战略重要性 |
| D | 16.66% | 1.0 | 均衡特性,基准权重 |
| Configuration | All | A | B | C | D |
|---|---|---|---|---|---|
| Uniform ($w_b = 1.0$) | 0.0368 | 0.0235 | 0.0487 | 0.0342 | 0.0381 |
| Inverse Frequency | 0.0360 | 0.0243 | 0.0521 | 0.0375 | 0.0379 |
| Empirical (Ours) | 0.0410 | 0.0252 | 0.0554 | 0.0398 | 0.0421 |
结论:经验权重策略比均匀权重整体提升 11.4%,对小业务特别有效(B: +13.8%, C: +16.4%)。逆频率策略帮助小业务但损害整体性能。权重设计遵循:小业务给予更高权重以对冲大业务梯度主导,偏好变化快的业务需要更高权重,权重归一化以维持总体损失规模。
Expert 数量 $K$(Table 7)¶
| $K$ | All | A | B | C | D |
|---|---|---|---|---|---|
| 4 | 0.0379 | 0.0242 | 0.0503 | 0.0361 | 0.0392 |
| 8 | 0.0410 | 0.0252 | 0.0554 | 0.0398 | 0.0421 |
| 16 | 0.0401 | 0.0249 | 0.0538 | 0.0387 | 0.0413 |
| 32 | 0.0387 | 0.0243 | 0.0512 | 0.0372 | 0.0398 |
结论:$K = 8$ 为所有业务最优。更大 $K$ 导致参数碎片化,收益递减。小业务更受益于适度 expert 数量。
5.7 线上实验(Table 8: Business-wise CTCVR Improvements)¶
在美团 30% 流量上进行一周 A/B 测试:
| Business | Proportion | CTCVR Improvement |
|---|---|---|
| A | 61.47% | +3.0% |
| B | 9.56% | +7.5% |
| C | 12.31% | +4.5% |
| D | 16.66% | +5.2% |
| Weighted Average | 100% | +3.98% |
结论:线上 CTCVR 加权平均提升 +3.98%($p \lt 0.01$),各业务均有提升,小业务增益更大,与离线实验结论一致。MBGR 已成功部署在美团实时竞价(RTB)广告系统中。
6. 系统部署¶
MBGR 采用增量集成的部署策略,而非 OneRec/EGA 的端到端方案。生成的用户和商户 embedding 以两种方式利用:
- User Embedding Retrieval:从分布式缓存直接检索预计算的业务特定 embedding
- Item Embedding Generation:两阶段过程,先 token 级 embedding 查找,再通过 BID encoder 在线编码
这种架构避免了端到端方案在 RTB 系统中的不稳定性风险,确保系统稳定性的同时充分利用 MBGR 的表征能力。
7. 总结与评价¶
核心贡献: 1. 首个面向多业务场景的生成式推荐框架 2. BID + MBP + LDR 三模块协同,从模型结构(MoE expert tower)和标签路由两个维度分离多业务信号 3. 大规模工业落地验证
优点:
- 问题定义清晰,跷跷板效应和表征混淆是多业务 GR 的真实痛点
- 三个模块设计直觉合理,LDR 将稀疏标签转为密集标签的思路简洁有效
- 消融和超参数分析充分
- 线上效果显著
局限性:
- 实验仅在美团内部数据集上进行,无公开数据集对比,可复现性受限
- 仅对比 SASRec 和 HSTU 两个 baseline,缺少与 COBRA、OneRec 等最新 GR 方法的对比
- 业务权重需要人工调参,缺乏自适应机制
- 四个业务的具体类别未公开,仅用 A/B/C/D 代替