← Back to list
MBGR

MBGR: Multi-Business Prediction for Generative Recommendation at Meituan

生成式推荐 Meituan
Abstract 7 Reading 7 Rating —
2026-04-03
Changhao Li, Junwei Yin, Zhilin Zeng, Senjie Kou, Shuli Wang, Wenshuai Chen, Yinhua Zhu, Haitao Wang, Xingxing Wang
Meituan
提出首个面向多业务场景的生成式推荐框架MBGR,通过BID、MBP和LDR三个模块解决跨业务跷跷板效应和表征混淆问题,在美团线上CTCVR提升3.98%
ad-rec industrial moe semantic-id transformer

1. 研究背景与动机

生成式推荐(Generative Recommendation, GR)利用 Semantic IDs(SIDs)替代传统 item embedding,通过编码-解码架构和 Next Token Prediction(NTP)框架实现候选生成,在存储效率和训练效率上具有优势。然而,现有 GR 框架(如 OneRec、TIGER、HSTU 等)均面向单一业务设计,缺乏多业务优化能力。

在美团等大型平台上,用户行为横跨外卖、团购、娱乐、医疗等多个业务线。为每个业务独立部署 GR 模型导致训练和维护成本高,且无法充分利用跨业务用户数据。设计多业务 GR 框架面临两个核心挑战:

  1. 跷跷板效应(Seesaw Phenomenon):多业务信号混合且难以区分,不同业务的用户行为差异大,NTP 框架难以捕获跨业务的复杂行为模式
  2. 表征混淆(Representation Confusion):多个业务共享统一 SID 空间,压缩异构数据到同一语义空间导致梯度耦合,无法在生成语义 ID 时区分不同业务的语义信息

2. 问题形式化

给定用户 $u$ 的跨业务历史交互序列:

$$S_u = \{s_{u,1}, s_{u,2}, ..., s_{u,L}\} \tag{1}$$

其中每个交互 $s_{u,t} = (i_{u,t}, b_{u,t}, t_{u,t})$ 包含 item ID、业务类型和时间戳。

目标是同时为 $K$ 个业务生成下一个 item 的 Semantic ID,最大化条件概率:

$$P(T_u^{(1:K)} | S_u) = \sum_{k=1}^{K} P(T_u^{(k)} | S_u, b_k) \tag{2}$$

其中 $T_u^{(k)} = \{t_1^{(k)}, t_2^{(k)}, ..., t_{L_k}^{(k)}\}$ 为业务 $b_k$ 的 Semantic ID token 序列。

3. MBGR 框架

MBGR 由三个核心模块组成:Business-aware semantic ID(BID)、Multi-Business Prediction(MBP)和 Label Dynamic Routing(LDR)。

3.1 Business-aware Semantic ID(BID)模块

BID 模块采用双路径自编码器架构,同时服务于输入表征学习和下一项预测,解决两个问题:(1) 将业务上下文融入共享 token 表征;(2) 减少编码过程中的语义信息损失。

Business-Aware Encoder:将输入 token embeddings $\mathbf{t}_i = [\mathbf{t}_{i,1}, \mathbf{t}_{i,2}, ..., \mathbf{t}_{i,K}] \in \mathbb{R}^{K \cdot d_t}$ 转换为业务感知 item 表征 $\mathbf{e}_i \in \mathbb{R}^{d_e}$:

$$\mathbf{e}_i^{enc} = \text{FFN}_{enc}([\mathbf{t}_i, \mathbf{b}_i]) \tag{3}$$

$$\mathbf{g}_i^{enc} = \sigma(\text{FFN}_{gate}^{enc}([\mathbf{e}_i^{enc}, \mathbf{b}_i])) \tag{4}$$

$$\mathbf{e}_i = \mathbf{e}_i^{enc} \odot \mathbf{g}_i^{enc} \tag{5}$$

Business-Conditioned Decoder:从 item 表征重建 token embeddings 并生成下一项 token 序列:

$$\hat{\mathbf{t}}_i^{dec} = \text{FFN}_{dec}([\mathbf{e}_i, \mathbf{b}_i]) \tag{6}$$

$$\mathbf{g}_i^{dec} = \text{ReLU}(\text{FFN}_{gate}^{dec}([\hat{\mathbf{t}}_i^{dec}, \mathbf{b}_i])) \tag{7}$$

$$\hat{\mathbf{t}}_i = \hat{\mathbf{t}}_i^{dec} \odot \mathbf{g}_i^{dec} \tag{8}$$

BID 模块的关键创新:

  • 双路径架构:同时学习业务感知表征和预测多业务 token
  • 语义保持:重建目标确保编码过程最小信息损失
  • 业务上下文注入:编码器和解码器均通过业务类型 embedding $\mathbf{b}_i$ 注入业务信息
  • 参数共享:同一解码器用于重建和预测,提升效率

3.2 Multi-Business Prediction(MBP)模块

MBP 基于 Transformer 自回归框架,同时为多个业务域预测下一项。

Sequence Encoding:历史交互序列 $S_u$ 经 BID encoder 编码为 item 表征。

Business-Aware Item Representation:采用参数共享的 Mixture-of-Experts(MoE)架构,将通用 item 表征动态转换为业务特定表征。给定通用 item 表征 $\mathbf{e} \in \mathbb{R}^{d_e}$,MBP 模块通过三阶段变换生成业务特定表征 $\mathbf{e}^b$:

  1. Contextual Fusion:拼接 item embedding 与业务上下文

$$\mathbf{z}^b = [\mathbf{e}, \mathbf{b}] \in \mathbb{R}^{d_e + d_b} \tag{9}$$

  1. Adaptive Gating:计算业务特定的注意力权重

$$\mathbf{g}^b = \text{SiLU}(\text{FFN}_{gate}(\mathbf{z}^b)) \in \mathbb{R}^K \tag{10}$$

  1. Expert Aggregation:组合专家化变换

$$\mathbf{e}^b = \sum_{k=1}^{K} g_k^b \cdot \text{FFN}_k^{exp}(\mathbf{z}^b) \in \mathbb{R}^{d_e} \tag{11}$$

Business-Aware SID 表征生成:业务特定表征 $\mathbf{e}^b$ 通过 BID 的 Business-Conditioned Decoder 解码为 Semantic ID token 序列:

$$\tilde{T}_u^{(k)} = \text{Decode}(\mathbf{e}^b, b_k) \tag{12}$$

3.3 Label Dynamic Routing(LDR)模块

对于序列中每个位置 $t$ 和每个业务类型 $b_k$,预测目标为该业务最近的下一次交互:

$$i_{u,t+1}^{(k)} = i_{u,t'} \quad \text{where} \quad t' = \min\{t'' \gt t | b_{u,t''} = b_k\} \tag{13}$$

若某业务在位置 $t$ 之后没有交互,则对该业务 mask 损失。模型为每个业务 $b_k$ 使用独立的预测头,以自回归方式生成 Semantic ID token 序列 $T_u^{(k)} = \{t_1^{(k)}, t_2^{(k)}, ..., t_{b_k}^{(k)}\}$。

LDR 将稀疏的多业务标签转换为密集标签,增强多业务生成能力。

4. 模型训练

4.1 训练目标

总训练目标结合 InfoNCE 损失和重建损失:

$$\mathcal{L} = \mathcal{L}_{\text{infoNCE}} + \lambda \cdot \mathcal{L}_{\text{recon}} \tag{14}$$

4.2 InfoNCE Loss

InfoNCE 损失跨所有业务域和 token 位置计算:

$$\mathcal{L}_{\text{infoNCE}} = -\sum_{b=1}^{B} w_b \cdot w_t \sum_{i=1}^{N} \sum_{k=1}^{K} \log \frac{\exp(\text{sim}(\hat{\mathbf{t}}_{i,k}^b, \mathbf{t}_{i,k}^b) / \tau)}{\sum_{j=1}^{|\mathcal{V}_k|} \exp(\text{sim}(\hat{\mathbf{t}}_{i,k}^b, \mathbf{v}_{j,k}) / \tau)} \tag{15}$$

其中:

  • $B$ 为业务数量,$w_b$ 为业务权重
  • $w_t = \exp(-\alpha \cdot (t_{\text{last}} - t_{u,t+1}^{(k)}))$ 为时间衰减系数,$\alpha$ 控制衰减速率
  • $N$ 为 batch 中 item 数量,$K$ 为每个 item 的 SID token 数量
  • $\tau$ 为温度参数
  • $\hat{\mathbf{t}}_{i,k}^b$ 为预测的第 $k$ 个 token embedding,$\mathbf{t}_{i,k}^b$ 为真值 token embedding
  • $\mathbf{v}_{j,k}$ 为词表 $\mathcal{V}_k$ 中的负样本

4.3 重建损失

$$\mathcal{L}_{\text{recon}} = \frac{1}{K} \sum_{k=1}^{K} \|\bar{T}_u^{(k)} - \tilde{T}_u^{(k)}\|_2 \tag{16}$$

度量原始和重建 token embeddings 的差异,确保编码过程最小信息损失。

5. 实验

5.1 实验设置

数据集

  1. 生成式训练数据集(美团平台,一年用户行为数据):
  2. 用户量:38,258,649
  3. 商户量:54,875,570,分四个业务:A(61.47%)、B(9.56%)、C(12.31%)、D(16.66%)
  4. 时间跨度:一年连续用户交互

  5. 下游应用数据集(部署阶段,更大规模):

  6. 用户量:37,349,276
  7. 交互量:783,946,360
  8. 更新频率:每日刷新,保留最近 30 天窗口

Baselines

  • SASRec:单向 Transformer 架构,利用自注意力捕获序列依赖
  • HSTU(Hierarchical Sequential Transduction Unit):层次化 Transformer 架构,专为大规模生成式推荐设计

评估指标

  • 生成式训练阶段:HR@10(按业务分别计算)
  • 下游应用阶段:GAUC(按业务分别计算)

实现细节

  • 框架:PyTorch 2.7.0,NVIDIA A100-80GB GPU
  • 优化器:Adam,学习率 0.001
  • 参数初始化:正态分布($\mu = 0, \sigma = 0.01$)
  • 模型配置:8 attention heads,16 transformer layers,128 维 embeddings
  • 批大小:1024
  • 最大序列长度:1500

5.2 生成式性能(Table 1: Hit@10 Performance Across Business Categories)

Model All A (61.47%) B (9.56%) C (12.31%) D (16.66%)
SASRec 0.0192 0.0218 0.0101 0.0178 0.0269
Tiger 0.0202 0.0231 0.0128 0.0180 0.0278
HSTU 0.0214 0.0231 0.0127 0.0198 0.0299
Transformer-MBGR 0.0341 0.0245 0.0412 0.0321 0.0387
HSTU-MBGR 0.0410 0.0252 0.0554 0.0398 0.0421

结论:HSTU-MBGR 在所有业务类别上均取得最佳性能。相比基线 HSTU,整体 HR@10 从 0.0214 提升至 0.0410(+91.6%),在小业务 B 上提升最为显著(0.0127 -> 0.0554,+336%)。MBGR 框架对小业务的提升尤为突出,验证了其多业务信号分离的有效性。

两个 MBGR 变体中,HSTU-MBGR 优于 Transformer-MBGR,因为 HSTU 的层次化转导机制更适合处理高基数 item 空间。

5.3 下游 CTCVR GAUC 性能(Table 2: Downstream CTCVR GAUC Comparison)

Model All A (61.47%) B (9.56%) C (12.31%) D (16.66%)
Baseline 0.7748 0.7080 0.7594 0.8852 0.7466
MBGR 0.8040 0.7135 0.8258 0.9052 0.7717
Improvement +3.8% +0.8% +8.7% +2.3% +3.4%

结论:MBGR 在下游 CTCVR GAUC 上整体提升 3.8%,其中小业务 B 提升最为显著(+8.7%),验证了 BID 和 MBP 模块生成的业务感知表征对下游排序模型的增强效果。

5.4 BID Encoder 有效性分析

通过 PCA 降维可视化 embedding 分布,BID encoder 相比简单 sum pooling 方法呈现三个特性: 1. 业务分离:不同业务类型之间边界更清晰,尤其小业务 B 和 C 2. 自然关联保持:业务间保持合理重叠,反映真实业务关联 3. 比例对齐:聚类模式与实际业务比例对齐

5.5 消融实验(Table 3: Ablation Study Results on Hit@10 Performance)

Model (HSTU based) All A (61.47%) B (9.56%) C (12.31%) D (16.66%)
w/o LDR 0.0268 0.0215 0.0312 0.0245 0.0301
w/o MBP 0.0330 0.0241 0.0401 0.0312 0.0365
w/o BID 0.0335 0.0243 0.0408 0.0318 0.0372
Full MBGR 0.0410 0.0252 0.0554 0.0398 0.0421

结论

  • LDR 模块贡献最大:移除后整体 HR@10 从 0.0410 降至 0.0268(-34.6%),尤其小业务 B 从 0.0554 降至 0.0312(-43.7%)
  • MBP 模块对小业务提升显著,B 从 0.0554 降至 0.0401(-27.6%)
  • BID 模块在所有业务上均有贡献
  • 三个模块存在协同效应,组合后性能最优

5.6 超参数分析

时间衰减系数 $\alpha$(Table 4)

$\alpha$ All A B C D
0.01 0.0382 0.0241 0.0512 0.0371 0.0403
0.05 0.0410 0.0252 0.0554 0.0398 0.0421
0.10 0.0397 0.0248 0.0531 0.0385 0.0412
0.20 0.0375 0.0239 0.0498 0.0362 0.0391
0.50 0.0341 0.0225 0.0442 0.0328 0.0357

结论:$\alpha = 0.05$ 最优,平衡近期和历史交互。小业务(B, C)受益于适度衰减($\alpha = 0.05-0.10$),大业务 A 对 $\alpha$ 更鲁棒,过大的 $\alpha$($\geq 0.20$)在所有业务上均损害性能。

业务权重 $w_b$(Table 5 & Table 6)

Business Proportion Weight ($w_b$) Rationale
A 61.47% 0.9 稳定用户偏好,更新频率低
B 9.56% 1.5 偏好变化快,业务价值高
C 12.31% 1.3 适度动态性,战略重要性
D 16.66% 1.0 均衡特性,基准权重
Configuration All A B C D
Uniform ($w_b = 1.0$) 0.0368 0.0235 0.0487 0.0342 0.0381
Inverse Frequency 0.0360 0.0243 0.0521 0.0375 0.0379
Empirical (Ours) 0.0410 0.0252 0.0554 0.0398 0.0421

结论:经验权重策略比均匀权重整体提升 11.4%,对小业务特别有效(B: +13.8%, C: +16.4%)。逆频率策略帮助小业务但损害整体性能。权重设计遵循:小业务给予更高权重以对冲大业务梯度主导,偏好变化快的业务需要更高权重,权重归一化以维持总体损失规模。

Expert 数量 $K$(Table 7)

$K$ All A B C D
4 0.0379 0.0242 0.0503 0.0361 0.0392
8 0.0410 0.0252 0.0554 0.0398 0.0421
16 0.0401 0.0249 0.0538 0.0387 0.0413
32 0.0387 0.0243 0.0512 0.0372 0.0398

结论:$K = 8$ 为所有业务最优。更大 $K$ 导致参数碎片化,收益递减。小业务更受益于适度 expert 数量。

5.7 线上实验(Table 8: Business-wise CTCVR Improvements)

在美团 30% 流量上进行一周 A/B 测试:

Business Proportion CTCVR Improvement
A 61.47% +3.0%
B 9.56% +7.5%
C 12.31% +4.5%
D 16.66% +5.2%
Weighted Average 100% +3.98%

结论:线上 CTCVR 加权平均提升 +3.98%($p \lt 0.01$),各业务均有提升,小业务增益更大,与离线实验结论一致。MBGR 已成功部署在美团实时竞价(RTB)广告系统中。

6. 系统部署

MBGR 采用增量集成的部署策略,而非 OneRec/EGA 的端到端方案。生成的用户和商户 embedding 以两种方式利用:

  • User Embedding Retrieval:从分布式缓存直接检索预计算的业务特定 embedding
  • Item Embedding Generation:两阶段过程,先 token 级 embedding 查找,再通过 BID encoder 在线编码

这种架构避免了端到端方案在 RTB 系统中的不稳定性风险,确保系统稳定性的同时充分利用 MBGR 的表征能力。

7. 总结与评价

核心贡献: 1. 首个面向多业务场景的生成式推荐框架 2. BID + MBP + LDR 三模块协同,从模型结构(MoE expert tower)和标签路由两个维度分离多业务信号 3. 大规模工业落地验证

优点

  • 问题定义清晰,跷跷板效应和表征混淆是多业务 GR 的真实痛点
  • 三个模块设计直觉合理,LDR 将稀疏标签转为密集标签的思路简洁有效
  • 消融和超参数分析充分
  • 线上效果显著

局限性

  • 实验仅在美团内部数据集上进行,无公开数据集对比,可复现性受限
  • 仅对比 SASRec 和 HSTU 两个 baseline,缺少与 COBRA、OneRec 等最新 GR 方法的对比
  • 业务权重需要人工调参,缺乏自适应机制
  • 四个业务的具体类别未公开,仅用 A/B/C/D 代替