MBGR — Archivist

1. 研究背景与动机¶

生成式推荐（Generative Recommendation, GR）利用 Semantic IDs（SIDs）替代传统 item embedding，通过编码-解码架构和 Next Token Prediction（NTP）框架实现候选生成，在存储效率和训练效率上具有优势。然而，现有 GR 框架（如 OneRec、TIGER、HSTU 等）均面向单一业务设计，缺乏多业务优化能力。

在美团等大型平台上，用户行为横跨外卖、团购、娱乐、医疗等多个业务线。为每个业务独立部署 GR 模型导致训练和维护成本高，且无法充分利用跨业务用户数据。设计多业务 GR 框架面临两个核心挑战：

跷跷板效应（Seesaw Phenomenon）：多业务信号混合且难以区分，不同业务的用户行为差异大，NTP 框架难以捕获跨业务的复杂行为模式
表征混淆（Representation Confusion）：多个业务共享统一 SID 空间，压缩异构数据到同一语义空间导致梯度耦合，无法在生成语义 ID 时区分不同业务的语义信息

2. 问题形式化¶

给定用户 $u$ 的跨业务历史交互序列：

$$S_u = \{s_{u,1}, s_{u,2}, ..., s_{u,L}\} \tag{1}$$

其中每个交互 $s_{u,t} = (i_{u,t}, b_{u,t}, t_{u,t})$ 包含 item ID、业务类型和时间戳。

目标是同时为 $K$ 个业务生成下一个 item 的 Semantic ID，最大化条件概率：

$$P(T_u^{(1:K)} | S_u) = \sum_{k=1}^{K} P(T_u^{(k)} | S_u, b_k) \tag{2}$$

其中 $T_u^{(k)} = \{t_1^{(k)}, t_2^{(k)}, ..., t_{L_k}^{(k)}\}$ 为业务 $b_k$ 的 Semantic ID token 序列。

3. MBGR 框架¶

MBGR 由三个核心模块组成：Business-aware semantic ID（BID）、Multi-Business Prediction（MBP）和 Label Dynamic Routing（LDR）。

3.1 Business-aware Semantic ID（BID）模块¶

BID 模块采用双路径自编码器架构，同时服务于输入表征学习和下一项预测，解决两个问题：(1) 将业务上下文融入共享 token 表征；(2) 减少编码过程中的语义信息损失。

Business-Aware Encoder：将输入 token embeddings $\mathbf{t}_i = [\mathbf{t}_{i,1}, \mathbf{t}_{i,2}, ..., \mathbf{t}_{i,K}] \in \mathbb{R}^{K \cdot d_t}$ 转换为业务感知 item 表征 $\mathbf{e}_i \in \mathbb{R}^{d_e}$：

$$\mathbf{e}_i^{enc} = \text{FFN}_{enc}([\mathbf{t}_i, \mathbf{b}_i]) \tag{3}$$

$$\mathbf{g}_i^{enc} = \sigma(\text{FFN}_{gate}^{enc}([\mathbf{e}_i^{enc}, \mathbf{b}_i])) \tag{4}$$

$$\mathbf{e}_i = \mathbf{e}_i^{enc} \odot \mathbf{g}_i^{enc} \tag{5}$$

Business-Conditioned Decoder：从 item 表征重建 token embeddings 并生成下一项 token 序列：

$$\hat{\mathbf{t}}_i^{dec} = \text{FFN}_{dec}([\mathbf{e}_i, \mathbf{b}_i]) \tag{6}$$

$$\mathbf{g}_i^{dec} = \text{ReLU}(\text{FFN}_{gate}^{dec}([\hat{\mathbf{t}}_i^{dec}, \mathbf{b}_i])) \tag{7}$$

$$\hat{\mathbf{t}}_i = \hat{\mathbf{t}}_i^{dec} \odot \mathbf{g}_i^{dec} \tag{8}$$

BID 模块的关键创新：

双路径架构：同时学习业务感知表征和预测多业务 token
语义保持：重建目标确保编码过程最小信息损失
业务上下文注入：编码器和解码器均通过业务类型 embedding $\mathbf{b}_i$ 注入业务信息
参数共享：同一解码器用于重建和预测，提升效率

3.2 Multi-Business Prediction（MBP）模块¶

MBP 基于 Transformer 自回归框架，同时为多个业务域预测下一项。

Sequence Encoding：历史交互序列 $S_u$ 经 BID encoder 编码为 item 表征。

Business-Aware Item Representation：采用参数共享的 Mixture-of-Experts（MoE）架构，将通用 item 表征动态转换为业务特定表征。给定通用 item 表征 $\mathbf{e} \in \mathbb{R}^{d_e}$，MBP 模块通过三阶段变换生成业务特定表征 $\mathbf{e}^b$：

Contextual Fusion：拼接 item embedding 与业务上下文

$$\mathbf{z}^b = [\mathbf{e}, \mathbf{b}] \in \mathbb{R}^{d_e + d_b} \tag{9}$$

Adaptive Gating：计算业务特定的注意力权重

$$\mathbf{g}^b = \text{SiLU}(\text{FFN}_{gate}(\mathbf{z}^b)) \in \mathbb{R}^K \tag{10}$$

Expert Aggregation：组合专家化变换

$$\mathbf{e}^b = \sum_{k=1}^{K} g_k^b \cdot \text{FFN}_k^{exp}(\mathbf{z}^b) \in \mathbb{R}^{d_e} \tag{11}$$

Business-Aware SID 表征生成：业务特定表征 $\mathbf{e}^b$ 通过 BID 的 Business-Conditioned Decoder 解码为 Semantic ID token 序列：

$$\tilde{T}_u^{(k)} = \text{Decode}(\mathbf{e}^b, b_k) \tag{12}$$

3.3 Label Dynamic Routing（LDR）模块¶

对于序列中每个位置 $t$ 和每个业务类型 $b_k$，预测目标为该业务最近的下一次交互：

$$i_{u,t+1}^{(k)} = i_{u,t'} \quad \text{where} \quad t' = \min\{t'' \gt t | b_{u,t''} = b_k\} \tag{13}$$

若某业务在位置 $t$ 之后没有交互，则对该业务 mask 损失。模型为每个业务 $b_k$ 使用独立的预测头，以自回归方式生成 Semantic ID token 序列 $T_u^{(k)} = \{t_1^{(k)}, t_2^{(k)}, ..., t_{b_k}^{(k)}\}$。

LDR 将稀疏的多业务标签转换为密集标签，增强多业务生成能力。

4. 模型训练¶

4.1 训练目标¶

总训练目标结合 InfoNCE 损失和重建损失：

$$\mathcal{L} = \mathcal{L}_{\text{infoNCE}} + \lambda \cdot \mathcal{L}_{\text{recon}} \tag{14}$$

4.2 InfoNCE Loss¶

InfoNCE 损失跨所有业务域和 token 位置计算：

$$\mathcal{L}_{\text{infoNCE}} = -\sum_{b=1}^{B} w_b \cdot w_t \sum_{i=1}^{N} \sum_{k=1}^{K} \log \frac{\exp(\text{sim}(\hat{\mathbf{t}}_{i,k}^b, \mathbf{t}_{i,k}^b) / \tau)}{\sum_{j=1}^{|\mathcal{V}_k|} \exp(\text{sim}(\hat{\mathbf{t}}_{i,k}^b, \mathbf{v}_{j,k}) / \tau)} \tag{15}$$

其中：

$B$ 为业务数量，$w_b$ 为业务权重
$w_t = \exp(-\alpha \cdot (t_{\text{last}} - t_{u,t+1}^{(k)}))$ 为时间衰减系数，$\alpha$ 控制衰减速率
$N$ 为 batch 中 item 数量，$K$ 为每个 item 的 SID token 数量
$\tau$ 为温度参数
$\hat{\mathbf{t}}_{i,k}^b$ 为预测的第 $k$ 个 token embedding，$\mathbf{t}_{i,k}^b$ 为真值 token embedding
$\mathbf{v}_{j,k}$ 为词表 $\mathcal{V}_k$ 中的负样本

4.3 重建损失¶

$$\mathcal{L}_{\text{recon}} = \frac{1}{K} \sum_{k=1}^{K} \|\bar{T}_u^{(k)} - \tilde{T}_u^{(k)}\|_2 \tag{16}$$

度量原始和重建 token embeddings 的差异，确保编码过程最小信息损失。

5. 实验¶

5.1 实验设置¶

数据集：

生成式训练数据集（美团平台，一年用户行为数据）：
用户量：38,258,649
商户量：54,875,570，分四个业务：A（61.47%）、B（9.56%）、C（12.31%）、D（16.66%）
时间跨度：一年连续用户交互
下游应用数据集（部署阶段，更大规模）：
用户量：37,349,276
交互量：783,946,360
更新频率：每日刷新，保留最近 30 天窗口

Baselines：

SASRec：单向 Transformer 架构，利用自注意力捕获序列依赖
HSTU（Hierarchical Sequential Transduction Unit）：层次化 Transformer 架构，专为大规模生成式推荐设计

评估指标：

生成式训练阶段：HR@10（按业务分别计算）
下游应用阶段：GAUC（按业务分别计算）

实现细节：

框架：PyTorch 2.7.0，NVIDIA A100-80GB GPU
优化器：Adam，学习率 0.001
参数初始化：正态分布（$\mu = 0, \sigma = 0.01$）
模型配置：8 attention heads，16 transformer layers，128 维 embeddings
批大小：1024
最大序列长度：1500

5.2 生成式性能（Table 1: Hit@10 Performance Across Business Categories）¶

Model	All	A (61.47%)	B (9.56%)	C (12.31%)	D (16.66%)
SASRec	0.0192	0.0218	0.0101	0.0178	0.0269
Tiger	0.0202	0.0231	0.0128	0.0180	0.0278
HSTU	0.0214	0.0231	0.0127	0.0198	0.0299
Transformer-MBGR	0.0341	0.0245	0.0412	0.0321	0.0387
HSTU-MBGR	0.0410	0.0252	0.0554	0.0398	0.0421

结论：HSTU-MBGR 在所有业务类别上均取得最佳性能。相比基线 HSTU，整体 HR@10 从 0.0214 提升至 0.0410（+91.6%），在小业务 B 上提升最为显著（0.0127 -> 0.0554，+336%）。MBGR 框架对小业务的提升尤为突出，验证了其多业务信号分离的有效性。

两个 MBGR 变体中，HSTU-MBGR 优于 Transformer-MBGR，因为 HSTU 的层次化转导机制更适合处理高基数 item 空间。

5.3 下游 CTCVR GAUC 性能（Table 2: Downstream CTCVR GAUC Comparison）¶

Model	All	A (61.47%)	B (9.56%)	C (12.31%)	D (16.66%)
Baseline	0.7748	0.7080	0.7594	0.8852	0.7466
MBGR	0.8040	0.7135	0.8258	0.9052	0.7717
Improvement	+3.8%	+0.8%	+8.7%	+2.3%	+3.4%

结论：MBGR 在下游 CTCVR GAUC 上整体提升 3.8%，其中小业务 B 提升最为显著（+8.7%），验证了 BID 和 MBP 模块生成的业务感知表征对下游排序模型的增强效果。

5.4 BID Encoder 有效性分析¶

通过 PCA 降维可视化 embedding 分布，BID encoder 相比简单 sum pooling 方法呈现三个特性： 1. 业务分离：不同业务类型之间边界更清晰，尤其小业务 B 和 C 2. 自然关联保持：业务间保持合理重叠，反映真实业务关联 3. 比例对齐：聚类模式与实际业务比例对齐

5.5 消融实验（Table 3: Ablation Study Results on Hit@10 Performance）¶

Model (HSTU based)	All	A (61.47%)	B (9.56%)	C (12.31%)	D (16.66%)
w/o LDR	0.0268	0.0215	0.0312	0.0245	0.0301
w/o MBP	0.0330	0.0241	0.0401	0.0312	0.0365
w/o BID	0.0335	0.0243	0.0408	0.0318	0.0372
Full MBGR	0.0410	0.0252	0.0554	0.0398	0.0421

结论：

LDR 模块贡献最大：移除后整体 HR@10 从 0.0410 降至 0.0268（-34.6%），尤其小业务 B 从 0.0554 降至 0.0312（-43.7%）
MBP 模块对小业务提升显著，B 从 0.0554 降至 0.0401（-27.6%）
BID 模块在所有业务上均有贡献
三个模块存在协同效应，组合后性能最优

5.6 超参数分析¶

时间衰减系数 $\alpha$（Table 4）¶

$\alpha$	All	A	B	C	D
0.01	0.0382	0.0241	0.0512	0.0371	0.0403
0.05	0.0410	0.0252	0.0554	0.0398	0.0421
0.10	0.0397	0.0248	0.0531	0.0385	0.0412
0.20	0.0375	0.0239	0.0498	0.0362	0.0391
0.50	0.0341	0.0225	0.0442	0.0328	0.0357

结论：$\alpha = 0.05$ 最优，平衡近期和历史交互。小业务（B, C）受益于适度衰减（$\alpha = 0.05-0.10$），大业务 A 对 $\alpha$ 更鲁棒，过大的 $\alpha$（$\geq 0.20$）在所有业务上均损害性能。

业务权重 $w_b$（Table 5 & Table 6）¶

Business	Proportion	Weight ($w_b$)	Rationale
A	61.47%	0.9	稳定用户偏好，更新频率低
B	9.56%	1.5	偏好变化快，业务价值高
C	12.31%	1.3	适度动态性，战略重要性
D	16.66%	1.0	均衡特性，基准权重

Configuration	All	A	B	C	D
Uniform ($w_b = 1.0$)	0.0368	0.0235	0.0487	0.0342	0.0381
Inverse Frequency	0.0360	0.0243	0.0521	0.0375	0.0379
Empirical (Ours)	0.0410	0.0252	0.0554	0.0398	0.0421

结论：经验权重策略比均匀权重整体提升 11.4%，对小业务特别有效（B: +13.8%, C: +16.4%）。逆频率策略帮助小业务但损害整体性能。权重设计遵循：小业务给予更高权重以对冲大业务梯度主导，偏好变化快的业务需要更高权重，权重归一化以维持总体损失规模。

Expert 数量 $K$（Table 7）¶

$K$	All	A	B	C	D
4	0.0379	0.0242	0.0503	0.0361	0.0392
8	0.0410	0.0252	0.0554	0.0398	0.0421
16	0.0401	0.0249	0.0538	0.0387	0.0413
32	0.0387	0.0243	0.0512	0.0372	0.0398

结论：$K = 8$ 为所有业务最优。更大 $K$ 导致参数碎片化，收益递减。小业务更受益于适度 expert 数量。

5.7 线上实验（Table 8: Business-wise CTCVR Improvements）¶

在美团 30% 流量上进行一周 A/B 测试：

Business	Proportion	CTCVR Improvement
A	61.47%	+3.0%
B	9.56%	+7.5%
C	12.31%	+4.5%
D	16.66%	+5.2%
Weighted Average	100%	+3.98%

结论：线上 CTCVR 加权平均提升 +3.98%（$p \lt 0.01$），各业务均有提升，小业务增益更大，与离线实验结论一致。MBGR 已成功部署在美团实时竞价（RTB）广告系统中。

6. 系统部署¶

MBGR 采用增量集成的部署策略，而非 OneRec/EGA 的端到端方案。生成的用户和商户 embedding 以两种方式利用：

User Embedding Retrieval：从分布式缓存直接检索预计算的业务特定 embedding
Item Embedding Generation：两阶段过程，先 token 级 embedding 查找，再通过 BID encoder 在线编码

这种架构避免了端到端方案在 RTB 系统中的不稳定性风险，确保系统稳定性的同时充分利用 MBGR 的表征能力。

7. 总结与评价¶

核心贡献： 1. 首个面向多业务场景的生成式推荐框架 2. BID + MBP + LDR 三模块协同，从模型结构（MoE expert tower）和标签路由两个维度分离多业务信号 3. 大规模工业落地验证

优点：

问题定义清晰，跷跷板效应和表征混淆是多业务 GR 的真实痛点
三个模块设计直觉合理，LDR 将稀疏标签转为密集标签的思路简洁有效
消融和超参数分析充分
线上效果显著

局限性：

实验仅在美团内部数据集上进行，无公开数据集对比，可复现性受限
仅对比 SASRec 和 HSTU 两个 baseline，缺少与 COBRA、OneRec 等最新 GR 方法的对比
业务权重需要人工调参，缺乏自适应机制
四个业务的具体类别未公开，仅用 A/B/C/D 代替