2026-05-07 日报

主题: 生成式推荐与服务系统全栈优化：Semantic ID、对齐与 HBM 调度协同推进

标签: semantic-id · industrial · pretrained-lm · moe · quantization

📊 统计: 共 6 篇 · 精读 5 · 🏢 工业界 2 · 🎓 学术 4 · generative-rec 3 · other 1 · llm 1 · discriminative-rec 1

综述

今日共 6 篇论文，5 篇精读、1 篇略读；类别上 generative-rec 占 3 篇，llm、other、discriminative-rec 各 1 篇，工业系（Alibaba 主导）与学术系基本对半。建模侧：CapsID 用 capsule 软路由替代 RQ-VAE 的硬 argmax 并配合置信驱动变长 SID 与 SemanticBPE 双门控合并，在 35M item 工业目录上以 51% 的 COBRA 延迟匹配或超越其指标；BLADE 把 LLM4Rec 的 BoN 对齐建模为 Beta-Binomial 共轭融合静态 prior 与动态批次证据的自演化 quantile 目标，与 GRPO 共享采样实现零开销；AIR-MoE 把 IVF 倒排索引思想引入端到端 MoE 路由，在 65k 专家规模下 PPL 最高改善 10%。系统与端侧：Alibaba 的 HLEM 把 EMB cache 与 KV cache 争抢 HBM 的零和问题建模为 MDP，用 PPO 三层控制器实现 32μs 决策开销，P99 降低 24–38%；同样来自 Alibaba 的 RecGPT-Mobile 将 Qwen3-0.6B 经 LoRA+Quant 压到 Mobile Taobao 端侧做 next-query 意图预测，在线 A/B 取得 +2.5% GMV。趋势上看，生成式推荐正从单点 tokenizer 与对齐改进，向 ""Semantic ID + LLM 对齐 + 端云协同 + HBM 调度"" 的全栈系统协同演进，工业可部署性与推理经济性已成为与精度同等重要的评价维度。

重点论文

CapsID · ⭐ 9/10

CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation

🎓 学术 · 生成式推荐

CapsID 用 capsule 软路由替代 RQ-VAE 的硬 argmax 分配，配合置信驱动变长 SID 与语义 + 频率双门控的 SemanticBPE 子词合并，在 3 个 Amazon 数据集上相对最强 single-rep baseline R@10 提升 8.9–11.0%，并在 35M item 工业目录上以 51% 的 COBRA 推理延迟追平或超越其指标。

HLEM · ⭐ 8/10

One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

🏢 Alibaba · 其他

HLEM 把 GR serving 中 EMB cache 与 KV cache 争抢同一块 HBM 的零和问题建模为 MDP,用 PPO+OnlineAdapter+RecoveryController 三层控制器以 32μs 决策开销追踪在线最优分配,配 paged KV pool/contiguous EMB slab 实现非干扰式调整和 EMB-KV-aware 路由,在 32 节点 A100 集群上比最强静态基线降低 P99 24-38%,达成 93.5-99.6% SLO 满足率

BLADE · ⭐ 7/10

Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation

🎓 学术 · 生成式推荐

把 LLM4Rec 的 BoN alignment 中静态参考导致的 high-reward CDF 饱和与梯度衰减形式化为两大瓶颈, 用 Beta-Binomial 共轭闭式融合 static prior 与 dynamic batch evidence 构造自演化 quantile 目标, 与 GRPO 共享 sampling 实现 zero-overhead, 在 3 个数据集 8 个 baseline 一致领先并可推广到 fairness/diversity 复合目标.

AIR-MoE · ⭐ 7/10

Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts

🎓 学术 · LLM

AIR-MoE 把 IVF 倒排索引思想搬进端到端可训练的 MoE 路由:用 gradient-free 自适应球面 k-means 学一个 codebook 做 coarse shortlisting,再在短名单内做精确 top-K 打分,在 65k experts 设定下持续优于 PEER/Hierarchical 基线,PPL 改善最高 10% 而无需对专家中心施加结构约束。

RecGPT-Mobile · ⭐ 6/10

RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation

🏢 Alibaba · 生成式推荐

RecGPT-Mobile 把 LLM 下沉到 Mobile Taobao 客户端做 next-query 意图预测：用 LoRA+Quant 把 Qwen3-0.6B 压到端侧，4 阶段自适应 prompt 构建严守 token 预算，熵+Jaccard+JS 三信号意图漂移触发把推理频率降到 21%、电量降到 40%，4 场景一个月 A/B 平均 +1.8% CLICK / +2.7% PAY / +2.5% GMV。

全部论文

模型	标题	类别	公司	摘要分	精读分
CapsID	CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation	生成式	🎓 学术	8	9
HLEM	One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving	其他	🏢 Alibaba	8	8
BLADE	Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation	生成式	🎓 学术	7	7
AIR-MoE	Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts	LLM	🎓 学术	7	7
RecGPT-Mobile	RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation	生成式	🏢 Alibaba	7	6
ConvRec	Rethinking Convolutional Networks for Attribute-Aware Sequential Recommendation	判别式	🎓 学术	5	—