← 返回报告列表

2026-05-07 日报

日报 📅 2026-05-06
生成式推荐与服务系统全栈优化:Semantic ID、对齐与 HBM 调度协同推进
semantic-id industrial pretrained-lm moe quantization
📊 共 6 篇 · 精读 5

2026-05-07 日报

主题: 生成式推荐与服务系统全栈优化:Semantic ID、对齐与 HBM 调度协同推进

标签: semantic-id · industrial · pretrained-lm · moe · quantization

📊 统计: 共 6 篇 · 精读 5 · 🏢 工业界 2 · 🎓 学术 4 · generative-rec 3 · other 1 · llm 1 · discriminative-rec 1

综述

今日共 6 篇论文,5 篇精读、1 篇略读;类别上 generative-rec 占 3 篇,llm、other、discriminative-rec 各 1 篇,工业系(Alibaba 主导)与学术系基本对半。建模侧:CapsID 用 capsule 软路由替代 RQ-VAE 的硬 argmax 并配合置信驱动变长 SID 与 SemanticBPE 双门控合并,在 35M item 工业目录上以 51% 的 COBRA 延迟匹配或超越其指标;BLADE 把 LLM4Rec 的 BoN 对齐建模为 Beta-Binomial 共轭融合静态 prior 与动态批次证据的自演化 quantile 目标,与 GRPO 共享采样实现零开销;AIR-MoE 把 IVF 倒排索引思想引入端到端 MoE 路由,在 65k 专家规模下 PPL 最高改善 10%。系统与端侧:Alibaba 的 HLEM 把 EMB cache 与 KV cache 争抢 HBM 的零和问题建模为 MDP,用 PPO 三层控制器实现 32μs 决策开销,P99 降低 24–38%;同样来自 Alibaba 的 RecGPT-Mobile 将 Qwen3-0.6B 经 LoRA+Quant 压到 Mobile Taobao 端侧做 next-query 意图预测,在线 A/B 取得 +2.5% GMV。趋势上看,生成式推荐正从单点 tokenizer 与对齐改进,向 ""Semantic ID + LLM 对齐 + 端云协同 + HBM 调度"" 的全栈系统协同演进,工业可部署性与推理经济性已成为与精度同等重要的评价维度。

重点论文

CapsID · ⭐ 9/10

CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation

🎓 学术 · 生成式推荐

CapsID 用 capsule 软路由替代 RQ-VAE 的硬 argmax 分配,配合置信驱动变长 SID 与语义 + 频率双门控的 SemanticBPE 子词合并,在 3 个 Amazon 数据集上相对最强 single-rep baseline R@10 提升 8.9–11.0%,并在 35M item 工业目录上以 51% 的 COBRA 推理延迟追平或超越其指标。

HLEM · ⭐ 8/10

One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

🏢 Alibaba · 其他

HLEM 把 GR serving 中 EMB cache 与 KV cache 争抢同一块 HBM 的零和问题建模为 MDP,用 PPO+OnlineAdapter+RecoveryController 三层控制器以 32μs 决策开销追踪在线最优分配,配 paged KV pool/contiguous EMB slab 实现非干扰式调整和 EMB-KV-aware 路由,在 32 节点 A100 集群上比最强静态基线降低 P99 24-38%,达成 93.5-99.6% SLO 满足率

BLADE · ⭐ 7/10

Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation

🎓 学术 · 生成式推荐

把 LLM4Rec 的 BoN alignment 中静态参考导致的 high-reward CDF 饱和与梯度衰减形式化为两大瓶颈, 用 Beta-Binomial 共轭闭式融合 static prior 与 dynamic batch evidence 构造自演化 quantile 目标, 与 GRPO 共享 sampling 实现 zero-overhead, 在 3 个数据集 8 个 baseline 一致领先并可推广到 fairness/diversity 复合目标.

AIR-MoE · ⭐ 7/10

Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts

🎓 学术 · LLM

AIR-MoE 把 IVF 倒排索引思想搬进端到端可训练的 MoE 路由:用 gradient-free 自适应球面 k-means 学一个 codebook 做 coarse shortlisting,再在短名单内做精确 top-K 打分,在 65k experts 设定下持续优于 PEER/Hierarchical 基线,PPL 改善最高 10% 而无需对专家中心施加结构约束。

RecGPT-Mobile · ⭐ 6/10

RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation

🏢 Alibaba · 生成式推荐

RecGPT-Mobile 把 LLM 下沉到 Mobile Taobao 客户端做 next-query 意图预测:用 LoRA+Quant 把 Qwen3-0.6B 压到端侧,4 阶段自适应 prompt 构建严守 token 预算,熵+Jaccard+JS 三信号意图漂移触发把推理频率降到 21%、电量降到 40%,4 场景一个月 A/B 平均 +1.8% CLICK / +2.7% PAY / +2.5% GMV。

全部论文

模型 标题 类别 公司 摘要分 精读分
CapsID CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation 生成式 🎓 学术 8 9
HLEM One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving 其他 🏢 Alibaba 8 8
BLADE Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation 生成式 🎓 学术 7 7
AIR-MoE Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts LLM 🎓 学术 7 7
RecGPT-Mobile RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation 生成式 🏢 Alibaba 7 6
ConvRec Rethinking Convolutional Networks for Attribute-Aware Sequential Recommendation 判别式 🎓 学术 5