2026-05-27 日报
主题: 端侧 MoE 推理提效与工业级推荐流量治理
标签: moe · parameter-scaling · industrial · search-ranking
📊 统计: 共 5 篇 · 精读 2 · 🏢 工业界 2 · 🎓 学术 3 · discriminative-rec 1 · llm 1 · other 3
综述
本日共 5 篇论文,类别分布为 llm、判别式推荐各 1 篇与 other 3 篇;工业界(Meta、Alibaba)2 篇、学术 3 篇,其中 2 篇完成精读。重点上,Meta 的 MobileMoE 提出首个 sub-billion 激活的端侧 MoE 模型族,基于联合内存+算力约束的端侧扩展律确立“适中稀疏+细粒度+共享专家”甜点架构,经四阶段配方与 INT4 QAT,在 14 个 benchmark 上以 2-4 倍更少 FLOPs 匹配稠密小模型,并用自定义 fused MoE kernel 在商用手机实现数倍 prefill/decode 加速;Alibaba 的 Uniboost 面向淘宝混排阶段,先对齐到“有效完播率”锚定指标,再用带偏置的统一线性 Boosting 把 PID 保量与冷启 Boost 收编为单一可加归因框架,线上 A/B 一致提升。学术侧 ICICLE 把增量生成式检索重构为“上下文内检索”,以 [COPY] 路由免重训索引新文档。整体看,工业界主线聚焦推理提效(端侧 MoE 与量化协同)与系统级流量治理(统一框架收编多机制),稀疏化与统一可归因建模是值得关注的落地方向。
重点论文
MobileMoE · ⭐ 8/10
MobileMoE: Scaling On-Device Mixture of Experts
🏢 Meta · LLM
Meta 提出首个面向端侧的 sub-billion 激活 MoE 模型族 MobileMoE,用一条联合内存+算力约束的端侧 MoE 扩展律推出'适中稀疏度+细粒度+共享专家'甜点架构(E=8,g=8,1 共享专家),经四阶段配方(PT→MT→SFT→INT4 QAT)在 14 个 benchmark 上以 2-4x 更少推理 FLOPs 匹配/超过稠密小模型,并首次在商用手机上以自定义 fused MoE kernel 实现 1.8-3.8x prefill、2.2-3.4x decode 加速。
Uniboost · ⭐ 6/10
Uniboost: Global Coordination with Value Alignment for Fair and Efficient Traffic Allocation
🏢 Alibaba · 判别式推荐
淘宝混排(重排)阶段的统一流量分配框架:先把抽象混排分线性对齐到稳定锚定指标(有效完播率)赋予业务语义,再用带偏置项的统一线性 Boosting 收编 PID 保量(w=0)与冷启 Boost(b=0)两套机制并保证线性可加归因,支持按计划的成本/ROI 分析,线上 A/B 在淘宝内容流取得一致提升。
ICICLE · ⭐ 5/10
ICICLE: Expanding Retrieval with In-Context Documents
🎓 学术 · 其他
将增量生成式检索重构为“上下文内检索”问题,提出 ICICLE 框架,通过 [COPY] 路由、偏好校准与长上下文适配,在参数记忆与上下文提供的 doc-docid 证据间做来源感知的 docid 生成,无需语料重训即可检索新增文档并保留已索引文档;分析指出高 shot 退化主因是路由失败。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| MobileMoE | MobileMoE: Scaling On-Device Mixture of Experts | LLM | 🏢 Meta | 7 | 8 |
| Uniboost | Uniboost: Global Coordination with Value Alignment for Fair and Efficient Traffic Allocation | 判别式 | 🏢 Alibaba | 7 | 6 |
| ICICLE | ICICLE: Expanding Retrieval with In-Context Documents | 其他 | 🎓 学术 | 5 | — |
| — | Customer Churn Prediction on Structured Data Using FT-Transformer and Stacking Ensembles | 其他 | 🎓 学术 | 4 | — |
| RAGEAR | RAGEAR: Retrieval-Augmented Graph-Enhanced Academic Recommender | 其他 | 🎓 学术 | 4 | — |