2026-05-21 日报
主题: 工业直播推荐新范式与 LLM 训练标度律
标签: industrial · semantic-id · contrastive-ssl · parameter-scaling
📊 统计: 共 6 篇 · 精读 2 · 🏢 工业界 2 · 🎓 学术 4 · discriminative-rec 3 · llm 2 · other 1
综述
本日共 6 篇:判别式推荐 3 篇、LLM 训练 2 篇、其他 1 篇,工业与学术约各半,其中 2 篇完成精读。工业直播线两篇最亮眼:字节跳动的 PEARL 把直播 watch-time 预测重构为非参数的每用户分位数估计,证明"当前样本是否大于一个随机历史样本"的对比指示其期望即为无偏 CDF,十亿级上线带来 +2.10% 观看时长并显著改善低活用户;FLUID 首次在生产级直播排序中彻底弃用候选侧 item ID,改用跨域多模态分层语义码 LUCID 表征内容、并分阶段 warmup 完成冷热码替换,冷启房间曝光 +2.05%。学术线上,Kalra 等量化了超参迁移质量,揭示 μP 相对标准参数化的核心收益其实来自"最大化 embedding 层学习率"。此外 NT-SSM 改进图协同过滤的对比损失、LTC 以层级 token 压缩加速文档重排、谱标度律工作主张把优化器视作表征 scaling 的一等维度。趋势上,工业推荐正从 ID 记忆转向内容语义与无偏建模,LLM 研究则持续深挖训练动力学与优化器对表征容量的影响。
重点论文
FLUID · ⭐ 8/10
🏢 ByteDance · 判别式推荐
提出 FLUID,首个在生产级直播排序中彻底退役候选侧 item ID 的框架:用跨域多模态编码器(SigLIP2+Qwen3,联合短视频与直播训练)经 RQ-KMeans 生成离散分层语义码 LUCID(区分瞬态 slice 级与持久 room 级),通过 prefix n-gram embedding 后融合进排序器,并用 slice add-on→item ID phase-out→room add-on 三阶段 warmup 绕开 item ID 的捷径与优化非对称性;在十亿级直播平台线上取得 Quality Watch Duration +0.55%、Cold-Start Room Views +2.05% 等一致收益。
PEARL · ⭐ 8/10
🏢 ByteDance · 判别式推荐
PEARL 把工业直播 watch-time 预测重构为非参数的每用户分位数估计,证明'当前样本是否大于一个随机历史样本'的对比指示其期望即真分位(无偏 CDF 估计),并扩展出多样本降方差、价值加权、自举与回归协同训练;十亿级上线带来 +2.10% 观看时长,且对低活跃用户 UAUC 大幅提升。
Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate · ⭐ 6/10
🎓 学术 · LLM
构建量化超参迁移质量的框架(拟合优度、外推鲁棒性、参数化引起的渐近 loss 惩罚),并通过大量消融揭示 μP 相对标准参数化的核心收益其实来自"最大化 embedding 层学习率"——SP 中过小的 embedding LR 会成为引发训练不稳的瓶颈。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| FLUID | FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation | 判别式 | 🏢 ByteDance | 8 | 8 |
| PEARL | PEARL: Unbiased Percentile Estimation via Contrastive Learning for Industrial-Scale Livestream Recommendation | 判别式 | 🏢 ByteDance | 7 | 8 |
| — | Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate | LLM | 🎓 学术 | 6 | — |
| LTC | Layer-wise Token Compression for Efficient Document Reranking | 其他 | 🎓 学术 | 6 | — |
| NT-SSM | Rethinking Contrastive Learning for Graph Collaborative Filtering: Limitations and a Simple Remedy | 判别式 | 🎓 学术 | 6 | — |
| — | Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws | LLM | 🎓 学术 | 5 | — |