2026-05-21 日报

主题: 工业直播推荐新范式与 LLM 训练标度律

标签: industrial · semantic-id · contrastive-ssl · parameter-scaling

📊 统计: 共 6 篇 · 精读 2 · 🏢 工业界 2 · 🎓 学术 4 · discriminative-rec 3 · llm 2 · other 1

综述

本日共 6 篇：判别式推荐 3 篇、LLM 训练 2 篇、其他 1 篇，工业与学术约各半，其中 2 篇完成精读。工业直播线两篇最亮眼：字节跳动的 PEARL 把直播 watch-time 预测重构为非参数的每用户分位数估计，证明"当前样本是否大于一个随机历史样本"的对比指示其期望即为无偏 CDF，十亿级上线带来 +2.10% 观看时长并显著改善低活用户；FLUID 首次在生产级直播排序中彻底弃用候选侧 item ID，改用跨域多模态分层语义码 LUCID 表征内容、并分阶段 warmup 完成冷热码替换，冷启房间曝光 +2.05%。学术线上，Kalra 等量化了超参迁移质量，揭示 μP 相对标准参数化的核心收益其实来自"最大化 embedding 层学习率"。此外 NT-SSM 改进图协同过滤的对比损失、LTC 以层级 token 压缩加速文档重排、谱标度律工作主张把优化器视作表征 scaling 的一等维度。趋势上，工业推荐正从 ID 记忆转向内容语义与无偏建模，LLM 研究则持续深挖训练动力学与优化器对表征容量的影响。

重点论文

FLUID · ⭐ 8/10

FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation

🏢 ByteDance · 判别式推荐

提出 FLUID,首个在生产级直播排序中彻底退役候选侧 item ID 的框架:用跨域多模态编码器(SigLIP2+Qwen3,联合短视频与直播训练)经 RQ-KMeans 生成离散分层语义码 LUCID(区分瞬态 slice 级与持久 room 级),通过 prefix n-gram embedding 后融合进排序器,并用 slice add-on→item ID phase-out→room add-on 三阶段 warmup 绕开 item ID 的捷径与优化非对称性;在十亿级直播平台线上取得 Quality Watch Duration +0.55%、Cold-Start Room Views +2.05% 等一致收益。

PEARL · ⭐ 8/10

PEARL: Unbiased Percentile Estimation via Contrastive Learning for Industrial-Scale Livestream Recommendation

🏢 ByteDance · 判别式推荐

PEARL 把工业直播 watch-time 预测重构为非参数的每用户分位数估计,证明'当前样本是否大于一个随机历史样本'的对比指示其期望即真分位(无偏 CDF 估计),并扩展出多样本降方差、价值加权、自举与回归协同训练;十亿级上线带来 +2.10% 观看时长,且对低活跃用户 UAUC 大幅提升。

Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate · ⭐ 6/10

🎓 学术 · LLM

构建量化超参迁移质量的框架(拟合优度、外推鲁棒性、参数化引起的渐近 loss 惩罚),并通过大量消融揭示 μP 相对标准参数化的核心收益其实来自"最大化 embedding 层学习率"——SP 中过小的 embedding LR 会成为引发训练不稳的瓶颈。

全部论文

模型	标题	类别	公司	摘要分	精读分
FLUID	FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation	判别式	🏢 ByteDance	8	8
PEARL	PEARL: Unbiased Percentile Estimation via Contrastive Learning for Industrial-Scale Livestream Recommendation	判别式	🏢 ByteDance	7	8
—	Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate	LLM	🎓 学术	6	—
LTC	Layer-wise Token Compression for Efficient Document Reranking	其他	🎓 学术	6	—
NT-SSM	Rethinking Contrastive Learning for Graph Collaborative Filtering: Limitations and a Simple Remedy	判别式	🎓 学术	6	—
—	Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws	LLM	🎓 学术	5	—