2026-06-03 日报

主题: 推荐与 LLM 建模的效率帕累托权衡

标签: industrial · pretrained-lm · transformer · rl · ad-rec

📊 统计: 共 7 篇 · 精读 2 · 🏢 工业界 2 · 🎓 学术 5 · generative-rec 1 · llm 2 · other 1 · discriminative-rec 3

综述

当日共收录 7 篇,涵盖生成式推荐 1、判别式推荐 3、LLM 2 及其他 1,其中 2 篇精读,工业界(快手、ShareChat)与学术界大致各半。Taiji(快手)是工业级 LLM-as-Enhancer 框架,用逆向工程 CoT 与 PPL 拒绝采样提升推理数据质量,再以 POPO 在 GRPO 中对语义奖励与 CTCVR 协同奖励做帕累托最优加权,7B 模型离线超越 32B 教师,线上取得 +2.83% ADVV、+3.30% Revenue,已服务 4 亿日活。Dynamic Short Convolutions(IBM/MIT)提出动态短卷积新原语,从隐藏态生成输入依赖的深度卷积滤波器,在 150M–7B(含 MoE)上持续优于 Transformer,带来 1.33×–1.60× 的算力优势。Variance Reduction(ShareChat)把后分层与 CUPED 结合,以约少 45% 流量在重尾营收指标上达到同等统计置信度。整体主线是效率帕累托权衡——无论 LLM 推理增强、Transformer 架构原语还是在线实验方差削减,都在以更低的参数、算力或流量成本换取等效或更优收益,其中 LLM-as-Enhancer 叠加 RL 协同奖励的工业落地尤其值得持续关注。

重点论文

Taiji · ⭐ 8/10

Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation

🏢 Kuaishou · 生成式推荐

Taiji 是快手广告的工业级 LLM-as-Enhancer 框架,用逆向工程 CoT(RUPR)+PPL 拒绝采样(ORFT)提升推理数据质量,再以 POPO 在 GRPO 中动态做 LLM 语义奖励与推荐协同(CTCVR)奖励的 Pareto 最优加权,7B 模型离线多数指标超过 32B 教师,线上 A/B 提升 +2.83% ADVV/+3.30% Revenue,已部署服务 4 亿日活。

Dynamic Short Convolutions Improve Transformers · ⭐ 7/10

🏢 IBM · LLM

提出动态短卷积作为 Transformer 的新原语——从隐藏状态生成输入依赖的深度卷积滤波器,在保留局部性归纳偏置的同时增强表达力;跨 150M–2B 稠密及 7B MoE 持续优于带/不带静态卷积的 Transformer,scaling law 显示 QKV 放置 1.33×、全线性放置 1.60× 的算力优势,并以自研 Triton 内核把训练额外开销控制在约 8%。

Variance Reduction for Heavy-Tailed Monetization Metrics in Ranking Experiments via Post-Stratification · ⭐ 6/10

🎓 学术 · 其他

提出在线实验方差削减的实用框架,把后分层(post-stratification)与 CUPED 结合,利用实验前协变量提升重尾营收指标(如 app 收入、创作者收益)的灵敏度;在 ShareChat 排序驱动的营收实验中部署,以约少 45% 流量达到同等统计置信度。

全部论文

模型	标题	类别	公司	摘要分	精读分
Taiji	Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation	生成式	🏢 Kuaishou	8	8
—	Dynamic Short Convolutions Improve Transformers	LLM	🏢 IBM	7	7
—	Variance Reduction for Heavy-Tailed Monetization Metrics in Ranking Experiments via Post-Stratification	其他	🎓 学术	6	—
MARS	MARS: Multi-rate Aggregation of Recency Signals for Sequential Recommendation across Sparse and Dense Regimes	判别式	🎓 学术	5	—
VirtualMLE	VirtualMLE: A Virtual ML Engineer that Optimizes Sequential Recommenders	LLM	🎓 学术	5	—
MeRa	When Does Latent Reasoning Help? MeRa: Metric-Space Bias for Spatial Prediction	判别式	🎓 学术	4	—
BAHSD	BAHSD: Bridging the Long-tail Gap via Adaptive Distillation in Black-box Sequential Recommendation	判别式	🎓 学术	4	—