2026-06-05 日报
主题: 工业生成式推荐迈向强化推理,冷启动与去噪并进
标签: rl · semantic-id · cold-start · industrial · pretrained-lm
📊 统计: 共 4 篇 · 精读 2 · 🏢 工业界 1 · 🎓 学术 3 · generative-rec 2 · discriminative-rec 2
综述
本日共收录 4 篇推荐系统论文,生成式与判别式各 2 篇,其中 2 篇工业论文获深度精读、2 篇学术论文仅略读。重点上,快手 OneRec 团队的 OneReason 以四粒度感知预训练、三层认知 CoT(人格抽象→兴趣扩展→转移推理)的 SFT 及"专精后统一"的 RL 配方(域内 GRPO→RFT/MOPD),首次让生成式推荐的"思考模式"稳定超越非思考模式,并已在快手本地生活广告线上部署、ROI>5。Tubi×Kumo 的 Shallow-RHS 把物品冷启动重述为时序二部图上的归纳式图补全,用刻意无 ID、无图的非对称内容塔配合暖代理邻居检索完成隐式补全,线上 A/B 提升观看时长与冷内容晋升速度。学术侧,ANCHOR 提出"创造-识别"去噪范式,用 LLM-as-User 智能体主动合成带标签噪声以训练可复用识别器;PHKT 则以个性化动态超图加 KAN-Transformer 处理多行为序列推荐。整体看,强化推理正成为工业生成式推荐的新前沿,而冷启动、去噪等长尾难题仍是持续攻坚方向。
重点论文
OneReason · ⭐ 9/10
🏢 Kuaishou · 生成式推荐
快手 OneRec 团队的推理基础模型 OneReason:通过四粒度感知预训练 + 三层认知 CoT 的 SFT + 专精后统一的 RL(域内 GRPO→RFT/MOPD),首次让生成式推荐的思考模式稳定超越非思考模式,已在快手本地生活广告线上部署(ROI>5)。
Shallow-RHS · ⭐ 6/10
🎓 学术 · 生成式推荐
Tubi×Kumo 把物品冷启动重述为时序二部图上的归纳式图补全,提出非对称双塔 Shallow-RHS——内容塔刻意无 ID 无图、仅凭内在特征被图链接预测训练进 CF 感知空间,配合暖代理邻居 ANN 检索实现隐式图补全,并以人口统计 cohort 把同一原则推广到设备冷启动,线上 A/B 提升 TVT 与冷内容晋升速度。
ANCHOR · ⭐ 5/10
ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation
🎓 学术 · 判别式推荐
ANCHOR提出"创造-识别"去噪范式,用受LLM-as-User启发的智能体在recommender-in-the-loop架构下主动合成带标签的噪声交互(含五类分布外噪声与对抗边界噪声),再训练一个融合协同信号与语义表示的可复用参数化识别器,把推荐去噪从启发式过滤转为监督学习。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| OneReason | OneReason Technical Report | 生成式 | 🏢 Kuaishou | 9 | 9 |
| Shallow-RHS | Bridging the Semantic-Collaborative Gap: An Asymmetric Graph Architecture for Cold-Start Item Recommendation | 生成式 | 🎓 学术 | 0 | 6 |
| ANCHOR | ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation | 判别式 | 🎓 学术 | 5 | — |
| PHKT | PHKT:Personalized Dynamic Hypergraph-enhanced KAN-Transformer for Multi-behavior Sequential Recommendation | 判别式 | 🎓 学术 | 4 | — |