2026-06-05 日报

主题: 工业生成式推荐迈向强化推理，冷启动与去噪并进

标签: rl · semantic-id · cold-start · industrial · pretrained-lm

📊 统计: 共 4 篇 · 精读 2 · 🏢 工业界 1 · 🎓 学术 3 · generative-rec 2 · discriminative-rec 2

综述

本日共收录 4 篇推荐系统论文，生成式与判别式各 2 篇，其中 2 篇工业论文获深度精读、2 篇学术论文仅略读。重点上，快手 OneRec 团队的 OneReason 以四粒度感知预训练、三层认知 CoT（人格抽象→兴趣扩展→转移推理）的 SFT 及"专精后统一"的 RL 配方（域内 GRPO→RFT/MOPD），首次让生成式推荐的"思考模式"稳定超越非思考模式，并已在快手本地生活广告线上部署、ROI>5。Tubi×Kumo 的 Shallow-RHS 把物品冷启动重述为时序二部图上的归纳式图补全，用刻意无 ID、无图的非对称内容塔配合暖代理邻居检索完成隐式补全，线上 A/B 提升观看时长与冷内容晋升速度。学术侧，ANCHOR 提出"创造-识别"去噪范式，用 LLM-as-User 智能体主动合成带标签噪声以训练可复用识别器；PHKT 则以个性化动态超图加 KAN-Transformer 处理多行为序列推荐。整体看，强化推理正成为工业生成式推荐的新前沿，而冷启动、去噪等长尾难题仍是持续攻坚方向。

重点论文

OneReason · ⭐ 9/10

OneReason Technical Report

🏢 Kuaishou · 生成式推荐

快手 OneRec 团队的推理基础模型 OneReason：通过四粒度感知预训练 + 三层认知 CoT 的 SFT + 专精后统一的 RL（域内 GRPO→RFT/MOPD），首次让生成式推荐的思考模式稳定超越非思考模式，已在快手本地生活广告线上部署（ROI>5）。

Shallow-RHS · ⭐ 6/10

Bridging the Semantic-Collaborative Gap: An Asymmetric Graph Architecture for Cold-Start Item Recommendation

🎓 学术 · 生成式推荐

Tubi×Kumo 把物品冷启动重述为时序二部图上的归纳式图补全,提出非对称双塔 Shallow-RHS——内容塔刻意无 ID 无图、仅凭内在特征被图链接预测训练进 CF 感知空间,配合暖代理邻居 ANN 检索实现隐式图补全,并以人口统计 cohort 把同一原则推广到设备冷启动,线上 A/B 提升 TVT 与冷内容晋升速度。

ANCHOR · ⭐ 5/10

ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation

🎓 学术 · 判别式推荐

ANCHOR提出"创造-识别"去噪范式，用受LLM-as-User启发的智能体在recommender-in-the-loop架构下主动合成带标签的噪声交互（含五类分布外噪声与对抗边界噪声），再训练一个融合协同信号与语义表示的可复用参数化识别器，把推荐去噪从启发式过滤转为监督学习。

全部论文

模型	标题	类别	公司	摘要分	精读分
OneReason	OneReason Technical Report	生成式	🏢 Kuaishou	9	9
Shallow-RHS	Bridging the Semantic-Collaborative Gap: An Asymmetric Graph Architecture for Cold-Start Item Recommendation	生成式	🎓 学术	0	6
ANCHOR	ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation	判别式	🎓 学术	5	—
PHKT	PHKT:Personalized Dynamic Hypergraph-enhanced KAN-Transformer for Multi-behavior Sequential Recommendation	判别式	🎓 学术	4	—