← 返回报告列表

2026-06-05 日报

日报 📅 2026-06-04
工业生成式推荐迈向强化推理,冷启动与去噪并进
rl semantic-id cold-start industrial pretrained-lm
📊 共 4 篇 · 精读 2

2026-06-05 日报

主题: 工业生成式推荐迈向强化推理,冷启动与去噪并进

标签: rl · semantic-id · cold-start · industrial · pretrained-lm

📊 统计: 共 4 篇 · 精读 2 · 🏢 工业界 1 · 🎓 学术 3 · generative-rec 2 · discriminative-rec 2

综述

本日共收录 4 篇推荐系统论文,生成式与判别式各 2 篇,其中 2 篇工业论文获深度精读、2 篇学术论文仅略读。重点上,快手 OneRec 团队的 OneReason 以四粒度感知预训练、三层认知 CoT(人格抽象→兴趣扩展→转移推理)的 SFT 及"专精后统一"的 RL 配方(域内 GRPO→RFT/MOPD),首次让生成式推荐的"思考模式"稳定超越非思考模式,并已在快手本地生活广告线上部署、ROI>5。Tubi×Kumo 的 Shallow-RHS 把物品冷启动重述为时序二部图上的归纳式图补全,用刻意无 ID、无图的非对称内容塔配合暖代理邻居检索完成隐式补全,线上 A/B 提升观看时长与冷内容晋升速度。学术侧,ANCHOR 提出"创造-识别"去噪范式,用 LLM-as-User 智能体主动合成带标签噪声以训练可复用识别器;PHKT 则以个性化动态超图加 KAN-Transformer 处理多行为序列推荐。整体看,强化推理正成为工业生成式推荐的新前沿,而冷启动、去噪等长尾难题仍是持续攻坚方向。

重点论文

OneReason · ⭐ 9/10

OneReason Technical Report

🏢 Kuaishou · 生成式推荐

快手 OneRec 团队的推理基础模型 OneReason:通过四粒度感知预训练 + 三层认知 CoT 的 SFT + 专精后统一的 RL(域内 GRPO→RFT/MOPD),首次让生成式推荐的思考模式稳定超越非思考模式,已在快手本地生活广告线上部署(ROI>5)。

Shallow-RHS · ⭐ 6/10

Bridging the Semantic-Collaborative Gap: An Asymmetric Graph Architecture for Cold-Start Item Recommendation

🎓 学术 · 生成式推荐

Tubi×Kumo 把物品冷启动重述为时序二部图上的归纳式图补全,提出非对称双塔 Shallow-RHS——内容塔刻意无 ID 无图、仅凭内在特征被图链接预测训练进 CF 感知空间,配合暖代理邻居 ANN 检索实现隐式图补全,并以人口统计 cohort 把同一原则推广到设备冷启动,线上 A/B 提升 TVT 与冷内容晋升速度。

ANCHOR · ⭐ 5/10

ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation

🎓 学术 · 判别式推荐

ANCHOR提出"创造-识别"去噪范式,用受LLM-as-User启发的智能体在recommender-in-the-loop架构下主动合成带标签的噪声交互(含五类分布外噪声与对抗边界噪声),再训练一个融合协同信号与语义表示的可复用参数化识别器,把推荐去噪从启发式过滤转为监督学习。

全部论文

模型 标题 类别 公司 摘要分 精读分
OneReason OneReason Technical Report 生成式 🏢 Kuaishou 9 9
Shallow-RHS Bridging the Semantic-Collaborative Gap: An Asymmetric Graph Architecture for Cold-Start Item Recommendation 生成式 🎓 学术 0 6
ANCHOR ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation 判别式 🎓 学术 5
PHKT PHKT:Personalized Dynamic Hypergraph-enhanced KAN-Transformer for Multi-behavior Sequential Recommendation 判别式 🎓 学术 4