2026-05-22 日报
主题: LLM 显式推理与生成式检索重塑推荐召回
标签: pretrained-lm · rl · semantic-id · ad-rec · industrial
📊 统计: 共 5 篇 · 精读 2 · 🏢 工业界 2 · 🎓 学术 3 · generative-rec 3 · discriminative-rec 2
综述
本日 5 篇均围绕推荐/检索召回,3 篇生成式、2 篇判别式,2 篇精读,工业界(快手、Meta)与学术界各半。快手 RPORec 用文本接口解耦“生成显式 CoT 的 LLM backbone”与轻量检索头 Rechead,两阶段交替训练,以冻结 Rechead 作稠密可验证奖励并用 GRPO 精炼推理,规避隐状态扭曲与文本→item 语义鸿沟,工业广告 A/B 营收 +1.348%。Meta 提出 A/A'(StatSigDiff)稳定性度量框架,并用微调 LLM 抽取广告层级语义属性、遍历 ad-to-ad 语义图召回,同时改善可预测性与顶线 +0.45%。学术侧,Generative Conversational Recommender 以 semantic ID 做全生成式对话推荐,Recall@1 最高 +29%;ThinkGR 在单次生成内交错 CoT 与 docid 解码、SFT 对齐后再以检索奖励做 RL,多跳检索平均 +6.86%。整体看,显式推理(CoT/RL)正从 LLM 迁入推荐召回与生成式检索,而工业界把“稳定性/可预测性”作为落地核心关切。
重点论文
RPORec · ⭐ 8/10
Reinforced Preference Optimization for Reasoning-Augmented Recommendations
🏢 Kuaishou · 生成式推荐
RPORec 用文本接口解耦「生成显式 CoT 的 LLM backbone」与「检索式推荐头 Rechead」:Stage I 冻结 backbone 训 Rechead,Stage II 冻结 Rechead 当稠密 verifiable 奖励 + CoT 质量奖励用 GRPO 精炼 backbone,同时规避隐状态扭曲推理与文本→item 语义鸿沟;3 个 Amazon 数据集超 SOTA,工业广告 A/B Revenue +1.348%。
LLM Retrieval for Stable and Predictable Ad Recommendations · ⭐ 5/10
🏢 Meta · 判别式推荐
Meta 提出量化广告系统稳定性/可预测性的 A/A'(StatSigDiff)度量框架,并用微调 LLM 从广告创意抽取层级语义属性、构建 ad-to-ad 语义图做图遍历召回,在线上 A/B 中同时改善可预测性(A/A' -8.62%、MAD +45%)与传统性能(顶线 +0.45%、召回 +1.2%)。
Generative Conversational Recommender System · ⭐ 7/10
🎓 学术 · 生成式推荐
提出全生成式对话推荐框架,将物品表示为离散 semantic ID 并直接嵌入自回归生成,以 next-token 联合预测物品与回复;进一步用结构化生成把任务分解为“先定意图与推荐目标、再条件生成回复”的相互依赖决策,支持约束解码的忠实物品生成,Recall@1 最高提升 29%。
ThinkGR · ⭐ 6/10
Integrating Chain-of-Thought into Generative Retrieval: A Preliminary Study
🎓 学术 · 生成式推荐
ThinkGR 在单一生成过程内交错进行思维链推理与 docid 生成:用混合解码在自由思考与受限 docid 解码间动态切换,并以“先 SFT 对齐、再用检索奖励做 RL”两阶段训练优化思维质量,在四个多跳检索基准上平均提升 6.86%。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| RPORec | Reinforced Preference Optimization for Reasoning-Augmented Recommendations | 生成式 | 🏢 Kuaishou | 8 | 8 |
| — | LLM Retrieval for Stable and Predictable Ad Recommendations | 判别式 | 🏢 Meta | 8 | 5 |
| — | Generative Conversational Recommender System | 生成式 | 🎓 学术 | 7 | — |
| ThinkGR | Integrating Chain-of-Thought into Generative Retrieval: A Preliminary Study | 生成式 | 🎓 学术 | 6 | — |
| — | Building a privacy-preserving Federated Recommender system for mobile devices | 判别式 | 🎓 学术 | 4 | — |