← 返回报告列表

2026-05-22 日报

日报 📅 2026-05-21
LLM 显式推理与生成式检索重塑推荐召回
pretrained-lm rl semantic-id ad-rec industrial
📊 共 5 篇 · 精读 2

2026-05-22 日报

主题: LLM 显式推理与生成式检索重塑推荐召回

标签: pretrained-lm · rl · semantic-id · ad-rec · industrial

📊 统计: 共 5 篇 · 精读 2 · 🏢 工业界 2 · 🎓 学术 3 · generative-rec 3 · discriminative-rec 2

综述

本日 5 篇均围绕推荐/检索召回,3 篇生成式、2 篇判别式,2 篇精读,工业界(快手、Meta)与学术界各半。快手 RPORec 用文本接口解耦“生成显式 CoT 的 LLM backbone”与轻量检索头 Rechead,两阶段交替训练,以冻结 Rechead 作稠密可验证奖励并用 GRPO 精炼推理,规避隐状态扭曲与文本→item 语义鸿沟,工业广告 A/B 营收 +1.348%。Meta 提出 A/A'(StatSigDiff)稳定性度量框架,并用微调 LLM 抽取广告层级语义属性、遍历 ad-to-ad 语义图召回,同时改善可预测性与顶线 +0.45%。学术侧,Generative Conversational Recommender 以 semantic ID 做全生成式对话推荐,Recall@1 最高 +29%;ThinkGR 在单次生成内交错 CoT 与 docid 解码、SFT 对齐后再以检索奖励做 RL,多跳检索平均 +6.86%。整体看,显式推理(CoT/RL)正从 LLM 迁入推荐召回与生成式检索,而工业界把“稳定性/可预测性”作为落地核心关切。

重点论文

RPORec · ⭐ 8/10

Reinforced Preference Optimization for Reasoning-Augmented Recommendations

🏢 Kuaishou · 生成式推荐

RPORec 用文本接口解耦「生成显式 CoT 的 LLM backbone」与「检索式推荐头 Rechead」:Stage I 冻结 backbone 训 Rechead,Stage II 冻结 Rechead 当稠密 verifiable 奖励 + CoT 质量奖励用 GRPO 精炼 backbone,同时规避隐状态扭曲推理与文本→item 语义鸿沟;3 个 Amazon 数据集超 SOTA,工业广告 A/B Revenue +1.348%。

LLM Retrieval for Stable and Predictable Ad Recommendations · ⭐ 5/10

🏢 Meta · 判别式推荐

Meta 提出量化广告系统稳定性/可预测性的 A/A'(StatSigDiff)度量框架,并用微调 LLM 从广告创意抽取层级语义属性、构建 ad-to-ad 语义图做图遍历召回,在线上 A/B 中同时改善可预测性(A/A' -8.62%、MAD +45%)与传统性能(顶线 +0.45%、召回 +1.2%)。

Generative Conversational Recommender System · ⭐ 7/10

🎓 学术 · 生成式推荐

提出全生成式对话推荐框架,将物品表示为离散 semantic ID 并直接嵌入自回归生成,以 next-token 联合预测物品与回复;进一步用结构化生成把任务分解为“先定意图与推荐目标、再条件生成回复”的相互依赖决策,支持约束解码的忠实物品生成,Recall@1 最高提升 29%。

ThinkGR · ⭐ 6/10

Integrating Chain-of-Thought into Generative Retrieval: A Preliminary Study

🎓 学术 · 生成式推荐

ThinkGR 在单一生成过程内交错进行思维链推理与 docid 生成:用混合解码在自由思考与受限 docid 解码间动态切换,并以“先 SFT 对齐、再用检索奖励做 RL”两阶段训练优化思维质量,在四个多跳检索基准上平均提升 6.86%。

全部论文

模型 标题 类别 公司 摘要分 精读分
RPORec Reinforced Preference Optimization for Reasoning-Augmented Recommendations 生成式 🏢 Kuaishou 8 8
LLM Retrieval for Stable and Predictable Ad Recommendations 判别式 🏢 Meta 8 5
Generative Conversational Recommender System 生成式 🎓 学术 7
ThinkGR Integrating Chain-of-Thought into Generative Retrieval: A Preliminary Study 生成式 🎓 学术 6
Building a privacy-preserving Federated Recommender system for mobile devices 判别式 🎓 学术 4