2026-05-22 日报

主题: LLM 显式推理与生成式检索重塑推荐召回

标签: pretrained-lm · rl · semantic-id · ad-rec · industrial

📊 统计: 共 5 篇 · 精读 2 · 🏢 工业界 2 · 🎓 学术 3 · generative-rec 3 · discriminative-rec 2

综述

本日 5 篇均围绕推荐/检索召回，3 篇生成式、2 篇判别式，2 篇精读，工业界（快手、Meta）与学术界各半。快手 RPORec 用文本接口解耦“生成显式 CoT 的 LLM backbone”与轻量检索头 Rechead，两阶段交替训练，以冻结 Rechead 作稠密可验证奖励并用 GRPO 精炼推理，规避隐状态扭曲与文本→item 语义鸿沟，工业广告 A/B 营收 +1.348%。Meta 提出 A/A'（StatSigDiff）稳定性度量框架，并用微调 LLM 抽取广告层级语义属性、遍历 ad-to-ad 语义图召回，同时改善可预测性与顶线 +0.45%。学术侧，Generative Conversational Recommender 以 semantic ID 做全生成式对话推荐，Recall@1 最高 +29%；ThinkGR 在单次生成内交错 CoT 与 docid 解码、SFT 对齐后再以检索奖励做 RL，多跳检索平均 +6.86%。整体看，显式推理（CoT/RL）正从 LLM 迁入推荐召回与生成式检索，而工业界把“稳定性/可预测性”作为落地核心关切。

重点论文

RPORec · ⭐ 8/10

Reinforced Preference Optimization for Reasoning-Augmented Recommendations

🏢 Kuaishou · 生成式推荐

RPORec 用文本接口解耦「生成显式 CoT 的 LLM backbone」与「检索式推荐头 Rechead」：Stage I 冻结 backbone 训 Rechead，Stage II 冻结 Rechead 当稠密 verifiable 奖励 + CoT 质量奖励用 GRPO 精炼 backbone，同时规避隐状态扭曲推理与文本→item 语义鸿沟；3 个 Amazon 数据集超 SOTA，工业广告 A/B Revenue +1.348%。

LLM Retrieval for Stable and Predictable Ad Recommendations · ⭐ 5/10

🏢 Meta · 判别式推荐

Meta 提出量化广告系统稳定性/可预测性的 A/A'(StatSigDiff)度量框架,并用微调 LLM 从广告创意抽取层级语义属性、构建 ad-to-ad 语义图做图遍历召回,在线上 A/B 中同时改善可预测性(A/A' -8.62%、MAD +45%)与传统性能(顶线 +0.45%、召回 +1.2%)。

Generative Conversational Recommender System · ⭐ 7/10

🎓 学术 · 生成式推荐

提出全生成式对话推荐框架，将物品表示为离散 semantic ID 并直接嵌入自回归生成，以 next-token 联合预测物品与回复；进一步用结构化生成把任务分解为“先定意图与推荐目标、再条件生成回复”的相互依赖决策，支持约束解码的忠实物品生成，Recall@1 最高提升 29%。

ThinkGR · ⭐ 6/10

Integrating Chain-of-Thought into Generative Retrieval: A Preliminary Study

🎓 学术 · 生成式推荐

ThinkGR 在单一生成过程内交错进行思维链推理与 docid 生成：用混合解码在自由思考与受限 docid 解码间动态切换，并以“先 SFT 对齐、再用检索奖励做 RL”两阶段训练优化思维质量，在四个多跳检索基准上平均提升 6.86%。

全部论文

模型	标题	类别	公司	摘要分	精读分
RPORec	Reinforced Preference Optimization for Reasoning-Augmented Recommendations	生成式	🏢 Kuaishou	8	8
—	LLM Retrieval for Stable and Predictable Ad Recommendations	判别式	🏢 Meta	8	5
—	Generative Conversational Recommender System	生成式	🎓 学术	7	—
ThinkGR	Integrating Chain-of-Thought into Generative Retrieval: A Preliminary Study	生成式	🎓 学术	6	—
—	Building a privacy-preserving Federated Recommender system for mobile devices	判别式	🎓 学术	4	—