2026-04-27 日报
主题: RL 重塑 LLM 生成式推荐与检索重排
标签: rl · pretrained-lm · search-ranking · industrial · academic
📊 统计: 共 7 篇 · 精读 3 · 🏢 工业界 3 · 🎓 学术 4 · generative-rec 3 · llm 2 · other 1 · discriminative-rec 2
综述
本日共 7 篇论文,3 篇精读、4 篇略读;类别分布以生成式推荐(3)与 LLM 检索(2)为主,工业(华为、阿里)与学术(USTC×Meta 等)双线并进。重点论文中,华为 ReCast 把生成式推荐 RL 的瓶颈从"奖励稀疏"前推至"group 可学性退化",用 ground-truth anchor 修复 all-zero 组并以 hardest 正负对边界对比替代全组归一化;阿里 Qwen 团队的 ResRank 通过 Encoder-LLM 把段落压成单 embedding 走残差连接喂给 Reranker-LLM,配合余弦打分与双阶段多任务联合训练,零生成 token 即可逼近 GPT-4 的 BEIR/TREC DL 效果;Meta×USTC 的 TAWin 形式化证明 GRPO+二值奖励等价于 AUC、加 beam-search 即转 OPAUC,并提出可微 soft 窗口重加权与 Recall@K 双边界,跨 backbone/optimizer 一致 SOTA。其余略读论文覆盖预算感知 scaling law 拟合(active-SL)、frozen LLM 证据高亮(HiLight)、谱图协同过滤双层滤波(ASPIRE)与投毒攻击迁移性(SharpAP)。趋势上,RL 在 LLM 推荐与检索重排中的目标与信号设计正从启发式走向理论刻画,"消除生成瓶颈+对比/边界式信号"是值得持续关注的方向。
重点论文
ReCast · ⭐ 8/10
ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation
🏢 Huawei · 生成式推荐
提出 ReCast——一个 repair-then-contrast 的 within-group 信号设计:先用 ground-truth-derived anchor 修复 all-zero group 恢复可学性,再以 hardest 正负对边界对比更新替代全组 reward 归一化,把生成式推荐 RL 的瓶颈从「奖励稀疏」推前到「group 可学性退化」
ResRank · ⭐ 8/10
🏢 Alibaba · LLM
ResRank 用 Encoder-LLM 把每段压成单 embedding 直接喂给 Reranker-LLM,配合残差连接和余弦相似度打分消除生成瓶颈,通过 dual-stage multi-task 端到端联合训练统一检索与列表式重排,在 BEIR/TREC DL 上以零生成 token 接近 GPT-4 效果
TAWin · ⭐ 8/10
🏢 Meta · 生成式推荐
形式化证明 GRPO+二值奖励=AUC、+beam-search=OPAUC,提出 WPAUC 与 Recall@K 的精确双边界以及可微 soft 窗口重加权方法 TAWin,在四个公开数据集上跨 backbone/optimizer/encoding 一致 SOTA
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| ReCast | ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation | 生成式 | 🏢 Huawei | 8 | 8 |
| ResRank | ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression | LLM | 🏢 Alibaba | 7 | 8 |
| TAWin | Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders | 生成式 | 🏢 Meta | 0 | 8 |
| active-SL | Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection | 其他 | 🎓 学术 | 6 | — |
| HiLight | Learning Evidence Highlighting for Frozen LLMs | LLM / 生成式 | 🎓 学术 | 6 | — |
| ASPIRE | ASPIRE: Make Spectral Graph Collaborative Filtering Great Again via Adaptive Filter Learning | 判别式 | 🎓 学术 | 5 | — |
| SharpAP | Sharpness-Aware Poisoning: Enhancing Transferability of Injective Attacks on Recommender Systems | 判别式 | 🎓 学术 | 4 | — |