← 返回报告列表

2026-04-27 日报

日报 📅 2026-04-24
RL 重塑 LLM 生成式推荐与检索重排
rl pretrained-lm search-ranking industrial academic
📊 共 7 篇 · 精读 3

2026-04-27 日报

主题: RL 重塑 LLM 生成式推荐与检索重排

标签: rl · pretrained-lm · search-ranking · industrial · academic

📊 统计: 共 7 篇 · 精读 3 · 🏢 工业界 3 · 🎓 学术 4 · generative-rec 3 · llm 2 · other 1 · discriminative-rec 2

综述

本日共 7 篇论文,3 篇精读、4 篇略读;类别分布以生成式推荐(3)与 LLM 检索(2)为主,工业(华为、阿里)与学术(USTC×Meta 等)双线并进。重点论文中,华为 ReCast 把生成式推荐 RL 的瓶颈从"奖励稀疏"前推至"group 可学性退化",用 ground-truth anchor 修复 all-zero 组并以 hardest 正负对边界对比替代全组归一化;阿里 Qwen 团队的 ResRank 通过 Encoder-LLM 把段落压成单 embedding 走残差连接喂给 Reranker-LLM,配合余弦打分与双阶段多任务联合训练,零生成 token 即可逼近 GPT-4 的 BEIR/TREC DL 效果;Meta×USTC 的 TAWin 形式化证明 GRPO+二值奖励等价于 AUC、加 beam-search 即转 OPAUC,并提出可微 soft 窗口重加权与 Recall@K 双边界,跨 backbone/optimizer 一致 SOTA。其余略读论文覆盖预算感知 scaling law 拟合(active-SL)、frozen LLM 证据高亮(HiLight)、谱图协同过滤双层滤波(ASPIRE)与投毒攻击迁移性(SharpAP)。趋势上,RL 在 LLM 推荐与检索重排中的目标与信号设计正从启发式走向理论刻画,"消除生成瓶颈+对比/边界式信号"是值得持续关注的方向。

重点论文

ReCast · ⭐ 8/10

ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation

🏢 Huawei · 生成式推荐

提出 ReCast——一个 repair-then-contrast 的 within-group 信号设计:先用 ground-truth-derived anchor 修复 all-zero group 恢复可学性,再以 hardest 正负对边界对比更新替代全组 reward 归一化,把生成式推荐 RL 的瓶颈从「奖励稀疏」推前到「group 可学性退化」

ResRank · ⭐ 8/10

ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

🏢 Alibaba · LLM

ResRank 用 Encoder-LLM 把每段压成单 embedding 直接喂给 Reranker-LLM,配合残差连接和余弦相似度打分消除生成瓶颈,通过 dual-stage multi-task 端到端联合训练统一检索与列表式重排,在 BEIR/TREC DL 上以零生成 token 接近 GPT-4 效果

TAWin · ⭐ 8/10

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

🏢 Meta · 生成式推荐

形式化证明 GRPO+二值奖励=AUC、+beam-search=OPAUC,提出 WPAUC 与 Recall@K 的精确双边界以及可微 soft 窗口重加权方法 TAWin,在四个公开数据集上跨 backbone/optimizer/encoding 一致 SOTA

全部论文

模型 标题 类别 公司 摘要分 精读分
ReCast ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation 生成式 🏢 Huawei 8 8
ResRank ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression LLM 🏢 Alibaba 7 8
TAWin Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders 生成式 🏢 Meta 0 8
active-SL Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection 其他 🎓 学术 6
HiLight Learning Evidence Highlighting for Frozen LLMs LLM / 生成式 🎓 学术 6
ASPIRE ASPIRE: Make Spectral Graph Collaborative Filtering Great Again via Adaptive Filter Learning 判别式 🎓 学术 5
SharpAP Sharpness-Aware Poisoning: Enhancing Transferability of Injective Attacks on Recommender Systems 判别式 🎓 学术 4