2026-04-27 日报

主题: RL 重塑 LLM 生成式推荐与检索重排

标签: rl · pretrained-lm · search-ranking · industrial · academic

📊 统计: 共 7 篇 · 精读 3 · 🏢 工业界 3 · 🎓 学术 4 · generative-rec 3 · llm 2 · other 1 · discriminative-rec 2

综述

本日共 7 篇论文，3 篇精读、4 篇略读；类别分布以生成式推荐（3）与 LLM 检索（2）为主，工业（华为、阿里）与学术（USTC×Meta 等）双线并进。重点论文中，华为 ReCast 把生成式推荐 RL 的瓶颈从"奖励稀疏"前推至"group 可学性退化"，用 ground-truth anchor 修复 all-zero 组并以 hardest 正负对边界对比替代全组归一化；阿里 Qwen 团队的 ResRank 通过 Encoder-LLM 把段落压成单 embedding 走残差连接喂给 Reranker-LLM，配合余弦打分与双阶段多任务联合训练，零生成 token 即可逼近 GPT-4 的 BEIR/TREC DL 效果；Meta×USTC 的 TAWin 形式化证明 GRPO+二值奖励等价于 AUC、加 beam-search 即转 OPAUC，并提出可微 soft 窗口重加权与 Recall@K 双边界，跨 backbone/optimizer 一致 SOTA。其余略读论文覆盖预算感知 scaling law 拟合（active-SL）、frozen LLM 证据高亮（HiLight）、谱图协同过滤双层滤波（ASPIRE）与投毒攻击迁移性（SharpAP）。趋势上，RL 在 LLM 推荐与检索重排中的目标与信号设计正从启发式走向理论刻画，"消除生成瓶颈+对比/边界式信号"是值得持续关注的方向。

重点论文

ReCast · ⭐ 8/10

ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation

🏢 Huawei · 生成式推荐

提出 ReCast——一个 repair-then-contrast 的 within-group 信号设计：先用 ground-truth-derived anchor 修复 all-zero group 恢复可学性，再以 hardest 正负对边界对比更新替代全组 reward 归一化，把生成式推荐 RL 的瓶颈从「奖励稀疏」推前到「group 可学性退化」

ResRank · ⭐ 8/10

ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

🏢 Alibaba · LLM

ResRank 用 Encoder-LLM 把每段压成单 embedding 直接喂给 Reranker-LLM,配合残差连接和余弦相似度打分消除生成瓶颈,通过 dual-stage multi-task 端到端联合训练统一检索与列表式重排,在 BEIR/TREC DL 上以零生成 token 接近 GPT-4 效果

TAWin · ⭐ 8/10

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

🏢 Meta · 生成式推荐

形式化证明 GRPO+二值奖励=AUC、+beam-search=OPAUC，提出 WPAUC 与 Recall@K 的精确双边界以及可微 soft 窗口重加权方法 TAWin，在四个公开数据集上跨 backbone/optimizer/encoding 一致 SOTA

全部论文

模型	标题	类别	公司	摘要分	精读分
ReCast	ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation	生成式	🏢 Huawei	8	8
ResRank	ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression	LLM	🏢 Alibaba	7	8
TAWin	Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders	生成式	🏢 Meta	0	8
active-SL	Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection	其他	🎓 学术	6	—
HiLight	Learning Evidence Highlighting for Frozen LLMs	LLM / 生成式	🎓 学术	6	—
ASPIRE	ASPIRE: Make Spectral Graph Collaborative Filtering Great Again via Adaptive Filter Learning	判别式	🎓 学术	5	—
SharpAP	Sharpness-Aware Poisoning: Enhancing Transferability of Injective Attacks on Recommender Systems	判别式	🎓 学术	4	—