2026-05-28 日报
主题: LLM 与世界模型驱动推荐:工业落地与偏好对齐
标签: pretrained-lm · rl · industrial · moe
📊 统计: 共 6 篇 · 精读 2 · 🏢 工业界 1 · 🎓 学术 5 · generative-rec 1 · discriminative-rec 2 · llm 3
综述
本日共 6 篇,类别为 LLM 推荐 3 篇、判别式 2 篇、生成式 1 篇,工业界 2 篇、学术界 4 篇,其中精读 2 篇。Pinterest 的工作把微调开源 LLM 当作“广告主预测器”而非排序器,从用户画像与转化历史预测高意图广告主并同时注入召回与排序,线上美区 Shopping RoAS 提升 4.94%/6.69%。LUCID 部署的 AMRS 用因果 Transformer 世界模型联合预测互动与情感效价/唤醒作离线仿真器,再以世界模型打分的 DPO 做多目标偏好优化,规避脆弱人群在线情感实验的伦理禁区。学术侧 MixRAGRec 以 MoE 检索智能体按查询复杂度路由不同粒度知识图谱、多智能体协作并用 MMAPO 联合训练;UFRec 则提出不确定性引导的未来监督与未来感知对比学习,且推理零开销。总体看,预训练语言模型与世界模型正把推荐推向显式语义与偏好建模,RL/DPO 偏好对齐与离线仿真正成为工业与学术的共同趋势。
重点论文
Fine-Tuned LLM as a Complementary Predictor Improving Ads System · ⭐ 7/10
🏢 Pinterest · 判别式推荐
Pinterest 把微调开源 LLM 当作'广告主预测器'(而非排序器)的互补信号源,从用户画像/转化历史预测高意图广告主并同时注入召回与排序,线上 U.S. Shopping RoAS 提升 4.94%/6.69%
AMRS · ⭐ 7/10
Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization
🎓 学术 · 生成式推荐
LUCID 真实部署的情感音乐推荐系统:用因果 Transformer 世界模型联合预测 engagement/rating/valence/arousal 作离线仿真器,先行为克隆生产策略再用世界模型打分的 DPO 做多目标偏好优化(KL锚定保安全),规避脆弱临床人群在线情感实验的伦理禁区。
MixRAGRec · ⭐ 6/10
Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation
🎓 学术 · LLM
MixRAGRec 是面向 LLM 推荐的协作多智能体 KG-RAG 框架:MoE 检索智能体按查询复杂度把查询路由到不同粒度的图谱检索专家,知识偏好对齐智能体把结构化知识转成自然语言,对比强化的推荐智能体输出推荐,并提出 MMAPO 在统一目标下联合训练三者。
UFRec · ⭐ 6/10
Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation
🎓 学术 · 判别式推荐
UFRec 提出"不确定性引导的未来监督",按模型对下一项预测的置信度动态调节多步未来监督权重,并辅以把未来轨迹当整体的"未来感知对比学习";两个辅助模块仅训练时使用、推理零开销,在四个数据集上超过 SOTA。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| — | Fine-Tuned LLM as a Complementary Predictor Improving Ads System | 判别式 | 8 | 7 | |
| AMRS | Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization | 生成式 | 🎓 学术 | 7 | 7 |
| MixRAGRec | Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation | LLM | 🎓 学术 | 6 | — |
| UFRec | Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation | 判别式 | 🎓 学术 | 6 | — |
| — | Toward User Preference Alignment in LLM Recommendation via Explicit Context Feedback | LLM | 🎓 学术 | 5 | — |
| — | Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation | LLM | 🎓 学术 | 4 | — |