2026-05-28 日报

主题: LLM 与世界模型驱动推荐：工业落地与偏好对齐

标签: pretrained-lm · rl · industrial · moe

📊 统计: 共 6 篇 · 精读 2 · 🏢 工业界 1 · 🎓 学术 5 · generative-rec 1 · discriminative-rec 2 · llm 3

综述

本日共 6 篇，类别为 LLM 推荐 3 篇、判别式 2 篇、生成式 1 篇，工业界 2 篇、学术界 4 篇，其中精读 2 篇。Pinterest 的工作把微调开源 LLM 当作“广告主预测器”而非排序器，从用户画像与转化历史预测高意图广告主并同时注入召回与排序，线上美区 Shopping RoAS 提升 4.94%/6.69%。LUCID 部署的 AMRS 用因果 Transformer 世界模型联合预测互动与情感效价/唤醒作离线仿真器，再以世界模型打分的 DPO 做多目标偏好优化，规避脆弱人群在线情感实验的伦理禁区。学术侧 MixRAGRec 以 MoE 检索智能体按查询复杂度路由不同粒度知识图谱、多智能体协作并用 MMAPO 联合训练；UFRec 则提出不确定性引导的未来监督与未来感知对比学习，且推理零开销。总体看，预训练语言模型与世界模型正把推荐推向显式语义与偏好建模，RL/DPO 偏好对齐与离线仿真正成为工业与学术的共同趋势。

重点论文

Fine-Tuned LLM as a Complementary Predictor Improving Ads System · ⭐ 7/10

🏢 Pinterest · 判别式推荐

Pinterest 把微调开源 LLM 当作'广告主预测器'(而非排序器)的互补信号源,从用户画像/转化历史预测高意图广告主并同时注入召回与排序,线上 U.S. Shopping RoAS 提升 4.94%/6.69%

AMRS · ⭐ 7/10

Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization

🎓 学术 · 生成式推荐

LUCID 真实部署的情感音乐推荐系统:用因果 Transformer 世界模型联合预测 engagement/rating/valence/arousal 作离线仿真器,先行为克隆生产策略再用世界模型打分的 DPO 做多目标偏好优化(KL锚定保安全),规避脆弱临床人群在线情感实验的伦理禁区。

MixRAGRec · ⭐ 6/10

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

🎓 学术 · LLM

MixRAGRec 是面向 LLM 推荐的协作多智能体 KG-RAG 框架：MoE 检索智能体按查询复杂度把查询路由到不同粒度的图谱检索专家，知识偏好对齐智能体把结构化知识转成自然语言，对比强化的推荐智能体输出推荐，并提出 MMAPO 在统一目标下联合训练三者。

UFRec · ⭐ 6/10

Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation

🎓 学术 · 判别式推荐

UFRec 提出"不确定性引导的未来监督"，按模型对下一项预测的置信度动态调节多步未来监督权重，并辅以把未来轨迹当整体的"未来感知对比学习"；两个辅助模块仅训练时使用、推理零开销，在四个数据集上超过 SOTA。

全部论文

模型	标题	类别	公司	摘要分	精读分
—	Fine-Tuned LLM as a Complementary Predictor Improving Ads System	判别式	🏢 Pinterest	8	7
AMRS	Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization	生成式	🎓 学术	7	7
MixRAGRec	Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation	LLM	🎓 学术	6	—
UFRec	Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation	判别式	🎓 学术	6	—
—	Toward User Preference Alignment in LLM Recommendation via Explicit Context Feedback	LLM	🎓 学术	5	—
—	Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation	LLM	🎓 学术	4	—