← 返回报告列表

2026-05-28 日报

日报 📅 2026-05-27
LLM 与世界模型驱动推荐:工业落地与偏好对齐
pretrained-lm rl industrial moe
📊 共 6 篇 · 精读 2

2026-05-28 日报

主题: LLM 与世界模型驱动推荐:工业落地与偏好对齐

标签: pretrained-lm · rl · industrial · moe

📊 统计: 共 6 篇 · 精读 2 · 🏢 工业界 1 · 🎓 学术 5 · generative-rec 1 · discriminative-rec 2 · llm 3

综述

本日共 6 篇,类别为 LLM 推荐 3 篇、判别式 2 篇、生成式 1 篇,工业界 2 篇、学术界 4 篇,其中精读 2 篇。Pinterest 的工作把微调开源 LLM 当作“广告主预测器”而非排序器,从用户画像与转化历史预测高意图广告主并同时注入召回与排序,线上美区 Shopping RoAS 提升 4.94%/6.69%。LUCID 部署的 AMRS 用因果 Transformer 世界模型联合预测互动与情感效价/唤醒作离线仿真器,再以世界模型打分的 DPO 做多目标偏好优化,规避脆弱人群在线情感实验的伦理禁区。学术侧 MixRAGRec 以 MoE 检索智能体按查询复杂度路由不同粒度知识图谱、多智能体协作并用 MMAPO 联合训练;UFRec 则提出不确定性引导的未来监督与未来感知对比学习,且推理零开销。总体看,预训练语言模型与世界模型正把推荐推向显式语义与偏好建模,RL/DPO 偏好对齐与离线仿真正成为工业与学术的共同趋势。

重点论文

Fine-Tuned LLM as a Complementary Predictor Improving Ads System · ⭐ 7/10

🏢 Pinterest · 判别式推荐

Pinterest 把微调开源 LLM 当作'广告主预测器'(而非排序器)的互补信号源,从用户画像/转化历史预测高意图广告主并同时注入召回与排序,线上 U.S. Shopping RoAS 提升 4.94%/6.69%

AMRS · ⭐ 7/10

Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization

🎓 学术 · 生成式推荐

LUCID 真实部署的情感音乐推荐系统:用因果 Transformer 世界模型联合预测 engagement/rating/valence/arousal 作离线仿真器,先行为克隆生产策略再用世界模型打分的 DPO 做多目标偏好优化(KL锚定保安全),规避脆弱临床人群在线情感实验的伦理禁区。

MixRAGRec · ⭐ 6/10

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

🎓 学术 · LLM

MixRAGRec 是面向 LLM 推荐的协作多智能体 KG-RAG 框架:MoE 检索智能体按查询复杂度把查询路由到不同粒度的图谱检索专家,知识偏好对齐智能体把结构化知识转成自然语言,对比强化的推荐智能体输出推荐,并提出 MMAPO 在统一目标下联合训练三者。

UFRec · ⭐ 6/10

Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation

🎓 学术 · 判别式推荐

UFRec 提出"不确定性引导的未来监督",按模型对下一项预测的置信度动态调节多步未来监督权重,并辅以把未来轨迹当整体的"未来感知对比学习";两个辅助模块仅训练时使用、推理零开销,在四个数据集上超过 SOTA。

全部论文

模型 标题 类别 公司 摘要分 精读分
Fine-Tuned LLM as a Complementary Predictor Improving Ads System 判别式 🏢 Pinterest 8 7
AMRS Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization 生成式 🎓 学术 7 7
MixRAGRec Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation LLM 🎓 学术 6
UFRec Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation 判别式 🎓 学术 6
Toward User Preference Alignment in LLM Recommendation via Explicit Context Feedback LLM 🎓 学术 5
Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation LLM 🎓 学术 4