Archivist
Paper Reading
Model Graph
Benchmarks
Chat
← Back to list
RAR_GPT
Retrieval Augmented Conversational Recommendation with Reinforcement Learning
判别式推荐
Google
Abstract 7
│
Reading 6
│
Rating —
2026-04-06
Zhenrui Yue, Honglei Zhuang, Zhen Qin, Zhankui He, Huimin Zeng, Julian McAuley, Dong Wang
University of Illinois Urbana-Champaign, Google DeepMind, UC San Diego
提出RAR框架,通过两阶段检索增强(retriever + LLM generator)和在线强化学习偏好优化,对齐检索与生成阶段,在多个对话推荐基准上超越SOTA
rl
pretrained-lm
academic
cold-start
ArXiv
PDF
claude-opus-4-6
Archived 2026-04-08
≡ 目录
目录
1. 研究背景与动机
2. 核心贡献
3. 方法论
3.1 问题形式化
3.2 语料库构建
3.3 Retriever
3.4 Generator
3.5 Retriever 偏好优化(RL)
DPO 变体
GRPO 变体
联合训练目标
4. 实验设置
4.1 数据集
4.2 基线方法
5. 实验结果
5.1 主实验(Table 1)
5.2 Retriever 模型对比(Table 2)
5.3 DPO vs GRPO(Table 3)
5.4 SimPO vs DPO(Table 4)
5.5 超参数分析
检索物品数量(Figure 3)