1 研究动机与问题定义¶
现有基于 LLM 的推荐智能体存在两个核心问题:
- 推理与排序反馈的断裂:智能体的推理和工具调用行为并非在推荐反馈下端到端优化,中间推理步骤和工具使用依赖语言先验或手工 prompt 启发式,未与最终排序质量对齐。
- 无法解析细粒度偏好:隐式反馈稀疏,仅提供粗粒度 list-level 信号,难以区分高度相似候选项之间的微妙偏好差异。
问题定义:给定用户交互历史 $x_u = [v_1, v_2, \ldots, v_t]$ 和候选集 $C = \{c_1, c_2, \ldots, c_n\}$,任务是排序导向的(candidate set 由检索阶段预先生成)。隐式反馈日志提供下一个交互 item $y \in C$ 作为监督。智能体输出 top-$K$ 排序列表 $r_K = [c_{\sigma(1)}, c_{\sigma(2)}, \ldots, c_{\sigma(K)}]$,目标是学习策略 $\pi_\theta$ 使得 list-wise 排序效用(如 NDCG@K)最大化:
$$\max_\theta \mathbb{E}_{(x_u, C, y) \sim \mathcal{D}} [R(r_K, y)]$$
2 AgenticRec 框架总览¶
AgenticRec 统一了交互式推理与结果驱动学习,采用 两阶段强化学习训练:
- Stage 1: Tool-Integrated Policy Optimization(List-wise GRPO)——对齐智能体的工具集成决策轨迹与 list-wise 排序奖励
- Stage 2: Progressive Preference Refinement(PPR)——通过自举挖掘困难负样本,双向偏好推理精炼细粒度偏好边界
3 工具集成排序推理(Tool-Integrated Ranking Reasoning)¶
3.1 推荐工具套件¶
框架设计了四类工具,以 query-response 接口形式集成,支持扩展:
(1) User Profile Tool:检索用户画像,包括偏好类目、兴趣推断。使用 LLM 预生成 profile,每次推荐完成后可根据反馈更新。
(2) Item Information Tool:包含两个子工具——item_info_search(查询单个 item 的描述、价格等属性)和 candidates_analyze(按品类/价格聚合候选集概览)。
(3) Behavioral Statistics Tool:包含 get_session_behavior(短期兴趣模式)和 get_rating_behavior(按评分分组的历史偏好信号)。
(4) Collaborative Information Tool:基于轻量级序列推荐器(SASRec)构建嵌入空间,支持 get_similar_items(I2I)和 get_similar_users(U2U)两个方向的协同过滤检索。
3.2 ReAct 式工具使用¶
遵循 ReAct 范式,智能体在单次推理循环中交替生成 Think/Act/Observation:
$$Think_1 \to Act_1 \to Obs_1 \to \cdots \to Rank$$
关键设计:
- 工具交互预算:$T_{\text{max}} = 10$,超出预算则标记为无效输出并给予惩罚奖励
- Observation tokens 不参与策略似然计算:梯度仅作用于 Think/Act/Rank tokens
- 排序列表直接生成:AgenticRec 将排序结果生成为结构化 token(如 item ID 的有序列表),实现直接策略优化
4 List-Wise Group Relative Policy Optimization(List-wise GRPO)¶
4.1 排序策略¶
AgenticRec 直接生成 top-$K$ 排序列表作为轨迹的最终动作,策略似然在整条生成轨迹(含推理和工具调用)上计算,从而通过同一个 list-wise 奖励隐式优化工具决策。
4.2 奖励设计¶
整体奖励函数:
$$R(r_K, y) = \begin{cases} R_{\text{rank}}(r_K, y) & \text{if valid}(r_K) \text{ and } y \in r_K, \\ -0.5 & \text{if valid}(r_K) \text{ and } y \notin r_K, \\ -1 & \text{otherwise,} \end{cases}$$
包含三个分量:
(1) Ranking Reward:采用 NDCG@K 作为 list-wise 排序奖励:
$$R_{\text{rank}}(r_K, y) = \text{NDCG@K}(r_K; y)$$
单正样本设定下,仅将下一个交互 item $y$ 视为正样本。
(2) Format Constraint:无效输出(工具调用过多、无效 item、非法格式)固定奖励 $-1$。
(3) Tool-use Reward:当 Hit@1 = 1 且轨迹中至少调用一次工具时,额外加 0.1 奖励,鼓励结果驱动的工具使用。
4.3 GRPO 目标¶
对每个训练实例 $(x_u, C, y) \sim \mathcal{D}$,采样 $G$ 条独立轨迹 $\{\tau^{(g)}\}_{g=1}^G$,计算 list-wise 奖励 $R^{(g)} = R(r_K^{(g)}, y)$,定义 group-relative advantage:
$$\hat{A}^{(g)} = R(r_K^{(g)}, y) - \frac{1}{G}\sum_{j=1}^G R(r_K^{(j)}, y)$$
GRPO 损失:
$$\mathcal{L}_{\text{GRPO}}(\theta) = -\mathbb{E}_{(x_u, C, y) \sim \mathcal{D}} \left[\frac{1}{G}\sum_{g=1}^G \hat{A}^{(g)} \cdot \log p_\theta(\tau^{(g)} \mid x_u, C)\right]$$
借鉴 DAPO 的动态采样策略,丢弃所有轨迹奖励均为负(即无信息量)的 rollout group。
4.4 理论分析:无偏性(Proposition 4.1)¶
Proposition 4.1(List-wise GRPO 梯度无偏性):List-wise GRPO 梯度估计器是无偏的,即 $\mathbb{E}[\nabla \hat{J}_{\text{GRPO}}(\theta)] = \nabla J$。
证明核心步骤:baseline $b = \frac{1}{G}\sum_j R(r_K^{(j)}, y)$ 的期望贡献为零,因为:
$$\mathbb{E}\left[b \cdot \nabla \log \pi_\theta(\tau)\right] = \mathbb{E}[b] \cdot \mathbb{E}\left[\sum_{g=1}^G \nabla \log \pi_\theta(\tau^{(g)})\right]$$
而 $\int \nabla \pi_\theta(\tau) d\tau = \nabla \int \pi_\theta(\tau) d\tau = \nabla(1) = 0$。
5 Progressive Preference Refinement(PPR)¶
5.1 困难负样本挖掘(Hard Negative Mining from Ranking Violations)¶
在 GRPO 训练后,利用智能体自身的排序输出自动挖掘困难负样本:
- 对每个输入 $(x_u, C)$,正样本 $c^+ = y$
- 智能体生成排序列表 $r_K$ 后,检查 $c^+$ 是否排在第一位
- 若非第一(即存在 ranking violation),构造困难负样本候选集:
$$H(x_u, C) = \begin{cases} \{c^- \mid c^- \in r_K, \text{rank}_{r_K}(c^-) \lt \text{rank}_{r_K}(c^+)\}, & \text{if } c^+ \in r_K, \\ r_K, & \text{if } c^+ \notin r_K. \end{cases}$$
从 $H$ 中随机采样一个负样本与 $c^+$ 配对形成偏好对 $(c^+, c^-)$。
5.2 双向偏好推理(Bidirectional Preference Reasoning)¶
对挖掘出的困难偏好对 $(c^+, c^-)$,从两个对称方向精炼偏好推理:
- 正向(Positive Direction):给定用户上下文,识别用户更可能交互的 item($c^+$),强化匹配属性识别
- 负向(Negative Direction):识别用户更不可能选择的 item($c^-$),迫使智能体主动分析 $c^-$ 相对于用户历史的不匹配特征
两个方向均使用 pair-wise GRPO 优化(二元奖励 $R \in \{0, 1\}$),采样 $G$ 条 rollout,按 group-normalized advantage 更新。
5.3 理论分析:误差界最小化(Proposition 4.2)¶
Proposition 4.2(双向偏好推理的误差界最小化):优化双向偏好推理目标可最小化 pairwise ranking 错误概率 $P(\text{rank}_{r_K}(c^-) \lt \text{rank}_{r_K}(c^+))$ 的上界。
设 $s(c)$ 为智能体对 item $c$ 的打分,$\Delta s = s(c^+) - s(c^-)$,ranking violation 发生在 $\Delta s \lt 0$ 时。双向损失为 logistic loss 的形式:
$$\mathcal{L}_{\text{Bi}} \approx -\log(P_{pos}) - \log(P_{neg}) = 2\log(1 + e^{-\Delta s})$$
其中:
$$P_{pos} = \frac{e^{s(c^+)}}{e^{s(c^+)} + e^{s(c^-)}}, \quad P_{neg} = \frac{e^{-s(c^-)}}{e^{-s(c^-)} + e^{-s(c^+)}} = \frac{e^{s(c^+)}}{e^{s(c^+)} + e^{s(c^-)}}$$
$\mathcal{L}(\Delta s) = 2\log(1 + e^{-\Delta s})$ 是 0-1 ranking error $\mathbb{I}(\Delta s \lt 0)$ 的光滑凸上界,保证了优化景观的良好性质(非零梯度、凸性)。
6 实验¶
6.1 实验设置¶
数据集:Amazon 2023 Benchmark 的四个子集(时间范围 2022.10 - 2023.10):
| Dataset | #Users | #Items | #Inters. | Sparsity |
|---|---|---|---|---|
| CDs | 5,437 | 8,785 | 13,826 | 99.71% |
| Instruments | 7,593 | 5,279 | 15,746 | 99.61% |
| Office | 27,130 | 11,511 | 47,333 | 99.85% |
| Games | 6,251 | 3,003 | 11,457 | 99.39% |
数据按时间戳 8:1:1 划分 train/val/test,用户交互历史最大长度 10。
任务设置:排序任务。每个评估实例包含 1 个正样本 + 19 个随机负样本(共 20 个候选),候选随机打乱消除位置偏差,模型输出 top-10 排序列表。
评估指标:NDCG@K 和 Hit@K,$K \in \{1, 5, 10\}$。
Baselines(三组):
- 传统序列推荐:Caser、GRU4Rec、SASRec、ReaRec
- Training-free LLM 推荐:LLMRank(GPT-4 zero-shot)、InteRecAgent(GPT-4 + SASRec 工具)
- Trainable LLM 推荐:TALLRec、LLaRA、S-DPO、ReRe
实现细节:
- Training-free baselines:GPT-4
- Trainable baselines 及 AgenticRec:Qwen3-4B-Instruct
- AgenticRec:学习率 $1 \times 10^{-6}$,batch size 64,group size 8,两阶段分别训练 3 和 1 个 epoch,最大生成长度 6144
- 硬件:4 x NVIDIA A800 GPU(80GB)
6.2 主实验结果(Table 1)¶
| Model | CDs H@1 | CDs N@10 | Instr. H@1 | Instr. N@10 | Office H@1 | Office N@10 | Games H@1 | Games N@10 |
|---|---|---|---|---|---|---|---|---|
| Caser | 0.0488 | 0.2307 | 0.1825 | 0.3828 | 0.1771 | 0.3511 | 0.1535 | 0.3217 |
| GRU4Rec | 0.0512 | 0.2202 | 0.0960 | 0.3907 | 0.1642 | 0.3490 | 0.1708 | 0.3288 |
| SASRec | 0.0536 | 0.2145 | 0.1813 | 0.3807 | 0.1662 | 0.3525 | 0.1535 | 0.3234 |
| ReaRec | 0.0357 | 0.1942 | 0.1507 | 0.3400 | 0.0716 | 0.3457 | 0.1459 | 0.2987 |
| LLMRank | 0.0501 | 0.2569 | 0.0417 | 0.2584 | 0.0713 | 0.2665 | 0.0403 | 0.3474 |
| InteRecAgent | 0.0782 | 0.2392 | 0.2063 | 0.4004 | 0.1911 | 0.3717 | 0.1782 | 0.3477 |
| TALLRec | 0.1144 | 0.3102 | 0.0649 | 0.2406 | 0.1539 | 0.3318 | 0.1362 | 0.3474 |
| LLaRA | 0.2324 | 0.4394 | 0.2512 | 0.4833 | 0.5007 | 0.6496 | 0.4398 | 0.4952 |
| S-DPO | 0.1764 | 0.3369 | 0.0723 | 0.2475 | 0.1573 | 0.3522 | 0.2006 | 0.4079 |
| ReRe | 0.2073 | 0.4080 | 0.2584 | 0.4447 | 0.2601 | 0.4579 | 0.2921 | 0.4976 |
| AgenticRec | 0.2992 | 0.5324 | 0.2586 | 0.5021 | 0.2494 | 0.4775 | 0.3282 | 0.5445 |
实验结论:
- 传统序列推荐:表现稳定但有限,擅长短期动态建模但缺乏丰富证据利用能力
- Training-free LLM:LLMRank 纯 one-shot 预测,缺乏推理和排序反馈优化;InteRecAgent 引入工具但受限于 SASRec 质量
- Trainable LLM:隐式反馈监督显著提升性能,但仍缺乏工具集成推理能力
- AgenticRec 在 4 个数据集的大多数指标上取得最优,端到端优化推理+工具+排序决策轨迹是关键
6.3 消融实验(Table 2)¶
| Dataset | Setting | Variant | H@1 | H@5 | N@5 |
|---|---|---|---|---|---|
| CDs | Frozen | R | 0.1907 | 0.4696 | 0.3303 |
| CDs | Frozen | TIRR | 0.2331 | 0.5476 | 0.3955 |
| CDs | Agentic | R | 0.2324 | 0.5399 | 0.3865 |
| CDs | Agentic | TIRR | 0.2837 | 0.6162 | 0.4606 |
| CDs | Agentic | TIRR + PPR | 0.2992 | 0.6472 | 0.4795 |
| Instr. | Frozen | R | 0.1973 | 0.5613 | 0.3818 |
| Instr. | Frozen | TIRR | 0.1948 | 0.5277 | 0.3673 |
| Instr. | Agentic | R | 0.2328 | 0.5797 | 0.4141 |
| Instr. | Agentic | TIRR | 0.2463 | 0.6091 | 0.4321 |
| Instr. | Agentic | TIRR + PPR | 0.2586 | 0.6115 | 0.4393 |
| Office | Frozen | R | 0.2147 | 0.5017 | 0.3640 |
| Office | Frozen | TIRR | 0.1963 | 0.4913 | 0.3471 |
| Office | Agentic | R | 0.2276 | 0.5374 | 0.4004 |
| Office | Agentic | TIRR | 0.2326 | 0.5572 | 0.4040 |
| Office | Agentic | TIRR + PPR | 0.2494 | 0.5755 | 0.4123 |
消融结论:
- Frozen setting 下 TIRR 不稳定:在 Instruments 和 Office 上,Frozen + TIRR 甚至不如 Frozen + R(纯推理),说明未经训练的工具使用可能引入噪声
- Agentic setting 下 TIRR 一致提升:端到端 list-wise 反馈下训练后,TIRR 在所有数据集上优于 R,证明结果驱动优化是学习有效工具使用的关键。例如 CDs 上 H@1 从 0.2324 提升至 0.2837
- PPR 进一步提升:在所有数据集上 TIRR+PPR 优于 TIRR,尤其在 H@1 和 H@5 上,说明细粒度偏好精炼有效补充了 list-wise 优化
6.4 工具使用分析(Figure 3)¶
在 Office 数据集上的训练统计:
- (a) 工具使用:正奖励轨迹中的工具调用率(橙线)在早期训练中迅速上升并保持高位,说明策略快速学会利用工具;平均工具调用次数(蓝线)先升后稳定,模型学会了稳定的工具使用策略而非盲目增加调用
- (b) 推荐质量:H@10 在训练过程中稳步提升,工具使用稳定化与推荐质量提升的同步进展表明 list-wise GRPO 有效驱动了工具规划的改进
6.5 Group Size 分析(Figure 4)¶
在 Games 和 CDs 数据集上测试 group size $G \in \{2, 4, 8\}$:
- 增大 group size 通常带来更稳定的优化和更好的性能(更丰富的组内比较、更准确的 credit assignment)
- 但增益在 group size 较大时趋于饱和,存在边际递减效应
- $G = 8$ 在优化稳定性和训练效率间取得较好平衡
6.6 模型规模可扩展性(Figure 5)¶
在 Games 和 Instruments 上测试 Qwen3 的 1.7B、4B、8B 三个规模:
- 性能随模型规模一致提升,在 hit-based 和 ranking-based 指标上均有增益
- 跨数据集的稳定上升趋势表明 AgenticRec 具有良好的可扩展性
6.7 案例分析(Figure 6)¶
Games 数据集上的案例展示了三种方法的对比:
- LLM Reasoning(纯推理):过度依赖字面匹配(如关键词 GameCube、Wii),无法挖掘潜在兴趣
- Training-free Agent:调用工具获取协同过滤信号但陷于字面语义,未能充分利用工具信息
- AgenticRec Training:有效利用协同过滤发现用户在 Nintendo 生态的跨平台兴趣,主动搜索相关品类,成功将正确 item(Pokemon Legends: Arceus)排在第一位,NDCG@10 = 1.0
7 总结与局限¶
AgenticRec 通过 list-wise GRPO 和 PPR 两阶段训练,实现了推荐智能体推理、工具使用、排序的端到端联合优化。核心贡献在于:将工具调用纳入策略优化轨迹、list-wise GRPO 的无偏性保证、以及双向偏好推理的误差界最小化理论。
未来方向:探索记忆机制处理长用户历史交互序列。
局限性:实验均在 Amazon 2023 子集上进行,候选集规模固定为 20,未验证大规模候选集和工业场景下的表现;工具交互预算 $T_{\text{max}} = 10$ 的设定较为简单,未探索动态预算分配。