← Back to list
AgenticRec

AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents

判别式推荐 学术
Abstract 8 Reading 7 Rating —
2026-03-23
Tianyi Li, Zixuan Wang, Guidong Lei, Xiaodong Li, Hui Li
Xiamen University
提出AgenticRec框架,通过List-wise GRPO和渐进式偏好精炼两阶段训练,端到端优化推荐智能体的推理、工具调用和排序列表生成的完整决策轨迹
ad-rec rl pretrained-lm academic

1 研究动机与问题定义

现有基于 LLM 的推荐智能体存在两个核心问题:

  1. 推理与排序反馈的断裂:智能体的推理和工具调用行为并非在推荐反馈下端到端优化,中间推理步骤和工具使用依赖语言先验或手工 prompt 启发式,未与最终排序质量对齐。
  2. 无法解析细粒度偏好:隐式反馈稀疏,仅提供粗粒度 list-level 信号,难以区分高度相似候选项之间的微妙偏好差异。

问题定义:给定用户交互历史 $x_u = [v_1, v_2, \ldots, v_t]$ 和候选集 $C = \{c_1, c_2, \ldots, c_n\}$,任务是排序导向的(candidate set 由检索阶段预先生成)。隐式反馈日志提供下一个交互 item $y \in C$ 作为监督。智能体输出 top-$K$ 排序列表 $r_K = [c_{\sigma(1)}, c_{\sigma(2)}, \ldots, c_{\sigma(K)}]$,目标是学习策略 $\pi_\theta$ 使得 list-wise 排序效用(如 NDCG@K)最大化:

$$\max_\theta \mathbb{E}_{(x_u, C, y) \sim \mathcal{D}} [R(r_K, y)]$$

2 AgenticRec 框架总览

AgenticRec 统一了交互式推理与结果驱动学习,采用 两阶段强化学习训练

  • Stage 1: Tool-Integrated Policy Optimization(List-wise GRPO)——对齐智能体的工具集成决策轨迹与 list-wise 排序奖励
  • Stage 2: Progressive Preference Refinement(PPR)——通过自举挖掘困难负样本,双向偏好推理精炼细粒度偏好边界

3 工具集成排序推理(Tool-Integrated Ranking Reasoning)

3.1 推荐工具套件

框架设计了四类工具,以 query-response 接口形式集成,支持扩展:

(1) User Profile Tool:检索用户画像,包括偏好类目、兴趣推断。使用 LLM 预生成 profile,每次推荐完成后可根据反馈更新。

(2) Item Information Tool:包含两个子工具——item_info_search(查询单个 item 的描述、价格等属性)和 candidates_analyze(按品类/价格聚合候选集概览)。

(3) Behavioral Statistics Tool:包含 get_session_behavior(短期兴趣模式)和 get_rating_behavior(按评分分组的历史偏好信号)。

(4) Collaborative Information Tool:基于轻量级序列推荐器(SASRec)构建嵌入空间,支持 get_similar_items(I2I)和 get_similar_users(U2U)两个方向的协同过滤检索。

3.2 ReAct 式工具使用

遵循 ReAct 范式,智能体在单次推理循环中交替生成 Think/Act/Observation:

$$Think_1 \to Act_1 \to Obs_1 \to \cdots \to Rank$$

关键设计:

  • 工具交互预算:$T_{\text{max}} = 10$,超出预算则标记为无效输出并给予惩罚奖励
  • Observation tokens 不参与策略似然计算:梯度仅作用于 Think/Act/Rank tokens
  • 排序列表直接生成:AgenticRec 将排序结果生成为结构化 token(如 item ID 的有序列表),实现直接策略优化

4 List-Wise Group Relative Policy Optimization(List-wise GRPO)

4.1 排序策略

AgenticRec 直接生成 top-$K$ 排序列表作为轨迹的最终动作,策略似然在整条生成轨迹(含推理和工具调用)上计算,从而通过同一个 list-wise 奖励隐式优化工具决策。

4.2 奖励设计

整体奖励函数:

$$R(r_K, y) = \begin{cases} R_{\text{rank}}(r_K, y) & \text{if valid}(r_K) \text{ and } y \in r_K, \\ -0.5 & \text{if valid}(r_K) \text{ and } y \notin r_K, \\ -1 & \text{otherwise,} \end{cases}$$

包含三个分量:

(1) Ranking Reward:采用 NDCG@K 作为 list-wise 排序奖励:

$$R_{\text{rank}}(r_K, y) = \text{NDCG@K}(r_K; y)$$

单正样本设定下,仅将下一个交互 item $y$ 视为正样本。

(2) Format Constraint:无效输出(工具调用过多、无效 item、非法格式)固定奖励 $-1$。

(3) Tool-use Reward:当 Hit@1 = 1 且轨迹中至少调用一次工具时,额外加 0.1 奖励,鼓励结果驱动的工具使用。

4.3 GRPO 目标

对每个训练实例 $(x_u, C, y) \sim \mathcal{D}$,采样 $G$ 条独立轨迹 $\{\tau^{(g)}\}_{g=1}^G$,计算 list-wise 奖励 $R^{(g)} = R(r_K^{(g)}, y)$,定义 group-relative advantage:

$$\hat{A}^{(g)} = R(r_K^{(g)}, y) - \frac{1}{G}\sum_{j=1}^G R(r_K^{(j)}, y)$$

GRPO 损失:

$$\mathcal{L}_{\text{GRPO}}(\theta) = -\mathbb{E}_{(x_u, C, y) \sim \mathcal{D}} \left[\frac{1}{G}\sum_{g=1}^G \hat{A}^{(g)} \cdot \log p_\theta(\tau^{(g)} \mid x_u, C)\right]$$

借鉴 DAPO 的动态采样策略,丢弃所有轨迹奖励均为负(即无信息量)的 rollout group。

4.4 理论分析:无偏性(Proposition 4.1)

Proposition 4.1(List-wise GRPO 梯度无偏性):List-wise GRPO 梯度估计器是无偏的,即 $\mathbb{E}[\nabla \hat{J}_{\text{GRPO}}(\theta)] = \nabla J$。

证明核心步骤:baseline $b = \frac{1}{G}\sum_j R(r_K^{(j)}, y)$ 的期望贡献为零,因为:

$$\mathbb{E}\left[b \cdot \nabla \log \pi_\theta(\tau)\right] = \mathbb{E}[b] \cdot \mathbb{E}\left[\sum_{g=1}^G \nabla \log \pi_\theta(\tau^{(g)})\right]$$

而 $\int \nabla \pi_\theta(\tau) d\tau = \nabla \int \pi_\theta(\tau) d\tau = \nabla(1) = 0$。

5 Progressive Preference Refinement(PPR)

5.1 困难负样本挖掘(Hard Negative Mining from Ranking Violations)

在 GRPO 训练后,利用智能体自身的排序输出自动挖掘困难负样本:

  • 对每个输入 $(x_u, C)$,正样本 $c^+ = y$
  • 智能体生成排序列表 $r_K$ 后,检查 $c^+$ 是否排在第一位
  • 若非第一(即存在 ranking violation),构造困难负样本候选集:

$$H(x_u, C) = \begin{cases} \{c^- \mid c^- \in r_K, \text{rank}_{r_K}(c^-) \lt \text{rank}_{r_K}(c^+)\}, & \text{if } c^+ \in r_K, \\ r_K, & \text{if } c^+ \notin r_K. \end{cases}$$

从 $H$ 中随机采样一个负样本与 $c^+$ 配对形成偏好对 $(c^+, c^-)$。

5.2 双向偏好推理(Bidirectional Preference Reasoning)

对挖掘出的困难偏好对 $(c^+, c^-)$,从两个对称方向精炼偏好推理:

  • 正向(Positive Direction):给定用户上下文,识别用户更可能交互的 item($c^+$),强化匹配属性识别
  • 负向(Negative Direction):识别用户更不可能选择的 item($c^-$),迫使智能体主动分析 $c^-$ 相对于用户历史的不匹配特征

两个方向均使用 pair-wise GRPO 优化(二元奖励 $R \in \{0, 1\}$),采样 $G$ 条 rollout,按 group-normalized advantage 更新。

5.3 理论分析:误差界最小化(Proposition 4.2)

Proposition 4.2(双向偏好推理的误差界最小化):优化双向偏好推理目标可最小化 pairwise ranking 错误概率 $P(\text{rank}_{r_K}(c^-) \lt \text{rank}_{r_K}(c^+))$ 的上界。

设 $s(c)$ 为智能体对 item $c$ 的打分,$\Delta s = s(c^+) - s(c^-)$,ranking violation 发生在 $\Delta s \lt 0$ 时。双向损失为 logistic loss 的形式:

$$\mathcal{L}_{\text{Bi}} \approx -\log(P_{pos}) - \log(P_{neg}) = 2\log(1 + e^{-\Delta s})$$

其中:

$$P_{pos} = \frac{e^{s(c^+)}}{e^{s(c^+)} + e^{s(c^-)}}, \quad P_{neg} = \frac{e^{-s(c^-)}}{e^{-s(c^-)} + e^{-s(c^+)}} = \frac{e^{s(c^+)}}{e^{s(c^+)} + e^{s(c^-)}}$$

$\mathcal{L}(\Delta s) = 2\log(1 + e^{-\Delta s})$ 是 0-1 ranking error $\mathbb{I}(\Delta s \lt 0)$ 的光滑凸上界,保证了优化景观的良好性质(非零梯度、凸性)。

6 实验

6.1 实验设置

数据集:Amazon 2023 Benchmark 的四个子集(时间范围 2022.10 - 2023.10):

Dataset #Users #Items #Inters. Sparsity
CDs 5,437 8,785 13,826 99.71%
Instruments 7,593 5,279 15,746 99.61%
Office 27,130 11,511 47,333 99.85%
Games 6,251 3,003 11,457 99.39%

数据按时间戳 8:1:1 划分 train/val/test,用户交互历史最大长度 10。

任务设置:排序任务。每个评估实例包含 1 个正样本 + 19 个随机负样本(共 20 个候选),候选随机打乱消除位置偏差,模型输出 top-10 排序列表。

评估指标:NDCG@K 和 Hit@K,$K \in \{1, 5, 10\}$。

Baselines(三组):

  • 传统序列推荐:Caser、GRU4Rec、SASRec、ReaRec
  • Training-free LLM 推荐:LLMRank(GPT-4 zero-shot)、InteRecAgent(GPT-4 + SASRec 工具)
  • Trainable LLM 推荐:TALLRec、LLaRA、S-DPO、ReRe

实现细节

  • Training-free baselines:GPT-4
  • Trainable baselines 及 AgenticRec:Qwen3-4B-Instruct
  • AgenticRec:学习率 $1 \times 10^{-6}$,batch size 64,group size 8,两阶段分别训练 3 和 1 个 epoch,最大生成长度 6144
  • 硬件:4 x NVIDIA A800 GPU(80GB)

6.2 主实验结果(Table 1)

Model CDs H@1 CDs N@10 Instr. H@1 Instr. N@10 Office H@1 Office N@10 Games H@1 Games N@10
Caser 0.0488 0.2307 0.1825 0.3828 0.1771 0.3511 0.1535 0.3217
GRU4Rec 0.0512 0.2202 0.0960 0.3907 0.1642 0.3490 0.1708 0.3288
SASRec 0.0536 0.2145 0.1813 0.3807 0.1662 0.3525 0.1535 0.3234
ReaRec 0.0357 0.1942 0.1507 0.3400 0.0716 0.3457 0.1459 0.2987
LLMRank 0.0501 0.2569 0.0417 0.2584 0.0713 0.2665 0.0403 0.3474
InteRecAgent 0.0782 0.2392 0.2063 0.4004 0.1911 0.3717 0.1782 0.3477
TALLRec 0.1144 0.3102 0.0649 0.2406 0.1539 0.3318 0.1362 0.3474
LLaRA 0.2324 0.4394 0.2512 0.4833 0.5007 0.6496 0.4398 0.4952
S-DPO 0.1764 0.3369 0.0723 0.2475 0.1573 0.3522 0.2006 0.4079
ReRe 0.2073 0.4080 0.2584 0.4447 0.2601 0.4579 0.2921 0.4976
AgenticRec 0.2992 0.5324 0.2586 0.5021 0.2494 0.4775 0.3282 0.5445

实验结论

  • 传统序列推荐:表现稳定但有限,擅长短期动态建模但缺乏丰富证据利用能力
  • Training-free LLM:LLMRank 纯 one-shot 预测,缺乏推理和排序反馈优化;InteRecAgent 引入工具但受限于 SASRec 质量
  • Trainable LLM:隐式反馈监督显著提升性能,但仍缺乏工具集成推理能力
  • AgenticRec 在 4 个数据集的大多数指标上取得最优,端到端优化推理+工具+排序决策轨迹是关键

6.3 消融实验(Table 2)

Dataset Setting Variant H@1 H@5 N@5
CDs Frozen R 0.1907 0.4696 0.3303
CDs Frozen TIRR 0.2331 0.5476 0.3955
CDs Agentic R 0.2324 0.5399 0.3865
CDs Agentic TIRR 0.2837 0.6162 0.4606
CDs Agentic TIRR + PPR 0.2992 0.6472 0.4795
Instr. Frozen R 0.1973 0.5613 0.3818
Instr. Frozen TIRR 0.1948 0.5277 0.3673
Instr. Agentic R 0.2328 0.5797 0.4141
Instr. Agentic TIRR 0.2463 0.6091 0.4321
Instr. Agentic TIRR + PPR 0.2586 0.6115 0.4393
Office Frozen R 0.2147 0.5017 0.3640
Office Frozen TIRR 0.1963 0.4913 0.3471
Office Agentic R 0.2276 0.5374 0.4004
Office Agentic TIRR 0.2326 0.5572 0.4040
Office Agentic TIRR + PPR 0.2494 0.5755 0.4123

消融结论

  • Frozen setting 下 TIRR 不稳定:在 Instruments 和 Office 上,Frozen + TIRR 甚至不如 Frozen + R(纯推理),说明未经训练的工具使用可能引入噪声
  • Agentic setting 下 TIRR 一致提升:端到端 list-wise 反馈下训练后,TIRR 在所有数据集上优于 R,证明结果驱动优化是学习有效工具使用的关键。例如 CDs 上 H@1 从 0.2324 提升至 0.2837
  • PPR 进一步提升:在所有数据集上 TIRR+PPR 优于 TIRR,尤其在 H@1 和 H@5 上,说明细粒度偏好精炼有效补充了 list-wise 优化

6.4 工具使用分析(Figure 3)

在 Office 数据集上的训练统计:

  • (a) 工具使用:正奖励轨迹中的工具调用率(橙线)在早期训练中迅速上升并保持高位,说明策略快速学会利用工具;平均工具调用次数(蓝线)先升后稳定,模型学会了稳定的工具使用策略而非盲目增加调用
  • (b) 推荐质量:H@10 在训练过程中稳步提升,工具使用稳定化与推荐质量提升的同步进展表明 list-wise GRPO 有效驱动了工具规划的改进

6.5 Group Size 分析(Figure 4)

在 Games 和 CDs 数据集上测试 group size $G \in \{2, 4, 8\}$:

  • 增大 group size 通常带来更稳定的优化和更好的性能(更丰富的组内比较、更准确的 credit assignment)
  • 但增益在 group size 较大时趋于饱和,存在边际递减效应
  • $G = 8$ 在优化稳定性和训练效率间取得较好平衡

6.6 模型规模可扩展性(Figure 5)

在 Games 和 Instruments 上测试 Qwen3 的 1.7B、4B、8B 三个规模:

  • 性能随模型规模一致提升,在 hit-based 和 ranking-based 指标上均有增益
  • 跨数据集的稳定上升趋势表明 AgenticRec 具有良好的可扩展性

6.7 案例分析(Figure 6)

Games 数据集上的案例展示了三种方法的对比:

  • LLM Reasoning(纯推理):过度依赖字面匹配(如关键词 GameCube、Wii),无法挖掘潜在兴趣
  • Training-free Agent:调用工具获取协同过滤信号但陷于字面语义,未能充分利用工具信息
  • AgenticRec Training:有效利用协同过滤发现用户在 Nintendo 生态的跨平台兴趣,主动搜索相关品类,成功将正确 item(Pokemon Legends: Arceus)排在第一位,NDCG@10 = 1.0

7 总结与局限

AgenticRec 通过 list-wise GRPO 和 PPR 两阶段训练,实现了推荐智能体推理、工具使用、排序的端到端联合优化。核心贡献在于:将工具调用纳入策略优化轨迹、list-wise GRPO 的无偏性保证、以及双向偏好推理的误差界最小化理论。

未来方向:探索记忆机制处理长用户历史交互序列。

局限性:实验均在 Amazon 2023 子集上进行,候选集规模固定为 20,未验证大规模候选集和工业场景下的表现;工具交互预算 $T_{\text{max}} = 10$ 的设定较为简单,未探索动态预算分配。