← Back to list
ToolRec

ToolRec: Calibrated Preference Alignment for Query Recommendation in On-Device Assistants

生成式推荐 OPPO
Abstract 7 Reading 7 Rating —
2026-06-07
Zihan Luo, Lingkui Chen, Ruike Zhang, Hong Huang, Boyang Zhang, Ziniu Chen, Lizhong Wang
OPPO AI Center, Huazhong University of Science and Technology
ToolRec(OPPO 小布)把端侧 LLM 查询推荐的偏好对齐拆为「锚定可执行动作」与「校准点击信号可信度」两步:用 708 工具的 SysToolkit + 上下文感知检索把推荐锚定到系统工具,再以用户活跃度 + 工具频率的双层样本重加权校准点击噪声并融入加权 KTO,在 1.5 亿 MAU 在线 A/B 上 CTR +3.32%、点击 +4.74% 且相关性几乎无损。
评分原因
摘要评分:通用 LLM 偏好对齐技术 + 强工业落地:面向端侧助手的 query 推荐,构建 708 系统工具库 + 上下文工具检索,提出双层校准(按用户活跃度去噪 + 上调工具调用类 query 权重)+ 加权 KTO 对齐;OPPO 小布 1.5 亿 MAU 线上 A/B 提升 CTR。
精读评分:扎实的工业落地工作:OPPO 小布 1.5 亿 MAU 真实在线 A/B + 系统消融/分层/超参/逐日分析,双层点击校准 + 加权 KTO 思路清晰、工程友好;但核心 insight(按信号可信度重加权)创新偏增量(与同日 AdaGRPO 殊途同归),全程无公开数据集、baseline 仅 SFT/Vanilla KTO 无具名查询推荐系统对比、相对增益不大,故定 7。
search-ranking rl pretrained-lm industrial

ToolRec: Calibrated Preference Alignment for Query Recommendation in On-Device Assistants 精读

OPPO AI Center / 华中科技大学,作者 Zihan Luo, Lingkui Chen, Ruike Zhang, Hong Huang(通讯), Boyang Zhang, Ziniu Chen, Lizhong Wang。arXiv 2606.08466v1(2026-06-07),投稿 ACM 会议。第一作者于 OPPO AI Center 实习期间完成。

1 研究动机与背景

Query Recommendation(查询推荐) 是搜索引擎与智能助手中的关键能力:在用户当前输入旁主动推荐相关或改进后的候选查询(如图 1 中"query-words-sequential recommendation""ask for a recommendation"等浮层建议),既能降低交互门槛,也能引导用户发现更有价值的内容、提升交互量。

Figure 1: AI 助手与搜索引擎中的查询推荐示例(左为 OPPO 小布对话流中的建议浮层,右为搜索框下拉建议)。

近年来,借助 LLM 的零样本泛化与世界知识,生成式查询推荐取得突破:例如 Min et al. 用 DPO(Direct Preference Optimization) 把 LLM 的生成对齐到人类点击行为,鼓励模型输出高质量、多样化的查询建议;也有工作用高斯分布刻画用户偏好的不确定性,并通过 GRPO(Group Relative Policy Optimization) 做偏好对齐。

但作者指出:这些方法虽然在标准聊天机器人场景表现出色,却无法精确捕捉端侧智能助手(如 OPPO 小布 Xiaobu)场景下的用户内在偏好。该场景存在两个尚未被探索、且制约实际部署的挑战:

挑战一:如何捕捉端侧助手中的"工具调用意图"(tool-invocation intent)? 与传统聊天机器人不同,端侧助手用户的主导行为是借助助手快速触发设备上的系统级功能。例如用户问"为什么我手机这么卡?",他们通常更想要"清理设备缓存"这类能立即带来系统级效用的可执行动作,而非被动的排障说明。作者基于线上数据将推荐查询划分为 tool-invoking queries(工具调用类)general queries(普通类)——划分依据是该推荐查询是否会触发一个系统级工具。如图 2 所示,过去六个月的统计显示:工具调用类查询的点击率(CTR)与点击量都显著高于普通查询。因此,提供高质量的工具相关查询推荐,对优化用户体验、维持参与度至关重要。

Figure 2: OPPO 小布上工具调用类查询与普通查询的用户偏好差异——左为点击量(Click Number),右为 CTR,工具调用类(蓝)均远高于普通类(红)。

挑战二:如何校准隐式偏好信号的"可变可信度"(varying reliability)? 现有对齐方法普遍把点击当作金标准(golden label),忽略了点击信号在不同场景下的可信度差异。作者从两个视角剖析其噪声与偏置:

  • 用户侧:用户活跃度差异巨大。对一个极不活跃或挑剔的用户,其"非点击"行为很大程度上不是因为生成的查询质量差,而是源于其本身就弱的交互意愿。盲目地把这类低质量偏好信号对齐进去,反而可能损害模型性能。
  • 系统侧:标准对齐无法区分工具调用类与普通类查询。既然端侧场景用户真正的偏好是快速触发系统级效用,那么把工具调用类与普通类的点击同等对待,就无法把模型导向用户的"执行导向(execution-oriented)"需求。

为此,作者提出 ToolRec——一个为端侧查询推荐量身定制的校准式偏好对齐框架。其要点:(1) 构建 SysToolkit(708 个系统工具的仓库)+ 上下文感知工具检索,把查询推荐锚定到可执行动作;(2) 提出双层偏好校准机制,从用户侧(按活跃度过滤噪声)与系统侧(上调成功触发工具的高频查询权重)精炼原始点击数据;(3) 用校准后的样本权重,通过样本级加权 KTO(Kahneman-Tversky Optimization) 对齐模型。在 OPPO 小布(>1.5 亿 MAU)上的大规模在线 A/B 显示,ToolRec 在 CTR 与总点击量上显著超越强 baseline,同时保持高查询相关性。

核心贡献

  1. 强调端侧助手中"工具调用意图"的重要性,构建 SysToolkit——一个涵盖 708 个系统级工具的综合仓库,为 LLM 查询推荐赋能。
  2. 提出 ToolRec,引入用户侧 + 系统侧双层偏好校准机制,显著降低偏好数据噪声,把模型有效对齐到真实执行导向需求。
  3. 在 OPPO 小布(>1.5 亿 MAU)上做了大规模在线 A/B,证明 ToolRec 在 CTR 与总点击量上优于已有对齐 baseline,同时保持高相关性。

2 相关工作

LLMs for Recommendation:早期工作用 LLM 做用户/物品特征增强(如 LLMRec 增强 side information、FLIP 在特征级对齐多模态做 CTR 预测)。由于 LLM 训练任务与推荐任务存在固有 gap,直接套用效果欠佳,于是出现用点击/点赞等行为信号对齐 LLM 的工作:早期用 SFT(监督微调) 把推荐表述为指令跟随的 next-item 预测,更近的工作用 DPO / GRPO 等优化算法做端到端对齐。但这些方法都倾向把点击当成金标准,忽视不同用户点击信号置信度的差异——这正是 ToolRec 要解决的。

Query Recommendation:旨在基于用户当前输入、行为信号或上下文,主动建议相关/改进查询。早期形式是 Query Auto-Completion(QAC),从历史日志中按前缀匹配检索候选,其局限是无法为日志中未出现过的前缀生成建议。随后 Seq2Seq 模型让系统能为未见前缀生成补全并提升个性化。最近基于 LLM 的查询推荐(含 RL4Sugg、GaRM、GQS 等)展现出强泛化与零样本能力。ToolRec 区别于上述工作之处:聚焦端侧智能助手场景,并进一步为模型赋予工具调用能力,以支持更丰富、更可执行的交互。

3 预备知识

3.1 问题形式化

给定用户输入查询 $q_u$、智能助手对应响应 $\mathcal{A}$、历史对话上下文 $C$、可用工具集 $\mathcal{T}$,LLM 推荐模型 $\mathcal{M}_\theta$ 在单次前向中生成一组 $K$ 个候选查询 $Q_r$:

$$\mathcal{M}_\theta(q_u, \mathcal{A}, C, \mathcal{T}) \to Q_r \tag{1}$$

其中 $Q_r=\{q_r^1, q_r^2, \dots, q_r^K\}$,$K$ 是由推理延迟上限预先设定的超参。生成的候选 $Q_r$ 会经下游 rerank 与召回模块进一步处理(不在本文范围),最终一组 $N$ 个候选 $Q_r'$ 暴露给用户($N$ 预先设定)。

实践中用点击定义正负样本:$y(q_r)\in\{0,1\}$ 表示查询 $q_r$ 的点击指示。候选集 $Q_r$ 被记为正样本 $Q_r^+$ 当且仅当 $\exists q_r\in Q_r$ 使 $y(q_r)=1$;反之若 $\forall q_r\in Q_r, y(q_r)=0$ 则为负样本 $Q_r^-$。目标是把 $\mathcal{M}_\theta$ 对齐到真实用户偏好,从而提升推荐查询的质量。

3.2 Kahneman-Tversky Optimization(KTO)

KTO 区别于 PPO/DPO 之处在于:它无需成对偏好数据即可工作。给定参考策略 $\pi_{ref}$ 与 prompt-response 对数据集 $D=\{(x,y)\}$,KTO 目标为:

$$\mathcal{L}_{KTO}(\pi_\theta, \pi_{ref}) = \mathbb{E}_{x,y\sim D}\big[w\,(1 - v(x,y;\beta))\big] \tag{2}$$

其中 $v$ 是基于前景理论(prospect theory)的人类价值函数:

$$v(x,y;\beta) = \begin{cases} \sigma\big(r(x,y) - z_{ref}\big) & \text{if } y\sim y^+ \\ \sigma\big(z_{ref} - r(x,y)\big) & \text{if } y\sim y^- \end{cases} \tag{3}$$

$\sigma$ 是激活函数,隐式奖励 $r(x,y)=\beta\log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}$ 度量相对参考模型的缩放偏离,$\beta$ 是 KL 惩罚系数。参考点 $z_{ref}$ 定义为数据集上期望 KL 散度,充当动态 baseline:

$$z_{ref} = \mathbb{E}_{x'\sim D}\big[\beta\,\mathrm{KL}\big(\pi_\theta(y'|x') \,\|\, \pi_{ref}(y'|x')\big)\big] \tag{4}$$

权重 $w$ 在 Eq.(2) 中对"理想/非理想结局"施加非对称惩罚($\lambda_D$ 与 $\lambda_U$),建模前景理论的损失厌恶:

$$w = \begin{cases} \lambda_D & \text{if } y\sim y^+ \\ \lambda_U & \text{if } y\sim y^- \end{cases} \tag{5}$$

在查询推荐语境下,$x$ 表示用户的综合交互上下文(当前输入 $q_u$、对话历史 $C$、助手响应 $\mathcal{A}$);$y^+$、$y^-$ 分别表示被点击/未被点击的推荐查询 $Q_r^+$、$Q_r^-$。ToolRec 的关键改造,就是把 Eq.(5) 里那个固定的常数权重 $w$,替换为逐样本计算的校准权重——这是全文方法的落点。

4 方法:ToolRec

4.1 整体框架

ToolRec 建立一个从线上部署到模型优化的闭环系统(图 3):

Figure 3: ToolRec 总览。(a) 整体流水线——LLM 上线服务、采集用户日志、抽取点击偏好数据、经双层校准后做偏好对齐、再上线,形成闭环;(b) 上下文感知工具检索——把 SysToolkit 的工具描述编码进向量库,按对话历史相关性取 top-K 工具作为上下文;(c) 偏好校准——用户侧(按活跃/不活跃用户校准点击/非点击置信度)+ 系统侧(上调高频工具查询、下调普通查询);(d) 校准式偏好对齐——校准后的偏好数据驱动加权 KTO,把"未校准"的偏好分布纠正为"已校准"。

流程为:(a) 模型上线 → 采集用户日志 → 抽取原始点击偏好数据;(b) 线上服务时,上下文感知工具检索模块主动从 SysToolkit 拉取相关工具作为上下文;(c) 对原始点击偏好数据施加用户侧 + 系统侧双层校准;(d) 校准后的偏好数据驱动最终的加权 KTO 对齐,优化 LLM 后再次上线。

4.2 SysToolkit:系统级工具仓库

与传统搜索/聊天场景不同,端侧助手的核心用户需求是快速调用相关系统功能。为此作者构建 SysToolkit,从两方面设计:

工具准备(Tool Preparation):如图 4,SysToolkit 含 708 个工具,全面覆盖端侧日常使用模式的多个功能域——Display(显示,244 个)、General System(通用系统,105 个)、Media(媒体,63 个)、Communication(通信,50 个)、Networks(网络,38 个)、Traffic(交通,29 个)、Health(健康,23 个)、Others(其他,159 个)。这些类别涵盖从"播放音乐"等日常任务到"清理空间"等设备维护动作,为后续工具调用类查询推荐打下坚实基础。

Figure 4: SysToolkit 的工具分布(共 708 个),Display 与 General System 占比最大。

工具检索(Tool Retrieval):由于 SysToolkit 规模大,把全部工具塞进 LLM prompt 不现实。作者设计上下文感知工具检索机制(图 3b):先用 Qwen-3-embedding 模型 把每个工具的文本描述编码进向量库;推理时把用户对话历史同样编码,再用 Qwen-3-reranker 过滤、抽取 top-$N$ 个最相关工具作为上下文。好处有二:(1) 通过减少喂给 LLM 的工具数,缓解上下文窗口负担;(2) 由于只提供相关工具,生成的工具相关查询天然与用户对话历史保持高相关。

4.3 双层偏好校准(Dual-level Preference Calibration)

模型部署后采集线上日志、从点击行为导出初始偏好数据。原始点击数据噪声大,作者从用户侧与系统侧两方面精炼。

用户侧校准(User-side Calibration):标准 KTO(Eq.2)对所有样本赋予均匀权重,忽略了不同活跃度用户的行为偏差。直觉:高活跃用户的"非点击"(负样本)是更强的"无关"信号;而普遍不活跃/挑剔用户的"罕见点击"(正样本)可能强烈暗示了异常的相关性与精确意图。为此基于用户点击率 $uctr$ 设计动态权重 $w_u$,提升模型对"高活跃用户负反馈"与"不活跃用户正反馈"的敏感度:

$$w_u = \begin{cases} 1 - \alpha\cdot\tanh\!\Big(\dfrac{uctr - \mu}{s}\Big) & \text{if } Q_r \sim Q_r^+ \\[2mm] 1 + \alpha\cdot\tanh\!\Big(\dfrac{uctr - \mu}{s}\Big) & \text{if } Q_r \sim Q_r^- \end{cases} \tag{6}$$

其中 $\alpha$ 定义权重界,$s$ 是所有用户 $uctr$ 的标准差。鉴于真实世界 $uctr$ 的长尾分布,$\mu$ 经验设为 0.07($uctr$ 分布的上四分位数)。设计含义:对活跃用户($uctr>\mu$),$\tanh$ 为正,于是放大其负样本权重、同时打折其正样本;反之对不活跃用户($uctr<\mu$),自然地上调其罕见正样本(点击)的权重

系统侧校准(System-side Calibration):为把"执行导向"需求置于"闲聊"之上,引入系统级校准——它不平等对待所有查询,而是显式把 ToolRec 导向能成功触发 SysToolkit 内工具的可执行查询 $Q_r^t$,并对关联到高频工具的查询赋予更高权重。对推荐查询 $Q_r$,系统侧权重 $w_s$ 为:

$$w_s = \begin{cases} (1+\gamma)\,p^{k} & \text{if } Q_r \sim Q_r^+ \ \&\ Q_r \sim Q_r^t \\ 0 & \text{if } Q_r \sim Q_r^- \ \&\ Q_r \sim Q_r^t \\ 1 & \text{else} \end{cases} \tag{7}$$

其中 $\gamma$ 控制最大权重界,$p\in[0,1]$ 是被调用工具的归一化频率分位数,超参 $k$ 调节权重对点击频率的敏感度(基于线上交互日志统计分析,经验设为 3)。关键设计:Eq.(7) 第二条显式把"未点击的工具调用类查询"权重置 0——这相当于在训练时屏蔽这些负样本,确保模型不会因"工具推荐不完美"而受罚,从而防止模型转向"偏好安全、通用响应"的保守策略、维持其工具调用的主动性。

4.4 校准式偏好对齐(Calibrated Preference Alignment)

线上真实部署中,为同一输入同时标注 chosen 与 rejected 响应(成对偏好)极不现实,因此对齐阶段依赖 KTO(天然支持非成对反馈)。把 §4.3 的双层校准权重融进 KTO,得到样本级加权 KTO 目标

$$\mathcal{L} = \mathbb{E}_{x,y\sim D}\big[w(Q_r)\,(1 - v(x,y;\beta))\big] \tag{8}$$

最终样本权重 $w(Q_r)$ 的聚合策略为:

$$w(Q_r) = \begin{cases} \max(w_u, w_s) & \text{if } Q_r \sim Q_r^+ \\ \min(w_u, w_s) & \text{if } Q_r \sim Q_r^- \end{cases} \tag{9}$$

这一聚合策略意在平衡优化的激进程度

  • 正样本 $Q_r^+$,取 $\max$ 充当激进的奖励机制——只要"高用户置信度"或"高系统效用"二者之一成立,该查询就被强烈鼓励;
  • 负样本 $Q_r^-$,取 $\min$ 充当保守的惩罚——除非用户信号与系统效用自信地指向负偏好,否则不会过度惩罚非点击。

5 实验

5.1 实验设置

数据集:在 OPPO 小布(>1.5 亿 MAU)上做大规模在线 A/B。主市场流量平均分给 control 与 treatment 组以保公平。正式实验前两组先监测 12 小时以上,验证用户请求分布一致、无初始偏差。

评估指标:三个主指标——总点击量(total clicks)、CTR、相关性(relevance)。相关性度量"给定样本内被判定为与用户上下文相关的推荐查询比例";由于日活交互量巨大、全量算相关性算力不可行,作者每个模型从线上日志随机抽 1,000 个推荐实例,用 Doubao-Seed-1.8 评估上下文相关性。

可复现性:8× NVIDIA A100 GPU + 200GB RAM;基座 Qwen-3-14B,用 LoRA(rank=8,作用于网络全部层) 做参数高效微调;训练 batch size 32;AdamW 优化器,学习率 $5\times10^{-6}$,cosine LR scheduler,warmup ratio 0.1;KTO 的 $\beta=0.01$;控制校准权重的超参 $\alpha=0.25$、$\gamma=1.25$。

5.2 主要在线结果

对比 SFT 与 KTO 等已建立的对齐算法。注意:因线上数据特性,无法为同一输入获取成对正负样本,故 DPO、SimPO 被排除。在线 A/B 于 2026 年 4 月 21–27 日进行,每模型分到 5% 流量。

Table 1:不同策略对比(在线 A/B,各 5% 主市场流量)。

Strategies Click Number CTR Relevance
Base 1,063,499 0.3095 0.9710
SFT 1,069,529 0.3098 0.9590
Vanilla KTO 1,100,807 0.3167 0.9560
ToolRec 1,113,871 0.3198 0.9570
Improve. +4.74% +3.32% −1.44%

分析

  • 尽管 SFT 与 KTO 都比 Base 有持续增益,ToolRec 在所有对齐方法中点击量与 CTR 提升最大——相对 Base 分别 +4.74%、+3.32%。即便只部署在 5% 流量,这一相对提升也意味着数万次额外用户点击的绝对增量。
  • 相比 Base,所有对齐方法的相关性都有下降。作者认为:对齐前 Base 模型严格贴合历史上下文;而对齐后的模型被优化为生成"符合用户偏好"而非"严格追求上下文相关"的查询。
  • 但 ToolRec 并未显著牺牲相关性——其相关性 0.9570 与 SFT/KTO 相当,作者归因于上下文感知工具检索机制(保证生成查询仍严格锚定当前对话)。

5.3 离线对比

为在线上指标之外进一步验证,作者随机抽 2,000 条真实对话历史作为 ToolRec 与 baseline 的输入上下文,采用 LLM-as-a-judge(Doubao-Seed-1.8)做严格 pairwise 评估:对每个上下文,judge 基于"工具调用的有用性 + 推荐查询的多样性"判定 ToolRec 相对各 baseline 为 Win/Tie/Loss。

Figure 5: ToolRec 与各 baseline 的离线对比(Win/Tie/Loss)。vs Base:26.8% / 50.95% / 22.25%;vs SFT:30.5% / 43.6% / 25.9%;vs Vanilla KTO:30.8% / 43.65% / 25.55%。

分析:ToolRec 对全部三个 baseline 都 Win 率高于 Loss 率。值得注意的是 Tie 比例很高(43.6%–50.95%)——作者归因于端侧交互的固有特性:很多用户请求是直接且确定性的(如"打开 Wi-Fi""设个闹钟"),最优工具查询相对固定;而所有模型共享同一基座(Qwen-3-14B),对这些常规任务都能生成完全正确的查询,留给改进的空间很小。

5.4 消融实验

设计四个变体评估各组件贡献:(1) vanilla KTO(无校准);(2) 仅用户侧校准;(3) 仅系统侧静态权重(校准权重与工具频率无关);(4) 用户侧 + 系统侧静态校准组合。在线 A/B 于 2026 年 4 月 28 日–5 月 4 日,每模型 2% 流量。

Table 2:消融实验(各 2% 主市场流量)。 $w_u$=用户侧权重,static $w_s$=静态系统侧权重,dynamic $w_s$=动态(频率敏感)系统侧权重。

ID $w_u$ static $w_s$ dynamic $w_s$ Click Number CTR
1 423,561 0.3051
2 434,084 0.3090
3 429,931 0.3080
4 446,527 0.3162
ToolRec 458,334 0.3226

分析: 1. 变体 2、3 对比变体 1:单独施加用户侧或系统侧静态校准,CTR 与总点击均明显提升——证明两类校准各自的有效性。 2. 变体 4 对比变体 2、3:用户侧与系统侧校准不冲突、高度互补,联合使用比单用任一更好。 3. 完整 ToolRec 对比变体 4:把系统侧从静态升级为基于工具频率的动态校准,带来又一次显著性能跃升——按工具频率加权能促使模型优先生成"与高频用户交互相关"的工具查询。

5.5 超参分析

研究两个关键权重超参 $\alpha$、$\gamma$。受限于并发在线实验槽位,超参 A/B 跨两个时段(4 月 4–6 日4 月 11–13 日)各分 2% 流量;为缓解两时段间 CTR 的时序波动,报告各超参配置相对 vanilla KTO baseline 的相对 CTR 提升

Figure 6: α 与 γ 对 ToolRec 的影响。(a) CTR 提升随 γ 增大稳步上升;(b) 相关性随 γ 增大先升后平台/下降。α=0.25 整体优于 α=0.5。

分析:(a) 相对 CTR 提升随 $\gamma$ 增大稳步上升;(b) 相关性则呈不同轨迹——先升后平台甚至下降,因为过度强调生成工具相关查询会损害上下文连贯/相关性。综合二者,$[\alpha=0.25,\ \gamma=1.25]$ 取得最佳平衡,给出极具竞争力的性能。

5.6 细粒度性能评估

逐日性能(Day-wise):图 7 展示 4 月 21–27 日一周内 ToolRec 相对 Base 的逐日点击量与相对提升(5% 流量)。周末交互量明显高于工作日(用户闲暇时间更多、设备使用更频繁)。尽管日流量波动,ToolRec 始终稳定超越 Base,相对点击量提升稳定在 3.3%–6.7%——证明方法对时序波动稳健。

分层用户分析(Stratified User Analysis):按历史 CTR 把用户分为高活跃(high-ctr)与低活跃(low-ctr)两组,评估 ToolRec 跨活跃度的有效性。

Table 3:高 CTR / 低 CTR 用户组的性能(各 5% 流量)。

Models Click(High-ctr) Click(Low-ctr) CTR(High-ctr) CTR(Low-ctr)
Base 467,449 27,372 0.8330 0.0939
SFT 470,639 27,568 0.8320 0.0938
Vanilla KTO 493,373 26,584 0.8417 0.0904
ToolRec 509,043 27,519 0.8358 0.0945

分析:ToolRec 在两组中都竞争力很强——点击量与 CTR 均稳居前二。尤其在低活跃用户组拿到最高 CTR(0.0945),且总点击仅微弱低于 SFT。作者归因于用户侧偏好校准:通过按个体点击倾向动态调权,有效缓解了行为噪声、产出更高质量的偏好数据。(注:Vanilla KTO 虽在高活跃组 CTR 最高 0.8417,但其低活跃组 CTR 0.0904 反而低于 Base,说明无校准的 KTO 会被低活跃用户的噪声反噬。)

查询类型分布分析(Query Type Distribution):ToolRec 的根本目标是激励生成可执行的工具调用类查询。统计 4 月 21–22 日各模型相对 Base 在"工具调用类查询占比"上的相对变化(5% 流量)。

Table 4:工具调用类查询占比的相对提升(各 5% 流量)。

Strategies Relative Improvement
Base
SFT −0.19%
Vanilla KTO +0.45%
ToolRec +1.44%

分析:ToolRec 取得最大相对提升 +1.44%,显式验证了系统侧偏好校准的有效性。考虑到小布日交互量巨大,1.44% 的占比提升仍很可观——即便在 5% 流量限制下,也意味着约 20,000 次用户请求被导向了工具调用类查询。

5.7 案例研究

Figure 8: ToolRec 成功提供被用户点击的工具调用类查询的两个案例(内容已译为英文便于理解)。

  • Case 1:用户似乎在求助"手机进水后该怎么办"。除标准文本排障说明外,ToolRec 主动推荐了一组后续查询,其中含工具调用类查询 "Help me clean the speaker."(帮我清理扬声器)。在这种时间敏感语境下,直接触发设备内置的排水工具远比泛泛的信息性建议更实用、更紧迫——用户对该推荐的点击也佐证了这一点。
  • Case 2:用户询问设备最大电池容量(通常暗示对电池退化/快速耗电的担忧)。在给出导航步骤的文本指南后,ToolRec 立即surface 出工具调用类查询如 "Open battery health settings""Check current battery health status"。用户对后者的点击进一步确认:相比手动导航,用户高度偏好一键可执行动作。

这些案例表明 ToolRec 有效弥合了对话理解与系统级执行之间的鸿沟:通过把对话上下文精确锚定到设备能力空间,模型能持续提供贴合真实用户意图的可执行推荐。

6 核心贡献总结

ToolRec 的价值在于把"端侧助手查询推荐"这一具体业务痛点拆成两个被前人忽视的子问题并给出工程化解法: 1. 工具调用意图的显式建模:构建 708 工具的 SysToolkit + 上下文感知检索(Qwen3-embedding/reranker),把查询推荐从"生成文本"升级为"锚定可执行动作",既保相关性又把推荐导向高价值的工具触发。 2. 点击信号可信度的双层校准:用户侧按 $uctr$ 用 $\tanh$ 动态调权(放大活跃用户负反馈、上调不活跃用户罕见正反馈),系统侧用 $(1+\gamma)p^k$ 上调高频工具的正样本、置 0 屏蔽工具负样本;二者经 $\max/\min$ 聚合融入样本级加权 KTO,把"均匀信任点击"改造为"按置信度区分对待"。 3. 全部用真实大规模在线 A/B(OPPO 小布 >1.5 亿 MAU)验证,CTR +3.32%、点击 +4.74%、工具查询占比 +1.44%,相关性几乎无损。

与已归档相关工作的对比

AdaGRPO AdaGRPO: Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation(JD.com,2026-06-07)

关系:独立并发(本文未引用 AdaGRPO,两者殊途同归 · 同一投稿日 2026-06-07)· 已加载对方精读

  • 共同关注的问题:两篇论文指向同一个 root cause——在用生成式/LLM 推荐做偏好/RL 对齐时,驱动对齐的监督信号并非均匀可信,把所有样本同等对待是次优的。ToolRec 关注的是隐式点击信号的可信度异质性(随用户活跃度、随查询类型变化);AdaGRPO 关注的是奖励模型(production ranker as RM)的可信度异质性(曝光偏置使 RM 只在困难且可判别的样本子集上提供有信息梯度)。两者都明确反对"uniform treatment / 均匀施加"的对齐范式。
  • 相近的技术骨架:两者都把"逐样本可信度诊断 → 折进对齐目标的样本级权重"作为方法主轴。ToolRec 计算连续权重 $w(Q_r)$(用户侧 $\tanh$ + 系统侧 $(1+\gamma)p^k$,经 $\max/\min$ 聚合)注入加权 KTO(Eq.8-9);AdaGRPO 计算二值门控 $\alpha_i\in\{0,1\}$(difficulty $f_1$ ∧ RM-discriminability $f_2$)门控 GRPO 项、不通过则退回纯 NLL 监督。把两者方法流程图叠在一起,骨架高度重合:都是"per-sample reliability gate/weight on the alignment loss"
  • 本文的差异与推进:(1) 载体不同——ToolRec 用 KTO(非成对、无需 RM),因为线上无法为同一输入获取成对偏好;AdaGRPO 用 GRPO(需要一个 RM 打分 rollout)。(2) 可信度信号的来源不同——ToolRec 的权重来自离线的用户画像统计($uctr$)与工具频率,是数据侧校准;AdaGRPO 的门控来自在线 rollout 时的统计量(策略对该样本是否困难、RM 是否能判别),是rollout 时校准。(3) 形态不同——ToolRec 是连续软加权(且对正负样本用 $\max/\min$ 非对称聚合);AdaGRPO 是二值硬门控(把 PPO 的 clip 从 token-ratio 域抬到 sample 域)。
  • 可比的方法/实验差异:ToolRec 面向端侧助手的查询推荐(生成自然语言查询、对齐点击),实验是 OPPO 小布的工业在线 A/B(CTR/点击/相关性);AdaGRPO 面向SID 自回归生成式推荐(生成 Semantic ID、对齐 production ranker),实验是公开 Amazon 数据集 + JD 在线 A/B(HR@10、effective IPV)。两者一个在"人类点击=金标准"上做置信度校准,一个在"RM=金标准"上做置信度校准,正好覆盖了生成式推荐对齐里"两类监督信号都不可全信"的互补侧面,是一组很好的"同一思想、不同信号源"的独立并发对照。

讨论与局限性

值得借鉴的设计

  • 把"信号可信度"显式建模进对齐目标,而非把点击当金标准——这是与 AdaGRPO 共享的、可能成为生成式推荐对齐新范式的核心思想。ToolRec 的 $\tanh$ 用户侧调权 + 工具频率系统侧调权都很轻量,几乎零额外训练成本,工业落地友好。
  • 用 KTO 而非 DPO/PPO 规避"线上无法构造成对偏好"的现实约束,是端侧/工业场景的务实选择。
  • 负样本屏蔽(Eq.7 第二条置 0) 防止模型对"不完美工具推荐"过度自我惩罚、转向保守通用响应——这是一个很具洞察力的小设计。
  • 上下文感知工具检索把 708 工具压缩成 top-N 上下文,兼顾上下文窗口与相关性。

局限与争议

  • 所有增益来自单一平台(OPPO 小布)的在线 A/B,缺乏公开数据集复现,外部可验证性弱;超参($\mu=0.07$、$k=3$、$\alpha=0.25$、$\gamma=1.25$)都"经验设定/基于本平台日志统计",迁移到其他助手是否成立未知。
  • 相关性相对 Base 下降(−1.44%):虽然作者argue 其与 SFT/KTO 相当,但对齐确实以牺牲一定上下文相关性为代价换 CTR,长期是否影响用户信任未评估。
  • 离线评估 Tie 高达 43.6%–51%,说明在大量确定性请求上各模型差异很小,ToolRec 的增量主要来自少数"有改进空间"的复杂请求;其 +1.44% 工具查询占比、+3.32% CTR 虽在亿级体量下绝对值可观,但相对幅度并不大。
  • SysToolkit 的 708 工具如何构建/维护(覆盖度、随系统更新的同步)以及工具检索的召回质量,论文着墨较少,而这直接决定工具调用类查询的天花板。
  • 论文的引用编号存在一些前后不一致(如正文 "Min et al. [14]" 与参考文献 [14] 作者不符),属草稿瑕疵,不影响方法本身。

工业落地价值:ToolRec 已在 OPPO 小布(>1.5 亿 MAU)线上部署验证,5% 流量即带来数万次额外点击、约 2 万次请求转向工具调用类查询。对"LLM 助手 + 系统工具调用"这一正在兴起的端侧形态,本文提供了一套可直接复用的偏好对齐配方:工具仓库 + 上下文检索 + 双层点击校准 + 加权 KTO。