← Back to list
OneSearch-V2

OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

生成式推荐 Kuaishou
Abstract 9 Reading 9 Rating —
2026-03-25
Ben Chen, Siyuan Wang, Yufei Ma, Zihan Liang, Xuxin Zhang, Yue Lv, Ying Yang, Huangyu Dai, Lingtao Mao, Tong Zhao, Zhipeng Qian, Xinyu Sun, Zhixin Zhai, Yang Zhao, Bochao Liu, Jingshan Lv, Xiao Liang, Hui Kong, Jing Chen, Han Li, Chenyi Lei, Wenwu Ou, Kun Gai
Kuaishou Technology
在 OneSearch 基础上提出思维增强查询理解、推理内化自蒸馏和 TPMA-GRPO 偏好对齐,在快手商城搜索实现 Item CTR +3.98%、订单量 +2.11%,无需额外推理开销
semantic-id knowledge-distillation rl industrial search-ranking

OneSearch-V2: 潜在推理增强的自蒸馏生成式搜索框架

1. 研究背景与动机

OneSearch 是快手商城搜索部署的工业级端到端生成式搜索框架,将 query 作为输入直接生成候选商品的 Semantic ID (SID) 序列。尽管 OneSearch-V1 已取得显著的商业收益,但存在三个核心瓶颈:

1.1 复杂查询理解不足

典型搜索 query 仅由 2-3 个关键词组成,很多不直接指向具体商品。例如"室内健身器材"可能对应跑步机、哑铃但不包括山地自行车。长尾 query(如否定式"缓解疲劳,不要保健品"、问答式"游泳必需品有什么?")更需要强语义理解和推理能力。这类复杂 query 在快手商城占总 PV 的约三分之一,但转化率仅 8%,远低于平均水平。OneSearch-V1 在 SFT Stage 1 中引入品类级监督,但模型仍缺乏对歧义 query 的深层理解能力。

1.2 用户意图的个性化推理不足

有效的电商搜索不仅需要理解 query 本身,还需要推理用户特定上下文。例如一位对花粉过敏的用户搜索"应季鲜花",系统应推理出当前季节有哪些花开放,并主动排除过敏品种——即使这些品种历史转化率高。OneSearch-V1 的定期更新依赖历史共现模式和 log-fitting 目标,不可避免地产生浅层匹配,无法进行这种深层个性化推理。

1.3 奖励系统的分布偏差

OneSearch-V1 采用多阶段级联方式,由独立训练的奖励模型 (RM) 指导生成模型学习用户偏好。该设计存在三个问题:(1) RM 训练基于历史用户行为日志的窄子集采样,容易过拟合历史偏好分布;(2) 容易产生奖励 hacking(利用单一转化指标的漏洞);(3) 无法及时适配新 query 和新意图。

2. OneSearch-V2 框架总览

OneSearch-V2 包含三个核心创新模块(见 Figure 2):

  1. 思维增强的查询理解模块 (Thought-Augmented Query Understanding):利用 LLM 为每个 query-user pair 生成显式的 keyword-based CoT,构建高密度关键词集合作为语义增强信号
  2. 推理内化的自蒸馏训练管线 (Reasoning-Internalized Self-Distillation):通过信息不对称自蒸馏将 CoT 推理能力编码到模型权重中,无需推理时额外开销
  3. 行为反馈偏好对齐系统 (Behavior Feedback Preference Alignment):直接使用用户交互反馈构建复合奖励,引入 Token-Position Marginal Advantage (TPMA) 机制实现位置级精细信用分配

训练流程概览

整体训练包含四个阶段(Table 2):

阶段 SFT Stage 1 SFT Stage 2 SFT Stage 3 RL Stage
目标 语义对齐 ⟨q, i⟩ 共现同步 用户个性化 偏好对齐
组件 query/item ↔ SID, query/item ↦ category, SID ↦ category, CoT tasks query ↔ item, SID_q ↔ SID_i uid & q, SID_q & Seq_q, Seq_short & Seq_long^emb, keywords (RAG) ↦ SID_q user & query, seq. feat., item_click/order, item_rollout ↦ Rank Score

3. 单模态 vs. 多模态 SID Tokenization (Section 3.1)

论文首先探讨了电商搜索场景下单模态 vs. 多模态 SID 编码的选择。

实验对比 (Table 1)

在约 500 万在线点击 ⟨query, item⟩ 对上,使用统一 RQ-OPQ 框架进行 tokenization,评估 Recall@10 和 MRR@10:

类型 模型 参数量 CUR ICR Recall MRR
uni-modal bge-base 109M 4.54% 96.88% 0.2445 0.1013
uni-modal qwen3 0.6B 5.11% 97.56% 0.2468 0.1025
multi-modal uniecs 200M 4.54% 94.62% 0.2368 0.1007
multi-modal bge-vl 149M 4.23% 94.46% 0.2364 0.1009
multi-modal qwen3-vl 2B 4.86% 95.27% 0.2389 0.1012
multi-modal CLIP 188M 4.03% 94.16% 0.2358 0.1003
KHQE bge+kw. 109M 5.11% 99.50% 0.2542 0.1085

结论:单模态方法在所有规模上显著优于多模态方法,甚至小参数量的 bge-base 也超越更大的 qwen3-vl。这源于跨模态表征差异和冗余属性对编码效率的稀释。OneSearch 的 KHQE(基于 bge + 关键词的层次化量化)方案在所有指标上最优,验证了其在核心属性提取和层次化表征方面的优越性。

4. 思维增强的查询理解 (Section 3.2)

4.1 Keyword-based CoT 范式

完整的自由形式 CoT 推理产生冗长输出,小模型无法高效处理,且 SID(离散数字序列)与文本 CoT 的异质性增加了推理难度。因此论文提出关键词化的 CoT:将 LLM 推理浓缩为结构化的关键词集合,最大化信息密度。

三步关键词提取流程(Figure 3,详细 prompt 见 Appendix B Table 16):

Step 1: Query Analysis — 从四个维度分析 query:

  • (i) 意图理解 (Intent Understanding):识别主要检索意图(商品搜索/功能需求/直播等)
  • (ii) 品类识别 (Category Identification):从粗到细匹配品类
  • (iii) 属性识别 (Attribute Recognition):提取 query 中显式出现的实体、品牌、颜色、材质等属性
  • (iv) 主题推荐 (Topic Recommendation):推测满足用户需求的候选品类和商品

Step 2: Keyword Extraction — 从分析结果中提取关键词:

  • 仅在"商品搜索"意图下提取,否则输出 Not extractable
  • 仅从 Topic Recommendation 部分提取
  • 移除离题商品、营销用语,合并同义词
  • 最多 8 个关键词,按热度降序排列

Step 3: Preference Calibration — 结合用户画像和行为历史校准关键词:

  • 输入用户 profile、近期搜索、近期点击、候选关键词
  • 输出最多 5 个个性化关键词

4.2 训练范式优化 (Section 3.2.2)

将 ⟨query, keywords⟩ 和 ⟨query, user, keywords⟩ 元组整合为四种 CoT 训练任务(Figure 3 下半部分),加入 SFT Stage 1 的语义对齐训练中。

CoT 增强效果 (Table 3)

在 Order (7229) 和 Click (30k) 数据集上(n=10):

模型 Order HR@n Order MRR@n Click HR@n Click MRR@n
baseline 0.2046 0.0985 0.2231 0.0728
+ CoT tasks 0.2094 0.1008 0.2266 0.0731
+ direct CoT 0.0898 0.0189 0.1013 0.0146
+ RAG 0.2139 0.1011 0.2327 0.0743

结论

  • 加入 CoT 训练任务带来稳定提升
  • 直接生成 CoT(在解码前先输出完整 CoT 文本再生成 SID)严重退化,证实了文本 CoT 与数值 SID 的异质性对小模型的负面影响
  • 将关键词作为 RAG 输入层注入效果最优,但推理时需额外调用 LLM 生成关键词,延迟不可接受

Head/Tail Query 分别效果 (Table 4)

模型 Head HR@n Head MRR@n Tail HR@n Tail MRR@n
baseline 0.2362 0.0817 0.1952 0.0733
+ CoT tasks 0.2419 0.0829 0.1963 0.0734
+ direct CoT 0.1116 0.0180 0.0809 0.0120
+ RAG 0.2438 0.0845 0.1973 0.0779

CoT 增强对 head 和 tail 查询均有一致提升,但 RAG 方式对 tail 查询的 MRR 提升尤为显著(+6.3%)。

5. 推理内化的自蒸馏 (Section 3.3)

5.1 核心思路

将 RAG 方式的关键词增强效果"内化"到模型权重中,无需推理时额外调用 LLM。采用信息不对称自蒸馏:teacher 和 student 共享同一模型参数 $\theta$,但 teacher 看到完整输入(含关键词),student 仅看到原始输入。

5.2 自蒸馏公式化 (Section 3.3.1)

设生成模型为 $\mathcal{M}_\theta$,teacher 输入包含个性化 keyword-based CoT:

$$x^{(T)} = (\text{uid}, q, \text{SID}_q, \text{Seq}_q, \text{Seq}_{\text{short}}, \text{Seq}_{\text{long}}^{\text{emb}}, \mathbf{kw})$$

Student 输入不含关键词:

$$x^{(S)} = (\text{uid}, q, \text{SID}_q, \text{Seq}_q, \text{Seq}_{\text{short}}, \text{Seq}_{\text{long}}^{\text{emb}})$$

两者对目标序列 $y = (y_1, \ldots, y_L)$ 产生 logits:

$$z^{(T)} = \mathcal{M}_\theta(y \mid x^{(T)}), \quad z^{(S)} = \mathcal{M}_\theta(y \mid x^{(S)})$$

蒸馏目标通过 KL 散度让 student 逼近 teacher 的输出分布:

$$\mathcal{L}_{\text{KL}} = \frac{1}{|\mathcal{V}|} \sum_{t \in \mathcal{V}} \text{KL}\Big(\text{softmax}(z_t^{(T)}/\tau) \,\Big\|\, \text{softmax}(z_t^{(S)}/\tau) \cdot \tau^2\Big)$$

其中 $\mathcal{V} = \{t : y_t \neq -100\}$ 是有效(非 padding)token 位置集合,$\tau$ 是蒸馏温度。Teacher 的 logits 从计算图中 detach(使用 torch.no_grad()),KL 梯度仅更新 student 路径。

基础训练目标:

$$\mathcal{L}_{\text{base}} = \mathcal{L}_{\text{CE}}(z^{(S)}, y) + \alpha_{\text{KL}} \cdot \mathcal{L}_{\text{KL}}$$

5.3 缓解表征不稳定性 (Section 3.3.2)

Teacher-student 之间的信息不对称导致 student 在语义模糊 query 上的表征变得脆弱,论文提出两种互补的正则化方法:

R-Drop 预测一致性正则化:对 student 输入执行两次 forward pass(使用不同 dropout mask),最小化两次输出分布的对称 KL 散度:

$$\mathcal{L}_{\text{R-Drop}} = \frac{1}{2}\Big[\text{KL}(P_1 \| P_2) + \text{KL}(P_2 \| P_1)\Big]$$

其中 $P_k = \text{softmax}(z_k^{(S)})$,KL 项仅计算有效 token 位置。此对称惩罚迫使模型不依赖对 dropout 噪声敏感的脆弱内部路径。

FGM 对抗扰动:对输入 embedding 空间施加 Fast Gradient Method 扰动:

$$r_{\text{adv}} = \epsilon \cdot \frac{\nabla_e \mathcal{L}_{\text{base}}}{\|\nabla_e \mathcal{L}_{\text{base}}\|_2}$$

其中 $e$ 是 embedding 参数,$\epsilon$ 控制扰动幅度。对扰动后的 embedding $e + r_{\text{adv}}$ 执行第二次 forward-backward pass 得到 $\mathcal{L}_{\text{adv}}$,平滑每个输入周围的 loss landscape。

5.4 总训练目标 (Section 3.3.3)

$$\mathcal{L}_{\text{SDFT}} = \mathcal{L}_{\text{CE}} + \alpha_{\text{KL}} \cdot \mathcal{L}_{\text{KL}} + \alpha_{\text{R}} \cdot \mathcal{L}_{\text{R-Drop}} + \mathcal{L}_{\text{adv}}$$

其中 $\mathcal{L}_{\text{adv}}$ 是扰动 embedding 上的 cross-entropy 和加权蒸馏 loss。标准 cross-entropy 使用 focal loss 替代以缓解 SID 词表中的类别不平衡问题。

5.5 自蒸馏各组件消融 (Table 6)

在 baseline 和自蒸馏模型上分别添加各正则化技术:

方法 Order HR@10 Order MRR@10 Click HR@10 Click MRR@10
Baseline 0.2046 0.0985 0.2231 0.0728
+ R-Drop 0.2124 0.1020 0.2292 0.0733
+ FGM 0.2109 0.1011 0.2279 0.0732
+ Focal Loss 0.2074 0.1010 0.2237 0.0723
Self-Distill 0.2163 0.1017 0.2398 0.0757
+ R-Drop 0.2168 0.1045 0.2398 0.0760
+ FGM 0.2168 0.1050 0.2380 0.0757
+ Focal Loss 0.2161 0.1042 0.2398 0.0753

结论

  • 自蒸馏本身是最大贡献者(+1.17% Order HR@10, +1.67% Click HR@10)
  • R-Drop、FGM、Focal Loss 单独加入时各有小幅增益
  • 三者组合产生显著放大效应(22.14% Order HR@10, 10.48% MRR@10),超出单独增益之和,说明信息不对称导致的表征不稳定性在多个维度上存在交互

5.6 自蒸馏 vs. Teacher-Student 分离 (Table 7)

方法 Order HR@10 Order MRR@10 Click HR@10 Click MRR@10
Base (S) 0.2094 0.1008 0.2266 0.0731
Base (T) 0.2139 0.1011 0.2327 0.0743
Self-Distill (T) 0.2155 0.1015 0.2397 0.0756
Self-Distill (S) 0.2163 0.1017 0.2398 0.0757

关键发现:Self-Distill (S) 在推理时不使用关键词,但略优于使用关键词的 Self-Distill (T)。作者推测这是因为 self-mode 蒸馏中 teacher 和 student 共享全部参数,student 的 loss(含 KL 项鼓励从截断输入准确预测)驱动全部梯度更新,使优化天然倾向于在信息不足条件下的鲁棒性,使 student 的泛化能力超越了 teacher 显式推理的能力。

5.7 自蒸馏 vs. 其他推理内化策略 (Table 8)

方法 Order HR@10 Order MRR@10 Click HR@10 Click MRR@10
Baseline 0.2094 0.1008 0.2266 0.0731
(i) Special-token 0.2092 0.0999 0.2335 0.0739
(ii) Latent + CODI 0.2105 0.0985 0.2269 0.0714
(iii) EMA-mode 0.2097 0.1009 0.2317 0.0746
(iv) Joint-mode 0.2156 0.1016 0.2348 0.0748
Self-mode (ours) 0.2163 0.1017 0.2398 0.0757

Self-mode 在所有指标上均优于其他推理内化策略(special-token 蒸馏、CODI 风格隐状态对齐、EMA-mode、Joint-mode),表明完全共享权重 + 输入级别信息不对称是最有效的范式。

5.8 CODI 风格方案的深入分析 (Table 11)

在 BART backbone 上进一步对比 CODI 风格配置:

方法 Order HR@10 Order MRR@10 Click HR@10 Click MRR@10
Baseline 0.2094 0.1008 0.2266 0.0731
Self-Distill (KL) 0.2163 0.1017 0.2398 0.0757
CODI 0.2105 0.0985 0.2269 0.0714
CODI + Proj 0.2092 0.0998 0.2270 0.0717
CODI + Proj + SD 0.2084 0.1002 0.2230 0.0720

CODI + Proj + SD(结合 L1 和 KL 蒸馏)反而低于单独使用任一方法。论文解释为:L1 将隐状态拉向 teacher 的层级几何结构,而 KL 塑造输出分布,两个目标的最优表征不同,互相冲突。纯 KL 公式允许模型自由组织内部表征,避免了此冲突。

6. 行为反馈偏好对齐 (Section 3.4)

6.1 动机

OneSearch-V1 使用独立训练的奖励模型 (RM) 的混合排序框架。该设计存在采样偏差(RM 训练数据仅覆盖窄用户子集)和奖励 hacking 的风险。OneRec-V2 用 Gradient-Bounded Policy Optimization (GBPO) 替代代理奖励,但电商搜索场景与短视频推荐有本质差异:(a) 搜索结果同时展示多个商品,用户交互遵循层级式模式(先点击再加购/购买);(b) 用户对 query-item 相关性约束更强。

6.2 复合奖励设计 (Section 3.4.1)

对每个 rollout $o_i$($L$ 个 token 的 SID 序列),计算三个互补信号:

相关性奖励 $R_{\text{Rel}}$:利用现有相关性系统将每个生成 item 分为四级:3-Excellent, 2-Related, 1-Mismatch, 0-Irrelevant。越高表示 ⟨query, item⟩ 匹配越好。

后验转化奖励 $R_{\text{CTR}}$:使用 OneSearch-V1 设计的校准后验 CTR(adaptive-weighted reward)作为稠密反馈信号,裁剪到 (0, 1) 区间,防止高 CTR 但低相关性的 item 获得过高奖励。

点击与下单奖励 $R_{\text{C\&O}}$:直接奖励用户实际点击和购买的 SID:

$$R_{\text{C\&O}}(o_i) = \begin{cases} V_o, & \text{if } o_i \in S_{\text{order}} \\ V_c, & \text{if } o_i \in S_{\text{click}} - S_{\text{order}} \\ 0, & \text{otherwise} \end{cases}$$

其中 $V_o$ 和 $V_c$ 是常数奖励值(论文设 $V_o = 3, V_c = 4$),购买高于点击体现更强偏好信号。

复合 item 级奖励

$$R_{\text{item}}(o_i) = R_{\text{C\&O}}(o_i) + R_{\text{CTR}}(o_i) + R_{\text{FR}}(o_i)$$

加法设计避免了奖励稀疏性问题,平衡了语义匹配和商业转化。

6.3 标准 GRPO 的局限 (Section 3.4.2)

标准 GRPO 为每个 rollout 分配统一的序列级 advantage:

$$\hat{A}_i = \frac{R_i - \text{mean}_{j \in [G]}(R_j)}{\text{std}_{j \in [G]}(R_j) + \delta}$$

GRPO loss:

$$\mathcal{L}_{\text{GRPO}} = -\frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\Big(r_{i,t} \hat{A}_i, \text{clip}(r_{i,t}, 1-\varepsilon, 1+\varepsilon) \hat{A}_i\Big)$$

其中 $r_{i,t} = \pi_\theta(o_{i,t} \mid x_u, o_{i,\lt t}) / \pi_{\theta_{\text{old}}}(o_{i,t} \mid x_u, o_{i,\lt t})$ 是 per-token 重要性比率。

问题:SID 生成具有严格的层次化因果结构——第一个 token 编码最粗粒度品类,后续 token 逐步细化到具体属性。一个正确的前缀加错误的后缀,与一个完全错误的前缀,含义完全不同。统一的序列级 advantage 混淆了不同位置 token 的贡献,特别削弱了后面精细 token 的学习信号。

6.4 Token-Position Marginal Advantage (TPMA-GRPO) (Section 3.4.3)

Prefix Reward:定义位置 $l$ 的 prefix reward 为该前缀与任意 ground-truth 目标 SID 的最大累计匹配:

$$R_{i,l} = \max_{t \in \mathcal{T}} \sum_{k=1}^{l} [o_i^k = t^k] \cdot \Delta R_{i,l}, \quad l = 1, \ldots, L$$

其中 $\mathcal{T} = S_{\text{click}} \cup S_{\text{order}}$ 是 ground-truth SID 集合。位置 $l$ 的边际贡献 $\Delta R_{i,l}$ 设计为:

$$\Delta R_{i,l} = [l \lt 3] \cdot 2 + [3 \le l \lt L] \cdot 1, \quad R_{i,0} \triangleq 0$$

前 3 个位置(共享品类和层次化特征编码)的边际贡献权重为 2,后续位置(独特细粒度属性量化)权重为 1。

Position-Level Advantage:对每个位置 $l$,在 $G$ 个 rollout 内归一化:

$$\hat{A}_{i,l} = \frac{\Delta R_{i,l} - \text{mean}_{j \in [G]}(\Delta R_{j,l})}{\text{std}_{j \in [G]}(\Delta R_{j,l}) + \delta}$$

Prefix Gate:核心洞察——后续位置的梯度仅在前缀正确时才有意义。引入 prefix gate $g_{i,l}$:

$$g_{i,l} = [l = 1] \cdot 1 + [l \ge 2] \cdot \frac{R_{i,l-1}}{l - 1}$$

  • 当前缀完全匹配时($R_{i,l-1} = l-1$),gate 完全打开($g = 1$)
  • 当前缀完全不匹配时($R_{i,l-1} = 0$),gate 关闭($g = 0$),有效抑制下游 token 的梯度
  • 自然形成层次化课程:模型先学会生成正确的粗粒度 token,再学习精细 token

Combined Advantage:结合 item 级转化信息:

$$\hat{A}_i^{\text{item}} = \frac{R_{\text{item}}(o_i) - \text{mean}_{j \in [G]}(R_{\text{item}}(o_j))}{\text{std}_{j \in [G]}(R_{\text{item}}(o_j)) + \delta}$$

$$\hat{A}_{i,l}^{\text{final}} = \hat{A}_{i,l} + w_{\text{item}} \cdot \hat{A}_i^{\text{item}}$$

$w_{\text{seq}}$ 控制结构化前缀匹配与商业转化信号之间的权衡。

TPMA-GRPO Loss

$$\mathcal{L}_{\text{TPMA}} = -\frac{1}{G} \sum_{i=1}^{G} \frac{1}{L} \sum_{l=1}^{L} g_{i,l} \cdot r_{i,l} \cdot \hat{A}_{i,l}^{\text{final}}$$

其中 $r_{i,l} = \pi_\theta(o_{i,l} \mid x_u, o_{i,\lt l}) / \pi_{\theta_{\text{old}}}(o_{i,l} \mid x_u, o_{i,\lt l})$ 是 token 级重要性比率。注意故意省略了 clipping——prefix gate 在 $g_{i,l} \to 0$ 时自然抑制梯度爆炸,提供了比显式截断更灵活的稳定机制。这与 OneRec-V2 提出的 GBPO 在精神上相似,但通过灵活的结构化 gating 替代了显式截断。

7. 实验

7.1 实验设置

数据集:快手商城搜索平台过去三个月的用户交互对,最后一天日志作为测试集。

评估指标:HitRate (HR@n) 和 Mean Reciprocal Ranking (MRR@n),报告所有测试的平均值。

实现细节

  • 基础模型:Encoder-Decoder BART-B、Decoder-only GPT-2、Qwen3-0.6B
  • 关键词 CoT 生成:Qwen3-32B
  • Beam search size: 512
  • Batch size: SFT 512, DPO 2048, GRPO 256
  • 自蒸馏参数:self-mode(teacher/student 共享权重),$\tau = 1.0$,$\alpha_{\text{KL}} = 0.1$,$\alpha_R = 0.5$
  • FGM 参数:$\epsilon = 0.6$
  • Focal loss 参数:$\alpha = 2$,$\gamma = 3$
  • TPMA-GRPO 参数:$V_o = 3$,$V_c = 4$

7.2 离线性能总表 (Table 5)

在工业数据集上的累积消融(BART-B backbone):

方法 Order HR@10 Order MRR@10 Click HR@10 Click MRR@10
OneSearch 0.2046 0.0985 0.2231 0.0728
+ CoT tasks 0.2094 0.1008 0.2266 0.0731
+ self-distill 0.2163 0.1017 0.2398 0.0757
+ rdrop 0.2168 0.1045 0.2398 0.0760
+ FGM 0.2180 0.1047 0.2422 0.0766
+ focal loss 0.2214 0.1048 0.2471 0.0788
+ PARS 0.2221 0.1067 0.2538 0.0809
+ GRPO 0.2248 0.1106 0.2481 0.0798
+ TPMA 0.2265 0.1136 0.2498 0.0815
OneSearch-V2 0.2314 0.1151 0.2568 0.0833

OneSearch-V2 最终在 Order HR@10 上达到 0.2314(vs. baseline 0.2046,+13.1%),Click HR@10 达到 0.2568(vs. 0.2231,+15.1%)。

7.3 Valid SID Rate (Figure 4)

各优化步骤对 valid SID rate 的贡献:

  • OneSearch baseline: Order ~95.5%, Click ~95.0%
  • 每一步优化都提升了 SID rate
  • OneSearch-V2 最终:Order SID Rate 99.20%,Click SID Rate 99.76%

7.4 跨架构泛化 (Appendix A)

GPT-2 上的自蒸馏累积性能 (Table 12)

方法 Order HR@10 Order MRR@10 Click HR@10 Click MRR@10
Baseline 0.2088 0.0993 0.2270 0.0733
+ self-distill 0.2128 0.1011 0.2325 0.0734
+ R-Drop 0.2168 0.1012 0.2380 0.0755
+ FGM 0.2195 0.1030 0.2430 0.0775
+ focal loss 0.2230 0.1050 0.2520 0.0802

Qwen3-0.6B 上的自蒸馏累积性能 (Table 13)

方法 Order HR@10 Order MRR@10 Click HR@10 Click MRR@10
Baseline 0.2195 0.1012 0.2503 0.0769
+ self-distill 0.2266 0.1060 0.2568 0.0794
+ R-Drop 0.2275 0.1070 0.2625 0.0800
+ FGM 0.2295 0.1082 0.2629 0.0809
+ focal loss 0.2310 0.1089 0.2632 0.0815

三种架构(BART-B encoder-decoder、GPT-2 decoder-only、Qwen3-0.6B decoder-only)均展现一致的累积提升模式,验证了方法的架构无关性。

7.5 在线 A/B 测试 (Section 4.3)

在快手商城搜索平台上进行严格在线 A/B 测试,对比 OneSearch-V1:

三阶段递进验证 (Table 9)

方法 Item CTR PV CTR PV CVR Buyer Order
OneSearch-V2_RAG +0.52% +0.77% +0.63% +1.04% +1.07%
OneSearch-V2_Reason +2.59% +1.42% +2.21% +1.50% +1.57%
OneSearch-V2 +3.98% +1.17% +2.90% +2.07% +2.11%

所有提升均具有统计显著性(P-value < 0.05)。

行业维度分析 (Figure 5):Top/Middle/Tail 十大行业的 CTR 相对提升均为正,平均 +3.98%。服装鞋类、化妆品、五金电器等头部但语义模糊品类提升尤为明显。

用户/查询/商品维度分析 (Figure 6)

  • 用户维度:高/中/低活跃度用户 CTR 均提升 4.52%-4.99%
  • 查询维度:长尾 query 提升最大(5.37%),其次是高频(5.01%)和中频(4.88%)
  • 商品维度:冷门商品提升最大(6.16%),其次是温门(5.69%)和热门(4.81%)

7.6 人工评估 (Table 10)

随机抽取 200 条 query,提取 3,200 个 query-item 对,人工评估三项指标:

指标 Page Good Rate Item Quality Q-I Relevance
V2_Reason +1.12% +0.28% +1.01%
V2_Full +1.37% +0.55% +1.65%

7.7 TPMA 灵活业务干预能力 (Section 4.4 Q3)

在快手 3.18 全球购物节期间,通过调整 relevance reward 为新兴商家加权($R_{\text{rel}}^{\text{new}} = R_{\text{rel}}^{\text{ori}} + 1$),成功将这些商家的商品提升到更高排位,item poster CTR 显著提高。这验证了 TPMA 框架支持实时业务干预和流式更新的能力,无需重新训练模型。

8. 总结与展望

OneSearch-V2 通过三项核心创新解决了 OneSearch-V1 在复杂查询理解、个性化推理和偏好对齐方面的局限:

  1. Keyword-based CoT + 自蒸馏:在不增加推理延迟的前提下,将 LLM 的推理能力内化到小模型的权重中
  2. 信息不对称自蒸馏 + R-Drop/FGM:通过自模式蒸馏和互补正则化技术稳健地内化推理能力
  3. TPMA-GRPO:用直接行为反馈替代独立奖励模型,通过位置级边际 advantage 和 prefix gate 实现对 SID 层次结构的精确信用分配

未来方向: 1. 长尾 query 的 beyond-logs 训练策略 2. 统一 SID tokenization 方案以覆盖视频、直播等异构内容类型 3. 面向 agentic 搜索系统的高效在线学习机制