OneSearch-V2: 潜在推理增强的自蒸馏生成式搜索框架¶
1. 研究背景与动机¶
OneSearch 是快手商城搜索部署的工业级端到端生成式搜索框架,将 query 作为输入直接生成候选商品的 Semantic ID (SID) 序列。尽管 OneSearch-V1 已取得显著的商业收益,但存在三个核心瓶颈:
1.1 复杂查询理解不足¶
典型搜索 query 仅由 2-3 个关键词组成,很多不直接指向具体商品。例如"室内健身器材"可能对应跑步机、哑铃但不包括山地自行车。长尾 query(如否定式"缓解疲劳,不要保健品"、问答式"游泳必需品有什么?")更需要强语义理解和推理能力。这类复杂 query 在快手商城占总 PV 的约三分之一,但转化率仅 8%,远低于平均水平。OneSearch-V1 在 SFT Stage 1 中引入品类级监督,但模型仍缺乏对歧义 query 的深层理解能力。
1.2 用户意图的个性化推理不足¶
有效的电商搜索不仅需要理解 query 本身,还需要推理用户特定上下文。例如一位对花粉过敏的用户搜索"应季鲜花",系统应推理出当前季节有哪些花开放,并主动排除过敏品种——即使这些品种历史转化率高。OneSearch-V1 的定期更新依赖历史共现模式和 log-fitting 目标,不可避免地产生浅层匹配,无法进行这种深层个性化推理。
1.3 奖励系统的分布偏差¶
OneSearch-V1 采用多阶段级联方式,由独立训练的奖励模型 (RM) 指导生成模型学习用户偏好。该设计存在三个问题:(1) RM 训练基于历史用户行为日志的窄子集采样,容易过拟合历史偏好分布;(2) 容易产生奖励 hacking(利用单一转化指标的漏洞);(3) 无法及时适配新 query 和新意图。
2. OneSearch-V2 框架总览¶
OneSearch-V2 包含三个核心创新模块(见 Figure 2):
- 思维增强的查询理解模块 (Thought-Augmented Query Understanding):利用 LLM 为每个 query-user pair 生成显式的 keyword-based CoT,构建高密度关键词集合作为语义增强信号
- 推理内化的自蒸馏训练管线 (Reasoning-Internalized Self-Distillation):通过信息不对称自蒸馏将 CoT 推理能力编码到模型权重中,无需推理时额外开销
- 行为反馈偏好对齐系统 (Behavior Feedback Preference Alignment):直接使用用户交互反馈构建复合奖励,引入 Token-Position Marginal Advantage (TPMA) 机制实现位置级精细信用分配
训练流程概览¶
整体训练包含四个阶段(Table 2):
| 阶段 | SFT Stage 1 | SFT Stage 2 | SFT Stage 3 | RL Stage |
|---|---|---|---|---|
| 目标 | 语义对齐 | ⟨q, i⟩ 共现同步 | 用户个性化 | 偏好对齐 |
| 组件 | query/item ↔ SID, query/item ↦ category, SID ↦ category, CoT tasks | query ↔ item, SID_q ↔ SID_i | uid & q, SID_q & Seq_q, Seq_short & Seq_long^emb, keywords (RAG) ↦ SID_q | user & query, seq. feat., item_click/order, item_rollout ↦ Rank Score |
3. 单模态 vs. 多模态 SID Tokenization (Section 3.1)¶
论文首先探讨了电商搜索场景下单模态 vs. 多模态 SID 编码的选择。
实验对比 (Table 1)¶
在约 500 万在线点击 ⟨query, item⟩ 对上,使用统一 RQ-OPQ 框架进行 tokenization,评估 Recall@10 和 MRR@10:
| 类型 | 模型 | 参数量 | CUR | ICR | Recall | MRR |
|---|---|---|---|---|---|---|
| uni-modal | bge-base | 109M | 4.54% | 96.88% | 0.2445 | 0.1013 |
| uni-modal | qwen3 | 0.6B | 5.11% | 97.56% | 0.2468 | 0.1025 |
| multi-modal | uniecs | 200M | 4.54% | 94.62% | 0.2368 | 0.1007 |
| multi-modal | bge-vl | 149M | 4.23% | 94.46% | 0.2364 | 0.1009 |
| multi-modal | qwen3-vl | 2B | 4.86% | 95.27% | 0.2389 | 0.1012 |
| multi-modal | CLIP | 188M | 4.03% | 94.16% | 0.2358 | 0.1003 |
| KHQE | bge+kw. | 109M | 5.11% | 99.50% | 0.2542 | 0.1085 |
结论:单模态方法在所有规模上显著优于多模态方法,甚至小参数量的 bge-base 也超越更大的 qwen3-vl。这源于跨模态表征差异和冗余属性对编码效率的稀释。OneSearch 的 KHQE(基于 bge + 关键词的层次化量化)方案在所有指标上最优,验证了其在核心属性提取和层次化表征方面的优越性。
4. 思维增强的查询理解 (Section 3.2)¶
4.1 Keyword-based CoT 范式¶
完整的自由形式 CoT 推理产生冗长输出,小模型无法高效处理,且 SID(离散数字序列)与文本 CoT 的异质性增加了推理难度。因此论文提出关键词化的 CoT:将 LLM 推理浓缩为结构化的关键词集合,最大化信息密度。
三步关键词提取流程(Figure 3,详细 prompt 见 Appendix B Table 16):
Step 1: Query Analysis — 从四个维度分析 query:
- (i) 意图理解 (Intent Understanding):识别主要检索意图(商品搜索/功能需求/直播等)
- (ii) 品类识别 (Category Identification):从粗到细匹配品类
- (iii) 属性识别 (Attribute Recognition):提取 query 中显式出现的实体、品牌、颜色、材质等属性
- (iv) 主题推荐 (Topic Recommendation):推测满足用户需求的候选品类和商品
Step 2: Keyword Extraction — 从分析结果中提取关键词:
- 仅在"商品搜索"意图下提取,否则输出
Not extractable - 仅从 Topic Recommendation 部分提取
- 移除离题商品、营销用语,合并同义词
- 最多 8 个关键词,按热度降序排列
Step 3: Preference Calibration — 结合用户画像和行为历史校准关键词:
- 输入用户 profile、近期搜索、近期点击、候选关键词
- 输出最多 5 个个性化关键词
4.2 训练范式优化 (Section 3.2.2)¶
将 ⟨query, keywords⟩ 和 ⟨query, user, keywords⟩ 元组整合为四种 CoT 训练任务(Figure 3 下半部分),加入 SFT Stage 1 的语义对齐训练中。
CoT 增强效果 (Table 3)¶
在 Order (7229) 和 Click (30k) 数据集上(n=10):
| 模型 | Order HR@n | Order MRR@n | Click HR@n | Click MRR@n |
|---|---|---|---|---|
| baseline | 0.2046 | 0.0985 | 0.2231 | 0.0728 |
| + CoT tasks | 0.2094 | 0.1008 | 0.2266 | 0.0731 |
| + direct CoT | 0.0898 | 0.0189 | 0.1013 | 0.0146 |
| + RAG | 0.2139 | 0.1011 | 0.2327 | 0.0743 |
结论:
- 加入 CoT 训练任务带来稳定提升
- 直接生成 CoT(在解码前先输出完整 CoT 文本再生成 SID)严重退化,证实了文本 CoT 与数值 SID 的异质性对小模型的负面影响
- 将关键词作为 RAG 输入层注入效果最优,但推理时需额外调用 LLM 生成关键词,延迟不可接受
Head/Tail Query 分别效果 (Table 4)¶
| 模型 | Head HR@n | Head MRR@n | Tail HR@n | Tail MRR@n |
|---|---|---|---|---|
| baseline | 0.2362 | 0.0817 | 0.1952 | 0.0733 |
| + CoT tasks | 0.2419 | 0.0829 | 0.1963 | 0.0734 |
| + direct CoT | 0.1116 | 0.0180 | 0.0809 | 0.0120 |
| + RAG | 0.2438 | 0.0845 | 0.1973 | 0.0779 |
CoT 增强对 head 和 tail 查询均有一致提升,但 RAG 方式对 tail 查询的 MRR 提升尤为显著(+6.3%)。
5. 推理内化的自蒸馏 (Section 3.3)¶
5.1 核心思路¶
将 RAG 方式的关键词增强效果"内化"到模型权重中,无需推理时额外调用 LLM。采用信息不对称自蒸馏:teacher 和 student 共享同一模型参数 $\theta$,但 teacher 看到完整输入(含关键词),student 仅看到原始输入。
5.2 自蒸馏公式化 (Section 3.3.1)¶
设生成模型为 $\mathcal{M}_\theta$,teacher 输入包含个性化 keyword-based CoT:
$$x^{(T)} = (\text{uid}, q, \text{SID}_q, \text{Seq}_q, \text{Seq}_{\text{short}}, \text{Seq}_{\text{long}}^{\text{emb}}, \mathbf{kw})$$
Student 输入不含关键词:
$$x^{(S)} = (\text{uid}, q, \text{SID}_q, \text{Seq}_q, \text{Seq}_{\text{short}}, \text{Seq}_{\text{long}}^{\text{emb}})$$
两者对目标序列 $y = (y_1, \ldots, y_L)$ 产生 logits:
$$z^{(T)} = \mathcal{M}_\theta(y \mid x^{(T)}), \quad z^{(S)} = \mathcal{M}_\theta(y \mid x^{(S)})$$
蒸馏目标通过 KL 散度让 student 逼近 teacher 的输出分布:
$$\mathcal{L}_{\text{KL}} = \frac{1}{|\mathcal{V}|} \sum_{t \in \mathcal{V}} \text{KL}\Big(\text{softmax}(z_t^{(T)}/\tau) \,\Big\|\, \text{softmax}(z_t^{(S)}/\tau) \cdot \tau^2\Big)$$
其中 $\mathcal{V} = \{t : y_t \neq -100\}$ 是有效(非 padding)token 位置集合,$\tau$ 是蒸馏温度。Teacher 的 logits 从计算图中 detach(使用 torch.no_grad()),KL 梯度仅更新 student 路径。
基础训练目标:
$$\mathcal{L}_{\text{base}} = \mathcal{L}_{\text{CE}}(z^{(S)}, y) + \alpha_{\text{KL}} \cdot \mathcal{L}_{\text{KL}}$$
5.3 缓解表征不稳定性 (Section 3.3.2)¶
Teacher-student 之间的信息不对称导致 student 在语义模糊 query 上的表征变得脆弱,论文提出两种互补的正则化方法:
R-Drop 预测一致性正则化:对 student 输入执行两次 forward pass(使用不同 dropout mask),最小化两次输出分布的对称 KL 散度:
$$\mathcal{L}_{\text{R-Drop}} = \frac{1}{2}\Big[\text{KL}(P_1 \| P_2) + \text{KL}(P_2 \| P_1)\Big]$$
其中 $P_k = \text{softmax}(z_k^{(S)})$,KL 项仅计算有效 token 位置。此对称惩罚迫使模型不依赖对 dropout 噪声敏感的脆弱内部路径。
FGM 对抗扰动:对输入 embedding 空间施加 Fast Gradient Method 扰动:
$$r_{\text{adv}} = \epsilon \cdot \frac{\nabla_e \mathcal{L}_{\text{base}}}{\|\nabla_e \mathcal{L}_{\text{base}}\|_2}$$
其中 $e$ 是 embedding 参数,$\epsilon$ 控制扰动幅度。对扰动后的 embedding $e + r_{\text{adv}}$ 执行第二次 forward-backward pass 得到 $\mathcal{L}_{\text{adv}}$,平滑每个输入周围的 loss landscape。
5.4 总训练目标 (Section 3.3.3)¶
$$\mathcal{L}_{\text{SDFT}} = \mathcal{L}_{\text{CE}} + \alpha_{\text{KL}} \cdot \mathcal{L}_{\text{KL}} + \alpha_{\text{R}} \cdot \mathcal{L}_{\text{R-Drop}} + \mathcal{L}_{\text{adv}}$$
其中 $\mathcal{L}_{\text{adv}}$ 是扰动 embedding 上的 cross-entropy 和加权蒸馏 loss。标准 cross-entropy 使用 focal loss 替代以缓解 SID 词表中的类别不平衡问题。
5.5 自蒸馏各组件消融 (Table 6)¶
在 baseline 和自蒸馏模型上分别添加各正则化技术:
| 方法 | Order HR@10 | Order MRR@10 | Click HR@10 | Click MRR@10 |
|---|---|---|---|---|
| Baseline | 0.2046 | 0.0985 | 0.2231 | 0.0728 |
| + R-Drop | 0.2124 | 0.1020 | 0.2292 | 0.0733 |
| + FGM | 0.2109 | 0.1011 | 0.2279 | 0.0732 |
| + Focal Loss | 0.2074 | 0.1010 | 0.2237 | 0.0723 |
| Self-Distill | 0.2163 | 0.1017 | 0.2398 | 0.0757 |
| + R-Drop | 0.2168 | 0.1045 | 0.2398 | 0.0760 |
| + FGM | 0.2168 | 0.1050 | 0.2380 | 0.0757 |
| + Focal Loss | 0.2161 | 0.1042 | 0.2398 | 0.0753 |
结论:
- 自蒸馏本身是最大贡献者(+1.17% Order HR@10, +1.67% Click HR@10)
- R-Drop、FGM、Focal Loss 单独加入时各有小幅增益
- 三者组合产生显著放大效应(22.14% Order HR@10, 10.48% MRR@10),超出单独增益之和,说明信息不对称导致的表征不稳定性在多个维度上存在交互
5.6 自蒸馏 vs. Teacher-Student 分离 (Table 7)¶
| 方法 | Order HR@10 | Order MRR@10 | Click HR@10 | Click MRR@10 |
|---|---|---|---|---|
| Base (S) | 0.2094 | 0.1008 | 0.2266 | 0.0731 |
| Base (T) | 0.2139 | 0.1011 | 0.2327 | 0.0743 |
| Self-Distill (T) | 0.2155 | 0.1015 | 0.2397 | 0.0756 |
| Self-Distill (S) | 0.2163 | 0.1017 | 0.2398 | 0.0757 |
关键发现:Self-Distill (S) 在推理时不使用关键词,但略优于使用关键词的 Self-Distill (T)。作者推测这是因为 self-mode 蒸馏中 teacher 和 student 共享全部参数,student 的 loss(含 KL 项鼓励从截断输入准确预测)驱动全部梯度更新,使优化天然倾向于在信息不足条件下的鲁棒性,使 student 的泛化能力超越了 teacher 显式推理的能力。
5.7 自蒸馏 vs. 其他推理内化策略 (Table 8)¶
| 方法 | Order HR@10 | Order MRR@10 | Click HR@10 | Click MRR@10 |
|---|---|---|---|---|
| Baseline | 0.2094 | 0.1008 | 0.2266 | 0.0731 |
| (i) Special-token | 0.2092 | 0.0999 | 0.2335 | 0.0739 |
| (ii) Latent + CODI | 0.2105 | 0.0985 | 0.2269 | 0.0714 |
| (iii) EMA-mode | 0.2097 | 0.1009 | 0.2317 | 0.0746 |
| (iv) Joint-mode | 0.2156 | 0.1016 | 0.2348 | 0.0748 |
| Self-mode (ours) | 0.2163 | 0.1017 | 0.2398 | 0.0757 |
Self-mode 在所有指标上均优于其他推理内化策略(special-token 蒸馏、CODI 风格隐状态对齐、EMA-mode、Joint-mode),表明完全共享权重 + 输入级别信息不对称是最有效的范式。
5.8 CODI 风格方案的深入分析 (Table 11)¶
在 BART backbone 上进一步对比 CODI 风格配置:
| 方法 | Order HR@10 | Order MRR@10 | Click HR@10 | Click MRR@10 |
|---|---|---|---|---|
| Baseline | 0.2094 | 0.1008 | 0.2266 | 0.0731 |
| Self-Distill (KL) | 0.2163 | 0.1017 | 0.2398 | 0.0757 |
| CODI | 0.2105 | 0.0985 | 0.2269 | 0.0714 |
| CODI + Proj | 0.2092 | 0.0998 | 0.2270 | 0.0717 |
| CODI + Proj + SD | 0.2084 | 0.1002 | 0.2230 | 0.0720 |
CODI + Proj + SD(结合 L1 和 KL 蒸馏)反而低于单独使用任一方法。论文解释为:L1 将隐状态拉向 teacher 的层级几何结构,而 KL 塑造输出分布,两个目标的最优表征不同,互相冲突。纯 KL 公式允许模型自由组织内部表征,避免了此冲突。
6. 行为反馈偏好对齐 (Section 3.4)¶
6.1 动机¶
OneSearch-V1 使用独立训练的奖励模型 (RM) 的混合排序框架。该设计存在采样偏差(RM 训练数据仅覆盖窄用户子集)和奖励 hacking 的风险。OneRec-V2 用 Gradient-Bounded Policy Optimization (GBPO) 替代代理奖励,但电商搜索场景与短视频推荐有本质差异:(a) 搜索结果同时展示多个商品,用户交互遵循层级式模式(先点击再加购/购买);(b) 用户对 query-item 相关性约束更强。
6.2 复合奖励设计 (Section 3.4.1)¶
对每个 rollout $o_i$($L$ 个 token 的 SID 序列),计算三个互补信号:
相关性奖励 $R_{\text{Rel}}$:利用现有相关性系统将每个生成 item 分为四级:3-Excellent, 2-Related, 1-Mismatch, 0-Irrelevant。越高表示 ⟨query, item⟩ 匹配越好。
后验转化奖励 $R_{\text{CTR}}$:使用 OneSearch-V1 设计的校准后验 CTR(adaptive-weighted reward)作为稠密反馈信号,裁剪到 (0, 1) 区间,防止高 CTR 但低相关性的 item 获得过高奖励。
点击与下单奖励 $R_{\text{C\&O}}$:直接奖励用户实际点击和购买的 SID:
$$R_{\text{C\&O}}(o_i) = \begin{cases} V_o, & \text{if } o_i \in S_{\text{order}} \\ V_c, & \text{if } o_i \in S_{\text{click}} - S_{\text{order}} \\ 0, & \text{otherwise} \end{cases}$$
其中 $V_o$ 和 $V_c$ 是常数奖励值(论文设 $V_o = 3, V_c = 4$),购买高于点击体现更强偏好信号。
复合 item 级奖励:
$$R_{\text{item}}(o_i) = R_{\text{C\&O}}(o_i) + R_{\text{CTR}}(o_i) + R_{\text{FR}}(o_i)$$
加法设计避免了奖励稀疏性问题,平衡了语义匹配和商业转化。
6.3 标准 GRPO 的局限 (Section 3.4.2)¶
标准 GRPO 为每个 rollout 分配统一的序列级 advantage:
$$\hat{A}_i = \frac{R_i - \text{mean}_{j \in [G]}(R_j)}{\text{std}_{j \in [G]}(R_j) + \delta}$$
GRPO loss:
$$\mathcal{L}_{\text{GRPO}} = -\frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\Big(r_{i,t} \hat{A}_i, \text{clip}(r_{i,t}, 1-\varepsilon, 1+\varepsilon) \hat{A}_i\Big)$$
其中 $r_{i,t} = \pi_\theta(o_{i,t} \mid x_u, o_{i,\lt t}) / \pi_{\theta_{\text{old}}}(o_{i,t} \mid x_u, o_{i,\lt t})$ 是 per-token 重要性比率。
问题:SID 生成具有严格的层次化因果结构——第一个 token 编码最粗粒度品类,后续 token 逐步细化到具体属性。一个正确的前缀加错误的后缀,与一个完全错误的前缀,含义完全不同。统一的序列级 advantage 混淆了不同位置 token 的贡献,特别削弱了后面精细 token 的学习信号。
6.4 Token-Position Marginal Advantage (TPMA-GRPO) (Section 3.4.3)¶
Prefix Reward:定义位置 $l$ 的 prefix reward 为该前缀与任意 ground-truth 目标 SID 的最大累计匹配:
$$R_{i,l} = \max_{t \in \mathcal{T}} \sum_{k=1}^{l} [o_i^k = t^k] \cdot \Delta R_{i,l}, \quad l = 1, \ldots, L$$
其中 $\mathcal{T} = S_{\text{click}} \cup S_{\text{order}}$ 是 ground-truth SID 集合。位置 $l$ 的边际贡献 $\Delta R_{i,l}$ 设计为:
$$\Delta R_{i,l} = [l \lt 3] \cdot 2 + [3 \le l \lt L] \cdot 1, \quad R_{i,0} \triangleq 0$$
前 3 个位置(共享品类和层次化特征编码)的边际贡献权重为 2,后续位置(独特细粒度属性量化)权重为 1。
Position-Level Advantage:对每个位置 $l$,在 $G$ 个 rollout 内归一化:
$$\hat{A}_{i,l} = \frac{\Delta R_{i,l} - \text{mean}_{j \in [G]}(\Delta R_{j,l})}{\text{std}_{j \in [G]}(\Delta R_{j,l}) + \delta}$$
Prefix Gate:核心洞察——后续位置的梯度仅在前缀正确时才有意义。引入 prefix gate $g_{i,l}$:
$$g_{i,l} = [l = 1] \cdot 1 + [l \ge 2] \cdot \frac{R_{i,l-1}}{l - 1}$$
- 当前缀完全匹配时($R_{i,l-1} = l-1$),gate 完全打开($g = 1$)
- 当前缀完全不匹配时($R_{i,l-1} = 0$),gate 关闭($g = 0$),有效抑制下游 token 的梯度
- 自然形成层次化课程:模型先学会生成正确的粗粒度 token,再学习精细 token
Combined Advantage:结合 item 级转化信息:
$$\hat{A}_i^{\text{item}} = \frac{R_{\text{item}}(o_i) - \text{mean}_{j \in [G]}(R_{\text{item}}(o_j))}{\text{std}_{j \in [G]}(R_{\text{item}}(o_j)) + \delta}$$
$$\hat{A}_{i,l}^{\text{final}} = \hat{A}_{i,l} + w_{\text{item}} \cdot \hat{A}_i^{\text{item}}$$
$w_{\text{seq}}$ 控制结构化前缀匹配与商业转化信号之间的权衡。
TPMA-GRPO Loss:
$$\mathcal{L}_{\text{TPMA}} = -\frac{1}{G} \sum_{i=1}^{G} \frac{1}{L} \sum_{l=1}^{L} g_{i,l} \cdot r_{i,l} \cdot \hat{A}_{i,l}^{\text{final}}$$
其中 $r_{i,l} = \pi_\theta(o_{i,l} \mid x_u, o_{i,\lt l}) / \pi_{\theta_{\text{old}}}(o_{i,l} \mid x_u, o_{i,\lt l})$ 是 token 级重要性比率。注意故意省略了 clipping——prefix gate 在 $g_{i,l} \to 0$ 时自然抑制梯度爆炸,提供了比显式截断更灵活的稳定机制。这与 OneRec-V2 提出的 GBPO 在精神上相似,但通过灵活的结构化 gating 替代了显式截断。
7. 实验¶
7.1 实验设置¶
数据集:快手商城搜索平台过去三个月的用户交互对,最后一天日志作为测试集。
评估指标:HitRate (HR@n) 和 Mean Reciprocal Ranking (MRR@n),报告所有测试的平均值。
实现细节:
- 基础模型:Encoder-Decoder BART-B、Decoder-only GPT-2、Qwen3-0.6B
- 关键词 CoT 生成:Qwen3-32B
- Beam search size: 512
- Batch size: SFT 512, DPO 2048, GRPO 256
- 自蒸馏参数:self-mode(teacher/student 共享权重),$\tau = 1.0$,$\alpha_{\text{KL}} = 0.1$,$\alpha_R = 0.5$
- FGM 参数:$\epsilon = 0.6$
- Focal loss 参数:$\alpha = 2$,$\gamma = 3$
- TPMA-GRPO 参数:$V_o = 3$,$V_c = 4$
7.2 离线性能总表 (Table 5)¶
在工业数据集上的累积消融(BART-B backbone):
| 方法 | Order HR@10 | Order MRR@10 | Click HR@10 | Click MRR@10 |
|---|---|---|---|---|
| OneSearch | 0.2046 | 0.0985 | 0.2231 | 0.0728 |
| + CoT tasks | 0.2094 | 0.1008 | 0.2266 | 0.0731 |
| + self-distill | 0.2163 | 0.1017 | 0.2398 | 0.0757 |
| + rdrop | 0.2168 | 0.1045 | 0.2398 | 0.0760 |
| + FGM | 0.2180 | 0.1047 | 0.2422 | 0.0766 |
| + focal loss | 0.2214 | 0.1048 | 0.2471 | 0.0788 |
| + PARS | 0.2221 | 0.1067 | 0.2538 | 0.0809 |
| + GRPO | 0.2248 | 0.1106 | 0.2481 | 0.0798 |
| + TPMA | 0.2265 | 0.1136 | 0.2498 | 0.0815 |
| OneSearch-V2 | 0.2314 | 0.1151 | 0.2568 | 0.0833 |
OneSearch-V2 最终在 Order HR@10 上达到 0.2314(vs. baseline 0.2046,+13.1%),Click HR@10 达到 0.2568(vs. 0.2231,+15.1%)。
7.3 Valid SID Rate (Figure 4)¶
各优化步骤对 valid SID rate 的贡献:
- OneSearch baseline: Order ~95.5%, Click ~95.0%
- 每一步优化都提升了 SID rate
- OneSearch-V2 最终:Order SID Rate 99.20%,Click SID Rate 99.76%
7.4 跨架构泛化 (Appendix A)¶
GPT-2 上的自蒸馏累积性能 (Table 12):
| 方法 | Order HR@10 | Order MRR@10 | Click HR@10 | Click MRR@10 |
|---|---|---|---|---|
| Baseline | 0.2088 | 0.0993 | 0.2270 | 0.0733 |
| + self-distill | 0.2128 | 0.1011 | 0.2325 | 0.0734 |
| + R-Drop | 0.2168 | 0.1012 | 0.2380 | 0.0755 |
| + FGM | 0.2195 | 0.1030 | 0.2430 | 0.0775 |
| + focal loss | 0.2230 | 0.1050 | 0.2520 | 0.0802 |
Qwen3-0.6B 上的自蒸馏累积性能 (Table 13):
| 方法 | Order HR@10 | Order MRR@10 | Click HR@10 | Click MRR@10 |
|---|---|---|---|---|
| Baseline | 0.2195 | 0.1012 | 0.2503 | 0.0769 |
| + self-distill | 0.2266 | 0.1060 | 0.2568 | 0.0794 |
| + R-Drop | 0.2275 | 0.1070 | 0.2625 | 0.0800 |
| + FGM | 0.2295 | 0.1082 | 0.2629 | 0.0809 |
| + focal loss | 0.2310 | 0.1089 | 0.2632 | 0.0815 |
三种架构(BART-B encoder-decoder、GPT-2 decoder-only、Qwen3-0.6B decoder-only)均展现一致的累积提升模式,验证了方法的架构无关性。
7.5 在线 A/B 测试 (Section 4.3)¶
在快手商城搜索平台上进行严格在线 A/B 测试,对比 OneSearch-V1:
三阶段递进验证 (Table 9):
| 方法 | Item CTR | PV CTR | PV CVR | Buyer | Order |
|---|---|---|---|---|---|
| OneSearch-V2_RAG | +0.52% | +0.77% | +0.63% | +1.04% | +1.07% |
| OneSearch-V2_Reason | +2.59% | +1.42% | +2.21% | +1.50% | +1.57% |
| OneSearch-V2 | +3.98% | +1.17% | +2.90% | +2.07% | +2.11% |
所有提升均具有统计显著性(P-value < 0.05)。
行业维度分析 (Figure 5):Top/Middle/Tail 十大行业的 CTR 相对提升均为正,平均 +3.98%。服装鞋类、化妆品、五金电器等头部但语义模糊品类提升尤为明显。
用户/查询/商品维度分析 (Figure 6):
- 用户维度:高/中/低活跃度用户 CTR 均提升 4.52%-4.99%
- 查询维度:长尾 query 提升最大(5.37%),其次是高频(5.01%)和中频(4.88%)
- 商品维度:冷门商品提升最大(6.16%),其次是温门(5.69%)和热门(4.81%)
7.6 人工评估 (Table 10)¶
随机抽取 200 条 query,提取 3,200 个 query-item 对,人工评估三项指标:
| 指标 | Page Good Rate | Item Quality | Q-I Relevance |
|---|---|---|---|
| V2_Reason | +1.12% | +0.28% | +1.01% |
| V2_Full | +1.37% | +0.55% | +1.65% |
7.7 TPMA 灵活业务干预能力 (Section 4.4 Q3)¶
在快手 3.18 全球购物节期间,通过调整 relevance reward 为新兴商家加权($R_{\text{rel}}^{\text{new}} = R_{\text{rel}}^{\text{ori}} + 1$),成功将这些商家的商品提升到更高排位,item poster CTR 显著提高。这验证了 TPMA 框架支持实时业务干预和流式更新的能力,无需重新训练模型。
8. 总结与展望¶
OneSearch-V2 通过三项核心创新解决了 OneSearch-V1 在复杂查询理解、个性化推理和偏好对齐方面的局限:
- Keyword-based CoT + 自蒸馏:在不增加推理延迟的前提下,将 LLM 的推理能力内化到小模型的权重中
- 信息不对称自蒸馏 + R-Drop/FGM:通过自模式蒸馏和互补正则化技术稳健地内化推理能力
- TPMA-GRPO:用直接行为反馈替代独立奖励模型,通过位置级边际 advantage 和 prefix gate 实现对 SID 层次结构的精确信用分配
未来方向: 1. 长尾 query 的 beyond-logs 训练策略 2. 统一 SID tokenization 方案以覆盖视频、直播等异构内容类型 3. 面向 agentic 搜索系统的高效在线学习机制