OneSearch-V2: 潜在推理增强的自蒸馏生成式搜索框架¶

1. 研究背景与动机¶

OneSearch 是快手商城搜索部署的工业级端到端生成式搜索框架，将 query 作为输入直接生成候选商品的 Semantic ID (SID) 序列。尽管 OneSearch-V1 已取得显著的商业收益，但存在三个核心瓶颈：

1.1 复杂查询理解不足¶

典型搜索 query 仅由 2-3 个关键词组成，很多不直接指向具体商品。例如"室内健身器材"可能对应跑步机、哑铃但不包括山地自行车。长尾 query（如否定式"缓解疲劳，不要保健品"、问答式"游泳必需品有什么？"）更需要强语义理解和推理能力。这类复杂 query 在快手商城占总 PV 的约三分之一，但转化率仅 8%，远低于平均水平。OneSearch-V1 在 SFT Stage 1 中引入品类级监督，但模型仍缺乏对歧义 query 的深层理解能力。

1.2 用户意图的个性化推理不足¶

有效的电商搜索不仅需要理解 query 本身，还需要推理用户特定上下文。例如一位对花粉过敏的用户搜索"应季鲜花"，系统应推理出当前季节有哪些花开放，并主动排除过敏品种——即使这些品种历史转化率高。OneSearch-V1 的定期更新依赖历史共现模式和 log-fitting 目标，不可避免地产生浅层匹配，无法进行这种深层个性化推理。

1.3 奖励系统的分布偏差¶

OneSearch-V1 采用多阶段级联方式，由独立训练的奖励模型 (RM) 指导生成模型学习用户偏好。该设计存在三个问题：(1) RM 训练基于历史用户行为日志的窄子集采样，容易过拟合历史偏好分布；(2) 容易产生奖励 hacking（利用单一转化指标的漏洞）；(3) 无法及时适配新 query 和新意图。

2. OneSearch-V2 框架总览¶

OneSearch-V2 包含三个核心创新模块（见 Figure 2）：

思维增强的查询理解模块 (Thought-Augmented Query Understanding)：利用 LLM 为每个 query-user pair 生成显式的 keyword-based CoT，构建高密度关键词集合作为语义增强信号
推理内化的自蒸馏训练管线 (Reasoning-Internalized Self-Distillation)：通过信息不对称自蒸馏将 CoT 推理能力编码到模型权重中，无需推理时额外开销
行为反馈偏好对齐系统 (Behavior Feedback Preference Alignment)：直接使用用户交互反馈构建复合奖励，引入 Token-Position Marginal Advantage (TPMA) 机制实现位置级精细信用分配

训练流程概览¶

整体训练包含四个阶段（Table 2）：

阶段	SFT Stage 1	SFT Stage 2	SFT Stage 3	RL Stage
目标	语义对齐	⟨q, i⟩ 共现同步	用户个性化	偏好对齐
组件	query/item ↔ SID, query/item ↦ category, SID ↦ category, CoT tasks	query ↔ item, SID_q ↔ SID_i	uid & q, SID_q & Seq_q, Seq_short & Seq_long^emb, keywords (RAG) ↦ SID_q	user & query, seq. feat., item_click/order, item_rollout ↦ Rank Score

3. 单模态 vs. 多模态 SID Tokenization (Section 3.1)¶

论文首先探讨了电商搜索场景下单模态 vs. 多模态 SID 编码的选择。

实验对比 (Table 1)¶

在约 500 万在线点击 ⟨query, item⟩ 对上，使用统一 RQ-OPQ 框架进行 tokenization，评估 Recall@10 和 MRR@10：

类型	模型	参数量	CUR	ICR	Recall	MRR
uni-modal	bge-base	109M	4.54%	96.88%	0.2445	0.1013
uni-modal	qwen3	0.6B	5.11%	97.56%	0.2468	0.1025
multi-modal	uniecs	200M	4.54%	94.62%	0.2368	0.1007
multi-modal	bge-vl	149M	4.23%	94.46%	0.2364	0.1009
multi-modal	qwen3-vl	2B	4.86%	95.27%	0.2389	0.1012
multi-modal	CLIP	188M	4.03%	94.16%	0.2358	0.1003
KHQE	bge+kw.	109M	5.11%	99.50%	0.2542	0.1085

结论：单模态方法在所有规模上显著优于多模态方法，甚至小参数量的 bge-base 也超越更大的 qwen3-vl。这源于跨模态表征差异和冗余属性对编码效率的稀释。OneSearch 的 KHQE（基于 bge + 关键词的层次化量化）方案在所有指标上最优，验证了其在核心属性提取和层次化表征方面的优越性。

4. 思维增强的查询理解 (Section 3.2)¶

4.1 Keyword-based CoT 范式¶

完整的自由形式 CoT 推理产生冗长输出，小模型无法高效处理，且 SID（离散数字序列）与文本 CoT 的异质性增加了推理难度。因此论文提出关键词化的 CoT：将 LLM 推理浓缩为结构化的关键词集合，最大化信息密度。

三步关键词提取流程（Figure 3，详细 prompt 见 Appendix B Table 16）：

Step 1: Query Analysis — 从四个维度分析 query：

(i) 意图理解 (Intent Understanding)：识别主要检索意图（商品搜索/功能需求/直播等）
(ii) 品类识别 (Category Identification)：从粗到细匹配品类
(iii) 属性识别 (Attribute Recognition)：提取 query 中显式出现的实体、品牌、颜色、材质等属性
(iv) 主题推荐 (Topic Recommendation)：推测满足用户需求的候选品类和商品

Step 2: Keyword Extraction — 从分析结果中提取关键词：

仅在"商品搜索"意图下提取，否则输出 Not extractable
仅从 Topic Recommendation 部分提取
移除离题商品、营销用语，合并同义词
最多 8 个关键词，按热度降序排列

Step 3: Preference Calibration — 结合用户画像和行为历史校准关键词：

输入用户 profile、近期搜索、近期点击、候选关键词
输出最多 5 个个性化关键词

4.2 训练范式优化 (Section 3.2.2)¶

将 ⟨query, keywords⟩ 和 ⟨query, user, keywords⟩ 元组整合为四种 CoT 训练任务（Figure 3 下半部分），加入 SFT Stage 1 的语义对齐训练中。

CoT 增强效果 (Table 3)¶

在 Order (7229) 和 Click (30k) 数据集上（n=10）：

模型	Order HR@n	Order MRR@n	Click HR@n	Click MRR@n
baseline	0.2046	0.0985	0.2231	0.0728
+ CoT tasks	0.2094	0.1008	0.2266	0.0731
+ direct CoT	0.0898	0.0189	0.1013	0.0146
+ RAG	0.2139	0.1011	0.2327	0.0743

结论：

加入 CoT 训练任务带来稳定提升
直接生成 CoT（在解码前先输出完整 CoT 文本再生成 SID）严重退化，证实了文本 CoT 与数值 SID 的异质性对小模型的负面影响
将关键词作为 RAG 输入层注入效果最优，但推理时需额外调用 LLM 生成关键词，延迟不可接受

Head/Tail Query 分别效果 (Table 4)¶

模型	Head HR@n	Head MRR@n	Tail HR@n	Tail MRR@n
baseline	0.2362	0.0817	0.1952	0.0733
+ CoT tasks	0.2419	0.0829	0.1963	0.0734
+ direct CoT	0.1116	0.0180	0.0809	0.0120
+ RAG	0.2438	0.0845	0.1973	0.0779

CoT 增强对 head 和 tail 查询均有一致提升，但 RAG 方式对 tail 查询的 MRR 提升尤为显著（+6.3%）。

5. 推理内化的自蒸馏 (Section 3.3)¶

5.1 核心思路¶

将 RAG 方式的关键词增强效果"内化"到模型权重中，无需推理时额外调用 LLM。采用信息不对称自蒸馏：teacher 和 student 共享同一模型参数 $\theta$，但 teacher 看到完整输入（含关键词），student 仅看到原始输入。

5.2 自蒸馏公式化 (Section 3.3.1)¶

设生成模型为 $\mathcal{M}_\theta$，teacher 输入包含个性化 keyword-based CoT：

$$x^{(T)} = (\text{uid}, q, \text{SID}_q, \text{Seq}_q, \text{Seq}_{\text{short}}, \text{Seq}_{\text{long}}^{\text{emb}}, \mathbf{kw})$$

Student 输入不含关键词：

$$x^{(S)} = (\text{uid}, q, \text{SID}_q, \text{Seq}_q, \text{Seq}_{\text{short}}, \text{Seq}_{\text{long}}^{\text{emb}})$$

两者对目标序列 $y = (y_1, \ldots, y_L)$ 产生 logits：

$$z^{(T)} = \mathcal{M}_\theta(y \mid x^{(T)}), \quad z^{(S)} = \mathcal{M}_\theta(y \mid x^{(S)})$$

蒸馏目标通过 KL 散度让 student 逼近 teacher 的输出分布：

$$\mathcal{L}_{\text{KL}} = \frac{1}{|\mathcal{V}|} \sum_{t \in \mathcal{V}} \text{KL}\Big(\text{softmax}(z_t^{(T)}/\tau) \,\Big\|\, \text{softmax}(z_t^{(S)}/\tau) \cdot \tau^2\Big)$$

其中 $\mathcal{V} = \{t : y_t \neq -100\}$ 是有效（非 padding）token 位置集合，$\tau$ 是蒸馏温度。Teacher 的 logits 从计算图中 detach（使用 torch.no_grad()），KL 梯度仅更新 student 路径。

基础训练目标：

$$\mathcal{L}_{\text{base}} = \mathcal{L}_{\text{CE}}(z^{(S)}, y) + \alpha_{\text{KL}} \cdot \mathcal{L}_{\text{KL}}$$

5.3 缓解表征不稳定性 (Section 3.3.2)¶

Teacher-student 之间的信息不对称导致 student 在语义模糊 query 上的表征变得脆弱，论文提出两种互补的正则化方法：

R-Drop 预测一致性正则化：对 student 输入执行两次 forward pass（使用不同 dropout mask），最小化两次输出分布的对称 KL 散度：

$$\mathcal{L}_{\text{R-Drop}} = \frac{1}{2}\Big[\text{KL}(P_1 \| P_2) + \text{KL}(P_2 \| P_1)\Big]$$

其中 $P_k = \text{softmax}(z_k^{(S)})$，KL 项仅计算有效 token 位置。此对称惩罚迫使模型不依赖对 dropout 噪声敏感的脆弱内部路径。

FGM 对抗扰动：对输入 embedding 空间施加 Fast Gradient Method 扰动：

$$r_{\text{adv}} = \epsilon \cdot \frac{\nabla_e \mathcal{L}_{\text{base}}}{\|\nabla_e \mathcal{L}_{\text{base}}\|_2}$$

其中 $e$ 是 embedding 参数，$\epsilon$ 控制扰动幅度。对扰动后的 embedding $e + r_{\text{adv}}$ 执行第二次 forward-backward pass 得到 $\mathcal{L}_{\text{adv}}$，平滑每个输入周围的 loss landscape。

5.4 总训练目标 (Section 3.3.3)¶

$$\mathcal{L}_{\text{SDFT}} = \mathcal{L}_{\text{CE}} + \alpha_{\text{KL}} \cdot \mathcal{L}_{\text{KL}} + \alpha_{\text{R}} \cdot \mathcal{L}_{\text{R-Drop}} + \mathcal{L}_{\text{adv}}$$

其中 $\mathcal{L}_{\text{adv}}$ 是扰动 embedding 上的 cross-entropy 和加权蒸馏 loss。标准 cross-entropy 使用 focal loss 替代以缓解 SID 词表中的类别不平衡问题。

5.5 自蒸馏各组件消融 (Table 6)¶

在 baseline 和自蒸馏模型上分别添加各正则化技术：

方法	Order HR@10	Order MRR@10	Click HR@10	Click MRR@10
Baseline	0.2046	0.0985	0.2231	0.0728
+ R-Drop	0.2124	0.1020	0.2292	0.0733
+ FGM	0.2109	0.1011	0.2279	0.0732
+ Focal Loss	0.2074	0.1010	0.2237	0.0723
Self-Distill	0.2163	0.1017	0.2398	0.0757
+ R-Drop	0.2168	0.1045	0.2398	0.0760
+ FGM	0.2168	0.1050	0.2380	0.0757
+ Focal Loss	0.2161	0.1042	0.2398	0.0753

结论：

自蒸馏本身是最大贡献者（+1.17% Order HR@10, +1.67% Click HR@10）
R-Drop、FGM、Focal Loss 单独加入时各有小幅增益
三者组合产生显著放大效应（22.14% Order HR@10, 10.48% MRR@10），超出单独增益之和，说明信息不对称导致的表征不稳定性在多个维度上存在交互

5.6 自蒸馏 vs. Teacher-Student 分离 (Table 7)¶

方法	Order HR@10	Order MRR@10	Click HR@10	Click MRR@10
Base (S)	0.2094	0.1008	0.2266	0.0731
Base (T)	0.2139	0.1011	0.2327	0.0743
Self-Distill (T)	0.2155	0.1015	0.2397	0.0756
Self-Distill (S)	0.2163	0.1017	0.2398	0.0757

关键发现：Self-Distill (S) 在推理时不使用关键词，但略优于使用关键词的 Self-Distill (T)。作者推测这是因为 self-mode 蒸馏中 teacher 和 student 共享全部参数，student 的 loss（含 KL 项鼓励从截断输入准确预测）驱动全部梯度更新，使优化天然倾向于在信息不足条件下的鲁棒性，使 student 的泛化能力超越了 teacher 显式推理的能力。

5.7 自蒸馏 vs. 其他推理内化策略 (Table 8)¶

方法	Order HR@10	Order MRR@10	Click HR@10	Click MRR@10
Baseline	0.2094	0.1008	0.2266	0.0731
(i) Special-token	0.2092	0.0999	0.2335	0.0739
(ii) Latent + CODI	0.2105	0.0985	0.2269	0.0714
(iii) EMA-mode	0.2097	0.1009	0.2317	0.0746
(iv) Joint-mode	0.2156	0.1016	0.2348	0.0748
Self-mode (ours)	0.2163	0.1017	0.2398	0.0757

Self-mode 在所有指标上均优于其他推理内化策略（special-token 蒸馏、CODI 风格隐状态对齐、EMA-mode、Joint-mode），表明完全共享权重 + 输入级别信息不对称是最有效的范式。

5.8 CODI 风格方案的深入分析 (Table 11)¶

在 BART backbone 上进一步对比 CODI 风格配置：

方法	Order HR@10	Order MRR@10	Click HR@10	Click MRR@10
Baseline	0.2094	0.1008	0.2266	0.0731
Self-Distill (KL)	0.2163	0.1017	0.2398	0.0757
CODI	0.2105	0.0985	0.2269	0.0714
CODI + Proj	0.2092	0.0998	0.2270	0.0717
CODI + Proj + SD	0.2084	0.1002	0.2230	0.0720

CODI + Proj + SD（结合 L1 和 KL 蒸馏）反而低于单独使用任一方法。论文解释为：L1 将隐状态拉向 teacher 的层级几何结构，而 KL 塑造输出分布，两个目标的最优表征不同，互相冲突。纯 KL 公式允许模型自由组织内部表征，避免了此冲突。

6. 行为反馈偏好对齐 (Section 3.4)¶

6.1 动机¶

OneSearch-V1 使用独立训练的奖励模型 (RM) 的混合排序框架。该设计存在采样偏差（RM 训练数据仅覆盖窄用户子集）和奖励 hacking 的风险。OneRec-V2 用 Gradient-Bounded Policy Optimization (GBPO) 替代代理奖励，但电商搜索场景与短视频推荐有本质差异：(a) 搜索结果同时展示多个商品，用户交互遵循层级式模式（先点击再加购/购买）；(b) 用户对 query-item 相关性约束更强。

6.2 复合奖励设计 (Section 3.4.1)¶

对每个 rollout $o_i$（$L$ 个 token 的 SID 序列），计算三个互补信号：

相关性奖励 $R_{\text{Rel}}$：利用现有相关性系统将每个生成 item 分为四级：3-Excellent, 2-Related, 1-Mismatch, 0-Irrelevant。越高表示 ⟨query, item⟩ 匹配越好。

后验转化奖励 $R_{\text{CTR}}$：使用 OneSearch-V1 设计的校准后验 CTR（adaptive-weighted reward）作为稠密反馈信号，裁剪到 (0, 1) 区间，防止高 CTR 但低相关性的 item 获得过高奖励。

点击与下单奖励 $R_{\text{C\&O}}$：直接奖励用户实际点击和购买的 SID：

$$R_{\text{C\&O}}(o_i) = \begin{cases} V_o, & \text{if } o_i \in S_{\text{order}} \\ V_c, & \text{if } o_i \in S_{\text{click}} - S_{\text{order}} \\ 0, & \text{otherwise} \end{cases}$$

其中 $V_o$ 和 $V_c$ 是常数奖励值（论文设 $V_o = 3, V_c = 4$），购买高于点击体现更强偏好信号。

复合 item 级奖励：

$$R_{\text{item}}(o_i) = R_{\text{C\&O}}(o_i) + R_{\text{CTR}}(o_i) + R_{\text{FR}}(o_i)$$

加法设计避免了奖励稀疏性问题，平衡了语义匹配和商业转化。

6.3 标准 GRPO 的局限 (Section 3.4.2)¶

标准 GRPO 为每个 rollout 分配统一的序列级 advantage：

$$\hat{A}_i = \frac{R_i - \text{mean}_{j \in [G]}(R_j)}{\text{std}_{j \in [G]}(R_j) + \delta}$$

GRPO loss：

$$\mathcal{L}_{\text{GRPO}} = -\frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\Big(r_{i,t} \hat{A}_i, \text{clip}(r_{i,t}, 1-\varepsilon, 1+\varepsilon) \hat{A}_i\Big)$$

其中 $r_{i,t} = \pi_\theta(o_{i,t} \mid x_u, o_{i,\lt t}) / \pi_{\theta_{\text{old}}}(o_{i,t} \mid x_u, o_{i,\lt t})$ 是 per-token 重要性比率。

问题：SID 生成具有严格的层次化因果结构——第一个 token 编码最粗粒度品类，后续 token 逐步细化到具体属性。一个正确的前缀加错误的后缀，与一个完全错误的前缀，含义完全不同。统一的序列级 advantage 混淆了不同位置 token 的贡献，特别削弱了后面精细 token 的学习信号。

6.4 Token-Position Marginal Advantage (TPMA-GRPO) (Section 3.4.3)¶

Prefix Reward：定义位置 $l$ 的 prefix reward 为该前缀与任意 ground-truth 目标 SID 的最大累计匹配：

$$R_{i,l} = \max_{t \in \mathcal{T}} \sum_{k=1}^{l} [o_i^k = t^k] \cdot \Delta R_{i,l}, \quad l = 1, \ldots, L$$

其中 $\mathcal{T} = S_{\text{click}} \cup S_{\text{order}}$ 是 ground-truth SID 集合。位置 $l$ 的边际贡献 $\Delta R_{i,l}$ 设计为：

$$\Delta R_{i,l} = [l \lt 3] \cdot 2 + [3 \le l \lt L] \cdot 1, \quad R_{i,0} \triangleq 0$$

前 3 个位置（共享品类和层次化特征编码）的边际贡献权重为 2，后续位置（独特细粒度属性量化）权重为 1。

Position-Level Advantage：对每个位置 $l$，在 $G$ 个 rollout 内归一化：

$$\hat{A}_{i,l} = \frac{\Delta R_{i,l} - \text{mean}_{j \in [G]}(\Delta R_{j,l})}{\text{std}_{j \in [G]}(\Delta R_{j,l}) + \delta}$$

Prefix Gate：核心洞察——后续位置的梯度仅在前缀正确时才有意义。引入 prefix gate $g_{i,l}$：

$$g_{i,l} = [l = 1] \cdot 1 + [l \ge 2] \cdot \frac{R_{i,l-1}}{l - 1}$$

当前缀完全匹配时（$R_{i,l-1} = l-1$），gate 完全打开（$g = 1$）
当前缀完全不匹配时（$R_{i,l-1} = 0$），gate 关闭（$g = 0$），有效抑制下游 token 的梯度
自然形成层次化课程：模型先学会生成正确的粗粒度 token，再学习精细 token

Combined Advantage：结合 item 级转化信息：

$$\hat{A}_i^{\text{item}} = \frac{R_{\text{item}}(o_i) - \text{mean}_{j \in [G]}(R_{\text{item}}(o_j))}{\text{std}_{j \in [G]}(R_{\text{item}}(o_j)) + \delta}$$

$$\hat{A}_{i,l}^{\text{final}} = \hat{A}_{i,l} + w_{\text{item}} \cdot \hat{A}_i^{\text{item}}$$

$w_{\text{seq}}$ 控制结构化前缀匹配与商业转化信号之间的权衡。

TPMA-GRPO Loss：

$$\mathcal{L}_{\text{TPMA}} = -\frac{1}{G} \sum_{i=1}^{G} \frac{1}{L} \sum_{l=1}^{L} g_{i,l} \cdot r_{i,l} \cdot \hat{A}_{i,l}^{\text{final}}$$

其中 $r_{i,l} = \pi_\theta(o_{i,l} \mid x_u, o_{i,\lt l}) / \pi_{\theta_{\text{old}}}(o_{i,l} \mid x_u, o_{i,\lt l})$ 是 token 级重要性比率。注意故意省略了 clipping——prefix gate 在 $g_{i,l} \to 0$ 时自然抑制梯度爆炸，提供了比显式截断更灵活的稳定机制。这与 OneRec-V2 提出的 GBPO 在精神上相似，但通过灵活的结构化 gating 替代了显式截断。

7. 实验¶

7.1 实验设置¶

数据集：快手商城搜索平台过去三个月的用户交互对，最后一天日志作为测试集。

评估指标：HitRate (HR@n) 和 Mean Reciprocal Ranking (MRR@n)，报告所有测试的平均值。

实现细节：

基础模型：Encoder-Decoder BART-B、Decoder-only GPT-2、Qwen3-0.6B
关键词 CoT 生成：Qwen3-32B
Beam search size: 512
Batch size: SFT 512, DPO 2048, GRPO 256
自蒸馏参数：self-mode（teacher/student 共享权重），$\tau = 1.0$，$\alpha_{\text{KL}} = 0.1$，$\alpha_R = 0.5$
FGM 参数：$\epsilon = 0.6$
Focal loss 参数：$\alpha = 2$，$\gamma = 3$
TPMA-GRPO 参数：$V_o = 3$，$V_c = 4$

7.2 离线性能总表 (Table 5)¶

在工业数据集上的累积消融（BART-B backbone）：

方法	Order HR@10	Order MRR@10	Click HR@10	Click MRR@10
OneSearch	0.2046	0.0985	0.2231	0.0728
+ CoT tasks	0.2094	0.1008	0.2266	0.0731
+ self-distill	0.2163	0.1017	0.2398	0.0757
+ rdrop	0.2168	0.1045	0.2398	0.0760
+ FGM	0.2180	0.1047	0.2422	0.0766
+ focal loss	0.2214	0.1048	0.2471	0.0788
+ PARS	0.2221	0.1067	0.2538	0.0809
+ GRPO	0.2248	0.1106	0.2481	0.0798
+ TPMA	0.2265	0.1136	0.2498	0.0815
OneSearch-V2	0.2314	0.1151	0.2568	0.0833

OneSearch-V2 最终在 Order HR@10 上达到 0.2314（vs. baseline 0.2046，+13.1%），Click HR@10 达到 0.2568（vs. 0.2231，+15.1%）。

7.3 Valid SID Rate (Figure 4)¶

各优化步骤对 valid SID rate 的贡献：

OneSearch baseline: Order ~95.5%, Click ~95.0%
每一步优化都提升了 SID rate
OneSearch-V2 最终：Order SID Rate 99.20%，Click SID Rate 99.76%

7.4 跨架构泛化 (Appendix A)¶

GPT-2 上的自蒸馏累积性能 (Table 12)：

方法	Order HR@10	Order MRR@10	Click HR@10	Click MRR@10
Baseline	0.2088	0.0993	0.2270	0.0733
+ self-distill	0.2128	0.1011	0.2325	0.0734
+ R-Drop	0.2168	0.1012	0.2380	0.0755
+ FGM	0.2195	0.1030	0.2430	0.0775
+ focal loss	0.2230	0.1050	0.2520	0.0802

Qwen3-0.6B 上的自蒸馏累积性能 (Table 13)：

方法	Order HR@10	Order MRR@10	Click HR@10	Click MRR@10
Baseline	0.2195	0.1012	0.2503	0.0769
+ self-distill	0.2266	0.1060	0.2568	0.0794
+ R-Drop	0.2275	0.1070	0.2625	0.0800
+ FGM	0.2295	0.1082	0.2629	0.0809
+ focal loss	0.2310	0.1089	0.2632	0.0815

三种架构（BART-B encoder-decoder、GPT-2 decoder-only、Qwen3-0.6B decoder-only）均展现一致的累积提升模式，验证了方法的架构无关性。

7.5 在线 A/B 测试 (Section 4.3)¶

在快手商城搜索平台上进行严格在线 A/B 测试，对比 OneSearch-V1：

三阶段递进验证 (Table 9)：

方法	Item CTR	PV CTR	PV CVR	Buyer	Order
OneSearch-V2_RAG	+0.52%	+0.77%	+0.63%	+1.04%	+1.07%
OneSearch-V2_Reason	+2.59%	+1.42%	+2.21%	+1.50%	+1.57%
OneSearch-V2	+3.98%	+1.17%	+2.90%	+2.07%	+2.11%

所有提升均具有统计显著性（P-value < 0.05）。

行业维度分析 (Figure 5)：Top/Middle/Tail 十大行业的 CTR 相对提升均为正，平均 +3.98%。服装鞋类、化妆品、五金电器等头部但语义模糊品类提升尤为明显。

用户/查询/商品维度分析 (Figure 6)：

用户维度：高/中/低活跃度用户 CTR 均提升 4.52%-4.99%
查询维度：长尾 query 提升最大（5.37%），其次是高频（5.01%）和中频（4.88%）
商品维度：冷门商品提升最大（6.16%），其次是温门（5.69%）和热门（4.81%）

7.6 人工评估 (Table 10)¶

随机抽取 200 条 query，提取 3,200 个 query-item 对，人工评估三项指标：

指标	Page Good Rate	Item Quality	Q-I Relevance
V2_Reason	+1.12%	+0.28%	+1.01%
V2_Full	+1.37%	+0.55%	+1.65%

7.7 TPMA 灵活业务干预能力 (Section 4.4 Q3)¶

在快手 3.18 全球购物节期间，通过调整 relevance reward 为新兴商家加权（$R_{\text{rel}}^{\text{new}} = R_{\text{rel}}^{\text{ori}} + 1$），成功将这些商家的商品提升到更高排位，item poster CTR 显著提高。这验证了 TPMA 框架支持实时业务干预和流式更新的能力，无需重新训练模型。

8. 总结与展望¶

OneSearch-V2 通过三项核心创新解决了 OneSearch-V1 在复杂查询理解、个性化推理和偏好对齐方面的局限：

Keyword-based CoT + 自蒸馏：在不增加推理延迟的前提下，将 LLM 的推理能力内化到小模型的权重中
信息不对称自蒸馏 + R-Drop/FGM：通过自模式蒸馏和互补正则化技术稳健地内化推理能力
TPMA-GRPO：用直接行为反馈替代独立奖励模型，通过位置级边际 advantage 和 prefix gate 实现对 SID 层次结构的精确信用分配

未来方向： 1. 长尾 query 的 beyond-logs 训练策略 2. 统一 SID tokenization 方案以覆盖视频、直播等异构内容类型 3. 面向 agentic 搜索系统的高效在线学习机制