← Back to list
OneSearch

OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

生成式推荐 Kuaishou
Abstract 8 Reading 8 Rating —
2025-09-03
Ben Chen, Xian Guo, Siyuan Wang, Zihan Liang, Yue Lv, Yufei Ma, Xinlong Xiao, Bowen Xue, Xuxin Zhang, Ying Yang, Huangyu Dai, Xing Xu, Tong Zhao, Mingcan Peng, Xiaoyang Zheng, Chao Wang, Qihang Zhao, Zhixin Zhai, Yang Zhao, Bochao Liu, Jingshan Lv, Xiao Liang, Yuqing Ding, Jing Chen, Chenyi Lei, Wenwu Ou, Han Li, Kun Gai
Kuaishou Technology
提出首个工业部署的端到端生成式电商搜索框架 OneSearch,通过关键词增强层次化量化编码、多视角行为序列注入和偏好感知奖励系统,在快手商城搜索上线后 Item CTR +1.67%、订单量 +3.22%,OPEX 节省 75.40%
search-ranking industrial transformer semantic-id rl
目录

OneSearch: 面向电商搜索的统一端到端生成式框架

1. 研究背景与动机

1.1 传统多阶段级联架构(MCA)的局限

传统电商搜索系统采用多阶段级联架构(Multi-stage Cascading Architecture, MCA),包含召回(~$10^9$)、粗排(~$10^4$)、精排(~$10^2$) 三个阶段,逐级过滤候选商品。MCA 存在两个核心问题:

  1. 计算碎片化 (Fragmented Compute):大量 serving 资源用于通信和存储而非高精度计算
  2. 目标冲突 (Objective Collision):不同阶段采用不同优化目标和模型结构,召回阶段使用轻量模型检索所有相关商品,排序阶段利用用户历史序列、query 及商品统计特征进行复杂推理。多层漏斗导致用户真正感兴趣的商品被提前两弃,各阶段异构优化目标限制了系统的性能上限

1.2 电商搜索的特殊挑战

相比推荐场景,电商搜索面临三个独特难点:

  1. 低密度且含噪的商品信息:商品标题、关键词、详情页文本冗长且充斥卖家为增加曝光添加的无关关键词,语义顺序弱,品牌名、属性词等随意分布,全局语义连贯性差
  2. 强相关性约束:搜索 query 通常只有 2-3 个短关键词,query 与商品之间的属性匹配要求严格,任何属性不匹配都会导致严重的相关性问题
  3. 用户搜索意图推理:当用户输入简短 query 或搜索全新品类时,需要结合 query 内容与用户行为画像推断真实搜索意图

1.3 生成式检索(GR)的发展

近两年,生成式检索范式将传统的匹配框架转化为生成方式:

  • Tiger [31] 首创端到端生成式推荐模型,引入从商品内容信息派生的语义 ID (SID)
  • LC-REC [45] 将协同过滤语义整合到 LLM 中
  • OneRec [5] 首次在视频推荐场景统一了召回、粗排和精排
  • OneSug [12] 首个端到端生成式电商 query 联想框架
  • EGA [46] 面向广告的端到端生成框架

然而,这些方法不直接适用于电商搜索,因为搜索的输入输出均为 open-vocabulary(Query -> Item),与推荐(closed-vocabulary Item -> Item)和 query 联想(open-vocabulary Prefix -> Query)存在本质区别。

2. OneSearch 框架概述

OneSearch 包含四个核心模块(见 Figure 4):

  1. 关键词增强层次化量化编码 (KHQE):基于对齐表征和核心关键词构建层次化量化 tokenization
  2. 多视角行为序列注入 (Mu-Seq):将行为序列注入用户 ID 表征,显式输入短期行为序列、隐式编码长期行为序列
  3. 统一的 Encoder-Decoder 架构:整合用户画像特征的生成式检索架构
  4. 偏好感知奖励系统 (PARS):包含多阶段 SFT 流程和自适应奖励模型的个性化排序能力

3. 层次化量化编码 (Hierarchical Quantization Encoding)

3.1 对齐的协同语义表征 (Aligned Collaborative and Semantic Representation)

利用领域知识提取 query 和商品的核心属性,学习语义和协同信号对齐的表征。使用 RQ-Kmeans 进行层次化特征编码,使用 OPQ 量化每个商品的独特特征。

数据构建

从真实用户搜索日志中筛选高质量的 query2query、item2item、query2item 交互对:

  • 使用 ItemCF [32] 和 Swing [41] 等协同过滤模型从日志中挖掘交互对
  • 收集 query 文本、商品标题、价格、关键词、OCR (图文) 等内容信息和统计业务特征(展示数、点击数、加购数、购买数)
  • 使用蒸馏版 BGE [38] 为每个 query $e_q$ 和商品 $e_i$ 生成内容 embedding
  • 过滤余弦相似度 > 0.6 的配对,确保内容相关

表征对齐损失

设计四类相关任务联合训练:

$$\mathcal{L}_{align} = \lambda_1 \cdot \mathcal{L}_{q2q} + \lambda_2 \cdot \mathcal{L}_{i2i} + \lambda_3 \cdot \mathcal{L}_{q2i} + \lambda_4 \cdot \mathcal{L}_{rank} + \lambda_5 \cdot \mathcal{L}_{rel} \quad (1)$$

其中: 1. $\mathcal{L}_{q2q}$, $\mathcal{L}_{i2i}$:query2query 和 item2item 对比损失,对齐协同相似对的表征 2. $\mathcal{L}_{q2i}$:query2item 对比损失,确保 BGE 能反映真实业务特征 3. $\mathcal{L}_{rank}$:query2item margin loss,学习不同行为层级(展示、点击、加购、下单)query-item 对的协同信号差异 4. $\mathcal{L}_{rel}$:硬相关性校正损失,使用 LLM 对阈值相似度以上的配对评分

3.2 核心关键词增强 (Core Keyword Enhancement)

商品文本信息含大量冗余无关词,语义顺序弱。论文提出用核心关键词增强文本表征,使语义 ID 由核心关键词主导。

具体方法:

  • 使用命名实体识别(NER)识别 18 种结构化属性(Entity, Modifier, Brand, Material, Style, Function, Location, Audience, Color, Marketing, Season, Pattern, Scene, Specifications, Price, Model, Anchor, Series)
  • 从过去一年的 query-item 点击对中按 PV 降序编制各属性的高频关键词列表
  • 使用 Qwen-VL [2] 识别商品对应的核心关键词
  • 对 query 使用 Aho-Corasick 自动机 [1] 进行实时快速匹配

关键词增强后的最终表征:

$$e_q^o = \frac{1}{2}(e_q + \frac{1}{m}\sum_{k=1}^{m} e_k^f), \quad e_i^o = \frac{1}{2}(e_i + \frac{1}{n}\sum_{j=1}^{n} e_j^f) \quad (2)$$

3.3 RQ-OPQ 层次化量化 Tokenization

为什么不直接用 RQ-Kmeans 或 OPQ

  • RQ-VAE / VQ-VAE / RQ-Kmeans:倾向于编码相似商品的共享信号,导致每个商品的独特属性丢失。许多相似但不相同的商品共享相同 SID,降低 codebook 利用率和独立编码率
  • FSQ / OPQ:保留每个商品尽可能多的有效信息,但无法层次化表达相似商品的核心属性共性

因此,OneSearch 组合两种范式:RQ-Kmeans 处理层次化语义,OPQ 处理横向独特特征

配置与评估

基础 codebook 大小 1024,codebook 层数 C = 3(RQ-Kmeans 3 层 + OPQ 2 层),每层 codebook 大小 W = (4096, 1024, 512 | 256, 256)。

评估指标:

  • CUR (Codebook Utilization Rate):codebook 利用率
  • ICR (Independent Coding Rate):独立编码率

Table 2: 不同 RQ-Kmeans 配置的 CUR 和 ICR

配置 $CUR_{L1}$ $CUR_{L1+L2}$ $CUR_{Total}$ ICR
1024-1024-1024 100% 54.27% 1.72% 36.67%
+keywords 100% 65.40% 2.03% 40.25%
2048-1024-512 100% 46.88% 1.98% 37.80%
+keywords 100% 57.16% 2.51% 40.76%
4096-1024-256 99.90% 39.21% 2.27% 36.98%
+keywords 100% 48.95% 2.94% 40.52%
+l3 balanced 100% 48.95% 10.31% 60.01%
4096-1024-512 99.90% 39.21% 1.30% 40.54%
+keywords 100% 48.95% 1.64% 43.32%
+l3 balanced 100% 48.95% 7.03% 68.08%
4096-1024-512+ (balanced all) 99.93% 41.45% 0.51% 33.47%

关键发现:

  • codebook 大小 4096 在各层 CUR 和 ICR 上表现最优
  • 核心关键词增强在各配置下一致性提升 CUR 和 ICR(如 4096-1024-512 配置,ICR 从 36.98% 提升至 40.52%)
  • 全层 balanced k-means 会导致细粒度属性商品被聚到同一 cluster,$CUR_{Total}$ 从 48.95% 骤降至 1.64%,ICR 仅 33.47%
  • 仅在第三层使用 balanced k-means(+l3 balanced)效果最佳,$CUR_{Total}$ 从 1.64% 提升至 7.03%,ICR 提升 57.15%

Table 3: 三种 Tokenization 方案性能对比(真实点击对评估)

方法 $CUR_{Total}$ ICR Recall@10 MRR@10
OnlineMCA - - 0.3440 0.1323
RQ-VAE 1.17% 38.83% 0.2171 0.0689
RQ-Kmeans 7.03% 68.08% 0.2844 0.1038
RQ-OPQ - 91.91% 0.3369 0.1194

OPQ 生成的 2 个额外 SID (256-256) 显著提升 ICR 并增强 GR 的召回和排序能力。

4. 多视角行为序列注入 (Multi-view Behavior Sequence Injection)

从三个视角将行为序列注入 GR 模型。

4.1 行为序列构建的用户 ID (Behavior Sequence Constructed User IDs)

不使用随机 hash 的用户 ID(如 Tiger [31]),而是从用户行为序列构建有语义的用户 ID。

短行为序列为用户最近点击商品序列 $Seq_{short} = \{s_1, s_2, \ldots, s_m\}$,长行为序列为按时间排序的所有交互序列 $Seq_{long} = \{l_1, l_2, \ldots, l_n\}$。用户 ID 为两者的拼接:

$$SID_{short} = \lceil \sum_{i=1}^{m} \lambda_i \cdot SID_{s_i} \rceil, \quad \text{where } \lambda_i = \frac{exp(\sqrt{i})}{\sum_i^m exp(\sqrt{i})} \quad (3)$$

$$SID_{long} = \lceil \sum_{j=1}^{n} \mu_j \cdot SID_{l_j} \rceil, \quad \text{where } \mu_j = \frac{exp(\sqrt{j})}{\sum_j^n exp(\sqrt{j})}$$

用户 ID 长度为 10。对于新用户或冷启动用户,基于 query-item 出现频次倒序排列来构建默认行为序列。

4.2 显式短行为序列 (Explicit Short Behavior Sequence)

短行为序列主要反映用户近期偏好,包含用户最近输入的 query 序列 $Seq_{query}$ 和点击商品序列 $Seq_{short}$。直接将这些 query 和商品的 SID 输入到 prompt 中,位于用户 ID 和输入 query 之后。

使用滑动窗口数据增强:沿 $Seq_{short}$ 滑动窗口,每一步取当前窗口片段及其下一个商品作为预测目标,用于学习用户兴趣变化。

4.3 隐式长行为序列 (Implicit Long Behavior Sequence)

电商平台用户长期行为序列包含三类:点击(click)、下单(order)、相关搜索单元(RSU) [11],序列长度可达 $10^5$,无法直接作为文本输入。

处理流程: 1. 将每个商品映射到其关键词增强后的语义 ID (sid) 2. 通过 lookup 获取 RQ 聚类中心向量表征(包含多层语义信息) 3. 对同层中心向量聚合

$$\mathbf{M}_{click} = \left\{ \sum_{i=1}^{m} \mathbf{Item}_{emb}^{L_1}, \sum_{i=1}^{m} \mathbf{Item}_{emb}^{L_2}, \sum_{i=1}^{m} \mathbf{Item}_{emb}^{L_3} \right\}$$

$$\mathbf{M}_{order} = \left\{ \sum_{i=1}^{n} \mathbf{Item}_{emb}^{L_1}, \sum_{i=1}^{n} \mathbf{Item}_{emb}^{L_2}, \sum_{i=1}^{n} \mathbf{Item}_{emb}^{L_3} \right\} \quad (4)$$

$$\mathbf{M}_{RSU} = \left\{ \sum_{i=1}^{k} \mathbf{Item}_{emb}^{L_1}, \sum_{i=1}^{k} \mathbf{Item}_{emb}^{L_2}, \sum_{i=1}^{k} \mathbf{Item}_{emb}^{L_3} \right\}$$

$$\mathbf{Q} = \text{QFormer}(\mathbf{M}_{click}, \mathbf{M}_{order}, \mathbf{M}_{RSU})$$

其中 $\mathbf{Q} \in \mathbb{R}^{N_M \times d_{model}}$($d_{model} = 768$),通过 QFormer 压缩三类行为序列的向量表征。

5. 统一 Encoder-Decoder 架构

输入格式

OneSearch 的输入 $\mathbf{X}_U$ 包含五部分: 1. uid:行为序列构建的用户 ID 2. q 及其 SID $SID_q$:输入 query 3. $Seq_q$:历史 query 序列,短点击商品序列 $Seq_{short}$ 4. $Seq_{long}^{emb}$:隐式长行为序列 5. $\mathcal{U}$:平台画像信息

推理流程形式化为:

$$\mathcal{I} := \mathcal{M}(uid, q, SID_q, Seq_q, Seq_{short}, Seq_{long}^{emb}, \mathcal{U}) \quad (5)$$

架构选择

采用 encoder-decoder 架构(如 BART [19], mT5 [39])或 decoder-only 模型(如 Qwen3 [40])。线上部署采用 encoder-decoder,encoder 编码 信息,decoder 专注于商品生成。

训练时在首尾插入 $t_{[BOS]}$ 和 $t_{[EOS]}$,相邻元素间插入 $t_{[SEP]}$。推理输出 $\mathcal{M}$ 为商品 SID,支持受约束或非约束的 beam search。beam search size 设为 512。

6. 偏好感知奖励系统 (Preference Aware Reward System, PARS)

6.1 多阶段监督微调 (Multi-stage Supervised Fine-tuning)

基础模型采用 Bart-B [19](实际线上模型参数量至少为 Bart-B 的 100 倍以上)。设计三阶段 SFT(见 Table 4):

Table 4: 多阶段 SFT 流程

阶段 SFT Stage 1 SFT Stage 2 SFT Stage 3 RL Stage
目标 语义对齐 (q, i) 共现同步 用户个性化 偏好对齐
组件 query ↔ SID, item ↔ SID, query/item → category, SID → category query ↔ item, query_SID ↔ item_SID uid & q, $SID_q$ & $Seq_q$, $Seq_{short}$, $Seq_{long}^{emb}$ → item_SID user & query, seq. feat., $item_{win}$, $item_{lose}$ → Rank Score
  1. 语义内容对齐 (Semantic Content Alignment):三个子任务——(a) query/item 文本 → SID,(b) SID → 原始文本,(c) query/item 文本 → 类目。前两个对齐 SID 与文本内容,类目预测确保相关性
  2. 共现同步 (Co-occurrence Synchronization):query 与 item 之间的双向预测,忽略用户特征,学习大规模在线交互语料中 query 与 item 的内在语义和协同关系
  3. 用户个性化建模 (User Personalization Modeling):拼接完整用户信息(uid, query, $SID_q$, $Seq_q$, $Seq_{short}$, $Seq_{long}^{emb}$)作为输入,item SID 作为训练标签

滑动窗口数据增强应用于短行为序列,最多可增强 m 个样本。

6.2 自适应奖励系统 (Adaptive Reward System)

与 OneRec-V1 [47] 使用加权 P-Score 训练单一 reward model 后用 Early Clipped GRPO 不同,OneSearch 使用真实在线用户交互作为反馈信号。

自适应加权奖励信号

将搜索系统中的用户交互行为分为六个层级: 1. 搜索场景下购买的商品(权重 2.0) 2. 推荐场景下购买的同类目商品(1.5) 3. 点击的商品(1.0) 4. 曝光未点击的商品(0.5) 5. 同类目下未展示的商品(0.2) 6. 其他类目的随机商品(0.0)

考虑近期 CTR 和 CVR 较高的商品更可能被用户选择,使用这两个指标构建自适应加权奖励:

$$CntT = \log((Cnt_{pos} + 10) \cdot (Cnt_{clk} + 10) \cdot (Cnt_{order} + 10)) \quad (6)$$

$$Ctr_i = \frac{\log(Cnt_{clk} + 10)}{CntT}, \quad Cvr_i = \frac{\log(Cnt_{order} + 10)}{\log(Cnt_{clk} + 10)} \quad (7)$$

$$r(q, i) = 2\lambda \cdot \frac{Ctr_i \cdot Cvr_i}{Ctr_i + Cvr_i} \quad (8)$$

对于每对正负样本 $i_{pos}$ 和 $i_{neg}$,用户偏好差值为:

$$rw_\Delta = \frac{1.0}{r(q, i_{pos}) - r(q, i_{neg})} \quad (9)$$

较小的 $rw_\Delta$ 值鼓励模型区分用户交互行为中的细微差异。

Reward Model 训练

基于 Search-based Interest Model (SIM [28]) 设计三塔 reward model,每塔分别学习 CTR、CVR 和 CTCVR,使用 binary cross-entropy loss。最终偏好分数:

$$R_{score} = \lambda_1 \cdot CTR + \lambda_2 \cdot CVR + \lambda_3 \cdot CTCVR + 10 \cdot \lambda_4 \cdot S_{Rel} \quad (10)$$

其中 $S_{Rel}$ 为离线计算的相关性分数,$\lambda_l$ 均设为 1。相关性项带有放大权重 $10 \cdot \lambda_4$ 确保生成结果满足相关性约束。

混合排序框架 (Hybrid Ranking Framework)

分两阶段训练:

Phase 1: Reward-guided Training

  • 从真实搜索日志收集 query,使用 reward model 对 OneSearch fine-tuned 模型的输出重新排序
  • 选取排序发生变化的样本进行 list-wise DPO 训练
  • 被 reward model 提升/点击的商品为正样本,排名下降的为负样本

优化目标:

$$\mathcal{L} = -\mathbb{E}\left[\log \sigma \left(\log \sum_{i_l \in \hat{I}_l} \exp\left(rw_\Delta \cdot \max\left(0, \hat{r}_\theta(x_u, i_w) - \hat{r}_\theta(x_u, i_l) - \delta\right)\right) + \alpha \log \pi_\theta(i_w | x_u)\right)\right] \quad (11)$$

其中隐式奖励:

$$\hat{r}_\theta(x_u, i_{w/l}) = \beta \log \frac{\pi_\theta(i_{w/l} | x_u)}{\pi_{ref}(i_{w/l} | x_u)} \quad (12)$$

结合 list-wise 偏好对齐和对首选样本的 log-likelihood 预测,建立了生成式排序的新混合范式。

Phase 2: User Interaction Training

  • 使用纯用户交互数据(来自传统搜索系统的真实反馈)
  • 从前三个交互层级(购买、同类购买、点击)选正样本,后三个选负样本
  • 用相同 loss 继续训练,克服在线分布限制

训练调度

  • 每周:多阶段 SFT + Reward Model 更新
  • 每天:Reward-guided 更新(使用最近 3 天数据)
  • 近实时:用户交互训练更新

7. 实验

7.1 实验设置

  • 数据集:快手商城搜索平台 2025 年 5 月至 8 月的可靠用户交互对,约 10 亿 PV,91 天数据,前 90 天训练,最后一天测试
  • 评估指标:HitRate@K 和 MRR@K(Mean Reciprocal Ranking),取所有测试的平均值
  • Baseline:在线 MCA 系统 (onlineMCA),不构建离线 MCA 模拟(因为单阶段模型无法准确反映在线多机制复杂系统性能)
  • 基础模型:Bart-B [19](线上模型参数量 ≥100x Bart-B)
  • 超参:最大窗口长度 n=5,SFT/DPO batch size 分别为 512/128,RQ-OPQ codebook 层 C=5(RQ-Kmeans 3层 + OPQ 2层),每层大小 (4096, 1024, 512 | 256, 256),beam search size 512

7.2 离线性能

Table 5: OneSearch 与 onlineMCA 的离线性能对比

方法 order (30k) HR@350 order (30k) MRR@350 click (30k) HR@350 click (30k) MRR@350
OnlineMCA 51.74% 19.26% 64.40% 16.89%
w/o ranking 75.75% 4.19% 80.23% 3.00%
OPQ (8/256) 19.43% 9.55% 22.57% 7.42%
(1024-1024-1024) 57.39% 9.12% 63.63% 7.46%
(2048-1024-512) 58.29% 10.79% 65.39% 8.86%
(4096-1024-256) 58.57% 11.21% 64.51% 9.24%
(4096-1024-512) 59.58% 14.29% 62.49% 11.82%
+ keywords 62.38% 14.30% 66.14% 12.10%
+ l3 balanced 63.16% 13.59% 68.26% 11.67%
+ Adaptive RS 64.33% 16.11% 68.94% 13.80%
RQ-OPQ (2/256) 65.05% 15.33% 68.88% 12.90%
+ Adaptive RS 66.46% 18.38% 71.06% 16.33%

关键结论:

  • "w/o ranking"(仅召回+粗排无精排)HR 很高但 MRR 极低,说明粗排阶段倾向于聚合用户交互商品但排序能力弱,精排阶段负责将意图匹配商品推到列表前部,这正是 MCA 各阶段目标冲突的体现
  • 最终方案 RQ-OPQ (2/256) + Adaptive RS 在召回指标上大幅超越 onlineMCA(66.46% vs 51.74%),MRR 也接近(18.38% vs 19.26%),且具备个性化排序能力

7.3 消融实验

多视角行为序列注入消融(Table 6)

方法 order HR@350 order MRR@350 click HR@350 click MRR@350
OneSearch 66.46% 18.38% 71.06% 16.33%
w/o User SIDs -0.94% -0.37% -1.72% -0.36%
w/o $Seq_{short}$ -3.43% -1.53% -4.15% -1.32%
w/o $Seq_{long}^{emb}$ -2.26% -1.01% -3.00% -1.05%
w/o Slid.Window -1.95% -0.81% -1.80% -0.70%
  • 使用行为序列构建的用户 ID 比随机 hash 更有效(-0.94% ~ -1.72%)
  • 短行为序列贡献最大(-3.43% ~ -4.15%),显式输入短期行为对预测用户最可能点击的商品类别至关重要
  • 长行为序列隐式编码也有显著贡献(-2.26% ~ -3.00%)
  • 滑动窗口增强有效引导模型学习用户兴趣变化

OPQ tokenization 消融(Table 7)

方法 order HR@10 order MRR@10 click HR@10 click MRR@10
RQ-OPQ (2/256) 28.42% 14.15% 33.69% 11.94%
*-OPQ (4/256) -2.36% -1.77% -2.52% -1.56%
-OPQ (42/256) -10.20% -5.57% -11.77% -3.84%
-OPQ (44/256) -24.18% -11.83% -27.11% -9.61%
  • 基本配置 RQ-OPQ (2/256) 性能最优
  • 将 OPQ 应用于所有 embedding(42/256, 44/256)后性能急剧下降,类似于全层 balanced k-means 的问题——层次化特征未被独立表征,大量商品被聚合到相同 SID

7.4 在线 A/B 测试

在快手商城搜索平台进行严格 A/B 测试,与 onlineMCA 对比:

Table 8: 在线 A/B 测试结果(黑色字体表示 p < 0.05 统计显著)

方法 Item CTR PV CTR PV CVR Buyer Order
MCA w/o ranking -9.97% -20.33% -11.55% -28.78% -39.14%
$OneSearch^1$ -1.10% -2.06% +0.39% +1.27% -2.22%
$OneSearch^1_{RM}$ +1.40% +3.05% +1.94% +1.92% +1.59%
$OneSearch^2$ +1.45% +1.40% -0.12% -0.58% -0.09%
$OneSearch^2_{RM}$ +1.67% +3.14% +1.78% +2.40% +3.22%

其中:

  • $OneSearch^1$:使用 RQ-Kmeans 编码,无隐式长行为序列,无全部优化
  • $OneSearch^2$:使用 RQ-OPQ + 长行为序列的完整优化版本
  • 下标 $RM$:额外应用 reward model 排序选择

关键发现:

  • 纯生成模型 $OneSearch^1$ 可达到与 onlineMCA 相当的性能
  • 引入 RQ-OPQ 和长行为序列后($OneSearch^2$),Item CTR +1.45%,PV CTR +1.40%
  • 加入 reward model 后($OneSearch^2_{RM}$),所有指标显著提升:Item CTR +1.67%,PV CTR +3.14%,PV CVR +1.78%,Buyer +2.40%,Order +3.22%
  • 仅保留召回+粗排去掉精排的 MCA 在所有指标上大幅下降(Order -39.14%),间接验证 OneSearch 具备可比的排序能力

Table 9: 人工评估结果

指标 Page Good Rate Item Quality Q-I Relevance
$OneSearch^1$ 0.84% 1.69% 1.40%
$OneSearch^2$ 1.03% 2.12% 1.87%

$OneSearch^2$ 在页面好评率 +1.03%、商品质量 +2.12%、query-item 相关性 +1.87% 均有提升。

7.5 效率分析

MFU (Model FLOPs Utilization)

  • onlineMCA: 3.26%
  • OneSearch: 27.32%(+24.06 个百分点,相对提升 700.38%)
  • 显著超越 onlineMCA 和一般 LLM(在 H100 上约 40% MFU)

OPEX (运维开支)

  • OneSearch 运维开支仅为 onlineMCA 的 24.60%
  • 节省 75.40% 运维成本

7.6 进一步分析

行业维度

计算 Top 30 行业的 CTR 相对增益(Figure 8):28/30 个行业获得正向提升,平均增益 2.49%,p < 0.05。仅 2 个行业出现不显著的负面效果。

Query 热度维度(Table 10)

方法 Top (PV > 1000) Middle (100-1000) Long-tail (< 100)
$OneSearch^2$ +1.25% +2.27% +1.33%

所有热度级别的 query 均获得提升,中频 query 获益最大。

冷启动能力(Table 11)

对象 Warm Cold Average
Item +2.34% +3.31% +2.52%
User +1.11% +2.50% +2.41%

冷启动商品和用户的 CTR 提升均大于热门项,分别为 +3.31% 和 +2.50%,证明 OneSearch 有效缓解冷启动问题。

7.7 推理推理能力

OneSearch 利用 transformer 注意力机制结合用户长短期序列信息推断搜索意图。例如,一位女性用户先前搜索"情侣运动鞋"和"情人节礼物",当搜索"银戒指"时,OneSearch 能推断出她可能同时为伴侣和自己寻找戒指,并展示了最终被购买的相关商品。

8. 部署情况

OneSearch 已成功部署于:

  • 快手电商详情页搜索的全部流量
  • 商城搜索 50% 流量
  • 首页搜索平台 20% 流量

服务数百万用户,日均生成数千万 PV。据作者所知,这是首个工业部署的端到端生成式电商搜索框架。

9. 总结与展望

OneSearch 是首个端到端生成式电商搜索框架,通过关键词增强层次化量化编码解决商品信息噪声问题,多视角行为序列注入实现个性化建模,偏好感知奖励系统提升排序能力。在快手大规模线上实验中验证了显著的效果和效率提升。

未来方向:

  • 探索实时在线编码(无需重建 codebook 即可为新商品生成 SID)
  • 使用单一生成模型统一编码和推理
  • 通过更鲁棒的强化学习对齐用户偏好
  • 融入多模态信息(图片、视频)增强推理能力