OneSearch: 面向电商搜索的统一端到端生成式框架¶
1. 研究背景与动机¶
1.1 传统多阶段级联架构(MCA)的局限¶
传统电商搜索系统采用多阶段级联架构(Multi-stage Cascading Architecture, MCA),包含召回(~$10^9$)、粗排(~$10^4$)、精排(~$10^2$) 三个阶段,逐级过滤候选商品。MCA 存在两个核心问题:
- 计算碎片化 (Fragmented Compute):大量 serving 资源用于通信和存储而非高精度计算
- 目标冲突 (Objective Collision):不同阶段采用不同优化目标和模型结构,召回阶段使用轻量模型检索所有相关商品,排序阶段利用用户历史序列、query 及商品统计特征进行复杂推理。多层漏斗导致用户真正感兴趣的商品被提前两弃,各阶段异构优化目标限制了系统的性能上限
1.2 电商搜索的特殊挑战¶
相比推荐场景,电商搜索面临三个独特难点:
- 低密度且含噪的商品信息:商品标题、关键词、详情页文本冗长且充斥卖家为增加曝光添加的无关关键词,语义顺序弱,品牌名、属性词等随意分布,全局语义连贯性差
- 强相关性约束:搜索 query 通常只有 2-3 个短关键词,query 与商品之间的属性匹配要求严格,任何属性不匹配都会导致严重的相关性问题
- 用户搜索意图推理:当用户输入简短 query 或搜索全新品类时,需要结合 query 内容与用户行为画像推断真实搜索意图
1.3 生成式检索(GR)的发展¶
近两年,生成式检索范式将传统的匹配框架转化为生成方式:
- Tiger [31] 首创端到端生成式推荐模型,引入从商品内容信息派生的语义 ID (SID)
- LC-REC [45] 将协同过滤语义整合到 LLM 中
- OneRec [5] 首次在视频推荐场景统一了召回、粗排和精排
- OneSug [12] 首个端到端生成式电商 query 联想框架
- EGA [46] 面向广告的端到端生成框架
然而,这些方法不直接适用于电商搜索,因为搜索的输入输出均为 open-vocabulary(Query -> Item),与推荐(closed-vocabulary Item -> Item)和 query 联想(open-vocabulary Prefix -> Query)存在本质区别。
2. OneSearch 框架概述¶
OneSearch 包含四个核心模块(见 Figure 4):
- 关键词增强层次化量化编码 (KHQE):基于对齐表征和核心关键词构建层次化量化 tokenization
- 多视角行为序列注入 (Mu-Seq):将行为序列注入用户 ID 表征,显式输入短期行为序列、隐式编码长期行为序列
- 统一的 Encoder-Decoder 架构:整合用户画像特征的生成式检索架构
- 偏好感知奖励系统 (PARS):包含多阶段 SFT 流程和自适应奖励模型的个性化排序能力
3. 层次化量化编码 (Hierarchical Quantization Encoding)¶
3.1 对齐的协同语义表征 (Aligned Collaborative and Semantic Representation)¶
利用领域知识提取 query 和商品的核心属性,学习语义和协同信号对齐的表征。使用 RQ-Kmeans 进行层次化特征编码,使用 OPQ 量化每个商品的独特特征。
数据构建¶
从真实用户搜索日志中筛选高质量的 query2query、item2item、query2item 交互对:
- 使用 ItemCF [32] 和 Swing [41] 等协同过滤模型从日志中挖掘交互对
- 收集 query 文本、商品标题、价格、关键词、OCR (图文) 等内容信息和统计业务特征(展示数、点击数、加购数、购买数)
- 使用蒸馏版 BGE [38] 为每个 query $e_q$ 和商品 $e_i$ 生成内容 embedding
- 过滤余弦相似度 > 0.6 的配对,确保内容相关
表征对齐损失¶
设计四类相关任务联合训练:
$$\mathcal{L}_{align} = \lambda_1 \cdot \mathcal{L}_{q2q} + \lambda_2 \cdot \mathcal{L}_{i2i} + \lambda_3 \cdot \mathcal{L}_{q2i} + \lambda_4 \cdot \mathcal{L}_{rank} + \lambda_5 \cdot \mathcal{L}_{rel} \quad (1)$$
其中: 1. $\mathcal{L}_{q2q}$, $\mathcal{L}_{i2i}$:query2query 和 item2item 对比损失,对齐协同相似对的表征 2. $\mathcal{L}_{q2i}$:query2item 对比损失,确保 BGE 能反映真实业务特征 3. $\mathcal{L}_{rank}$:query2item margin loss,学习不同行为层级(展示、点击、加购、下单)query-item 对的协同信号差异 4. $\mathcal{L}_{rel}$:硬相关性校正损失,使用 LLM 对阈值相似度以上的配对评分
3.2 核心关键词增强 (Core Keyword Enhancement)¶
商品文本信息含大量冗余无关词,语义顺序弱。论文提出用核心关键词增强文本表征,使语义 ID 由核心关键词主导。
具体方法:
- 使用命名实体识别(NER)识别 18 种结构化属性(Entity, Modifier, Brand, Material, Style, Function, Location, Audience, Color, Marketing, Season, Pattern, Scene, Specifications, Price, Model, Anchor, Series)
- 从过去一年的 query-item 点击对中按 PV 降序编制各属性的高频关键词列表
- 使用 Qwen-VL [2] 识别商品对应的核心关键词
- 对 query 使用 Aho-Corasick 自动机 [1] 进行实时快速匹配
关键词增强后的最终表征:
$$e_q^o = \frac{1}{2}(e_q + \frac{1}{m}\sum_{k=1}^{m} e_k^f), \quad e_i^o = \frac{1}{2}(e_i + \frac{1}{n}\sum_{j=1}^{n} e_j^f) \quad (2)$$
3.3 RQ-OPQ 层次化量化 Tokenization¶
为什么不直接用 RQ-Kmeans 或 OPQ¶
- RQ-VAE / VQ-VAE / RQ-Kmeans:倾向于编码相似商品的共享信号,导致每个商品的独特属性丢失。许多相似但不相同的商品共享相同 SID,降低 codebook 利用率和独立编码率
- FSQ / OPQ:保留每个商品尽可能多的有效信息,但无法层次化表达相似商品的核心属性共性
因此,OneSearch 组合两种范式:RQ-Kmeans 处理层次化语义,OPQ 处理横向独特特征。
配置与评估¶
基础 codebook 大小 1024,codebook 层数 C = 3(RQ-Kmeans 3 层 + OPQ 2 层),每层 codebook 大小 W = (4096, 1024, 512 | 256, 256)。
评估指标:
- CUR (Codebook Utilization Rate):codebook 利用率
- ICR (Independent Coding Rate):独立编码率
Table 2: 不同 RQ-Kmeans 配置的 CUR 和 ICR
| 配置 | $CUR_{L1}$ | $CUR_{L1+L2}$ | $CUR_{Total}$ | ICR |
|---|---|---|---|---|
| 1024-1024-1024 | 100% | 54.27% | 1.72% | 36.67% |
| +keywords | 100% | 65.40% | 2.03% | 40.25% |
| 2048-1024-512 | 100% | 46.88% | 1.98% | 37.80% |
| +keywords | 100% | 57.16% | 2.51% | 40.76% |
| 4096-1024-256 | 99.90% | 39.21% | 2.27% | 36.98% |
| +keywords | 100% | 48.95% | 2.94% | 40.52% |
| +l3 balanced | 100% | 48.95% | 10.31% | 60.01% |
| 4096-1024-512 | 99.90% | 39.21% | 1.30% | 40.54% |
| +keywords | 100% | 48.95% | 1.64% | 43.32% |
| +l3 balanced | 100% | 48.95% | 7.03% | 68.08% |
| 4096-1024-512+ (balanced all) | 99.93% | 41.45% | 0.51% | 33.47% |
关键发现:
- codebook 大小 4096 在各层 CUR 和 ICR 上表现最优
- 核心关键词增强在各配置下一致性提升 CUR 和 ICR(如 4096-1024-512 配置,ICR 从 36.98% 提升至 40.52%)
- 全层 balanced k-means 会导致细粒度属性商品被聚到同一 cluster,$CUR_{Total}$ 从 48.95% 骤降至 1.64%,ICR 仅 33.47%
- 仅在第三层使用 balanced k-means(+l3 balanced)效果最佳,$CUR_{Total}$ 从 1.64% 提升至 7.03%,ICR 提升 57.15%
Table 3: 三种 Tokenization 方案性能对比(真实点击对评估)
| 方法 | $CUR_{Total}$ | ICR | Recall@10 | MRR@10 |
|---|---|---|---|---|
| OnlineMCA | - | - | 0.3440 | 0.1323 |
| RQ-VAE | 1.17% | 38.83% | 0.2171 | 0.0689 |
| RQ-Kmeans | 7.03% | 68.08% | 0.2844 | 0.1038 |
| RQ-OPQ | - | 91.91% | 0.3369 | 0.1194 |
OPQ 生成的 2 个额外 SID (256-256) 显著提升 ICR 并增强 GR 的召回和排序能力。
4. 多视角行为序列注入 (Multi-view Behavior Sequence Injection)¶
从三个视角将行为序列注入 GR 模型。
4.1 行为序列构建的用户 ID (Behavior Sequence Constructed User IDs)¶
不使用随机 hash 的用户 ID(如 Tiger [31]),而是从用户行为序列构建有语义的用户 ID。
短行为序列为用户最近点击商品序列 $Seq_{short} = \{s_1, s_2, \ldots, s_m\}$,长行为序列为按时间排序的所有交互序列 $Seq_{long} = \{l_1, l_2, \ldots, l_n\}$。用户 ID 为两者的拼接:
$$SID_{short} = \lceil \sum_{i=1}^{m} \lambda_i \cdot SID_{s_i} \rceil, \quad \text{where } \lambda_i = \frac{exp(\sqrt{i})}{\sum_i^m exp(\sqrt{i})} \quad (3)$$
$$SID_{long} = \lceil \sum_{j=1}^{n} \mu_j \cdot SID_{l_j} \rceil, \quad \text{where } \mu_j = \frac{exp(\sqrt{j})}{\sum_j^n exp(\sqrt{j})}$$
用户 ID 长度为 10。对于新用户或冷启动用户,基于 query-item 出现频次倒序排列来构建默认行为序列。
4.2 显式短行为序列 (Explicit Short Behavior Sequence)¶
短行为序列主要反映用户近期偏好,包含用户最近输入的 query 序列 $Seq_{query}$ 和点击商品序列 $Seq_{short}$。直接将这些 query 和商品的 SID 输入到 prompt 中,位于用户 ID 和输入 query 之后。
使用滑动窗口数据增强:沿 $Seq_{short}$ 滑动窗口,每一步取当前窗口片段及其下一个商品作为预测目标,用于学习用户兴趣变化。
4.3 隐式长行为序列 (Implicit Long Behavior Sequence)¶
电商平台用户长期行为序列包含三类:点击(click)、下单(order)、相关搜索单元(RSU) [11],序列长度可达 $10^5$,无法直接作为文本输入。
处理流程: 1. 将每个商品映射到其关键词增强后的语义 ID (sid) 2. 通过 lookup 获取 RQ 聚类中心向量表征(包含多层语义信息) 3. 对同层中心向量聚合
$$\mathbf{M}_{click} = \left\{ \sum_{i=1}^{m} \mathbf{Item}_{emb}^{L_1}, \sum_{i=1}^{m} \mathbf{Item}_{emb}^{L_2}, \sum_{i=1}^{m} \mathbf{Item}_{emb}^{L_3} \right\}$$
$$\mathbf{M}_{order} = \left\{ \sum_{i=1}^{n} \mathbf{Item}_{emb}^{L_1}, \sum_{i=1}^{n} \mathbf{Item}_{emb}^{L_2}, \sum_{i=1}^{n} \mathbf{Item}_{emb}^{L_3} \right\} \quad (4)$$
$$\mathbf{M}_{RSU} = \left\{ \sum_{i=1}^{k} \mathbf{Item}_{emb}^{L_1}, \sum_{i=1}^{k} \mathbf{Item}_{emb}^{L_2}, \sum_{i=1}^{k} \mathbf{Item}_{emb}^{L_3} \right\}$$
$$\mathbf{Q} = \text{QFormer}(\mathbf{M}_{click}, \mathbf{M}_{order}, \mathbf{M}_{RSU})$$
其中 $\mathbf{Q} \in \mathbb{R}^{N_M \times d_{model}}$($d_{model} = 768$),通过 QFormer 压缩三类行为序列的向量表征。
5. 统一 Encoder-Decoder 架构¶
输入格式¶
OneSearch 的输入 $\mathbf{X}_U$ 包含五部分: 1. uid:行为序列构建的用户 ID 2. q 及其 SID $SID_q$:输入 query 3. $Seq_q$:历史 query 序列,短点击商品序列 $Seq_{short}$ 4. $Seq_{long}^{emb}$:隐式长行为序列 5. $\mathcal{U}$:平台画像信息
推理流程形式化为:
$$\mathcal{I} := \mathcal{M}(uid, q, SID_q, Seq_q, Seq_{short}, Seq_{long}^{emb}, \mathcal{U}) \quad (5)$$
架构选择¶
采用 encoder-decoder 架构(如 BART [19], mT5 [39])或 decoder-only 模型(如 Qwen3 [40])。线上部署采用 encoder-decoder,encoder 编码
训练时在首尾插入 $t_{[BOS]}$ 和 $t_{[EOS]}$,相邻元素间插入 $t_{[SEP]}$。推理输出 $\mathcal{M}$ 为商品 SID,支持受约束或非约束的 beam search。beam search size 设为 512。
6. 偏好感知奖励系统 (Preference Aware Reward System, PARS)¶
6.1 多阶段监督微调 (Multi-stage Supervised Fine-tuning)¶
基础模型采用 Bart-B [19](实际线上模型参数量至少为 Bart-B 的 100 倍以上)。设计三阶段 SFT(见 Table 4):
Table 4: 多阶段 SFT 流程
| 阶段 | SFT Stage 1 | SFT Stage 2 | SFT Stage 3 | RL Stage |
|---|---|---|---|---|
| 目标 | 语义对齐 | (q, i) 共现同步 | 用户个性化 | 偏好对齐 |
| 组件 | query ↔ SID, item ↔ SID, query/item → category, SID → category | query ↔ item, query_SID ↔ item_SID | uid & q, $SID_q$ & $Seq_q$, $Seq_{short}$, $Seq_{long}^{emb}$ → item_SID | user & query, seq. feat., $item_{win}$, $item_{lose}$ → Rank Score |
- 语义内容对齐 (Semantic Content Alignment):三个子任务——(a) query/item 文本 → SID,(b) SID → 原始文本,(c) query/item 文本 → 类目。前两个对齐 SID 与文本内容,类目预测确保相关性
- 共现同步 (Co-occurrence Synchronization):query 与 item 之间的双向预测,忽略用户特征,学习大规模在线交互语料中 query 与 item 的内在语义和协同关系
- 用户个性化建模 (User Personalization Modeling):拼接完整用户信息(uid, query, $SID_q$, $Seq_q$, $Seq_{short}$, $Seq_{long}^{emb}$)作为输入,item SID 作为训练标签
滑动窗口数据增强应用于短行为序列,最多可增强 m 个样本。
6.2 自适应奖励系统 (Adaptive Reward System)¶
与 OneRec-V1 [47] 使用加权 P-Score 训练单一 reward model 后用 Early Clipped GRPO 不同,OneSearch 使用真实在线用户交互作为反馈信号。
自适应加权奖励信号¶
将搜索系统中的用户交互行为分为六个层级: 1. 搜索场景下购买的商品(权重 2.0) 2. 推荐场景下购买的同类目商品(1.5) 3. 点击的商品(1.0) 4. 曝光未点击的商品(0.5) 5. 同类目下未展示的商品(0.2) 6. 其他类目的随机商品(0.0)
考虑近期 CTR 和 CVR 较高的商品更可能被用户选择,使用这两个指标构建自适应加权奖励:
$$CntT = \log((Cnt_{pos} + 10) \cdot (Cnt_{clk} + 10) \cdot (Cnt_{order} + 10)) \quad (6)$$
$$Ctr_i = \frac{\log(Cnt_{clk} + 10)}{CntT}, \quad Cvr_i = \frac{\log(Cnt_{order} + 10)}{\log(Cnt_{clk} + 10)} \quad (7)$$
$$r(q, i) = 2\lambda \cdot \frac{Ctr_i \cdot Cvr_i}{Ctr_i + Cvr_i} \quad (8)$$
对于每对正负样本 $i_{pos}$ 和 $i_{neg}$,用户偏好差值为:
$$rw_\Delta = \frac{1.0}{r(q, i_{pos}) - r(q, i_{neg})} \quad (9)$$
较小的 $rw_\Delta$ 值鼓励模型区分用户交互行为中的细微差异。
Reward Model 训练¶
基于 Search-based Interest Model (SIM [28]) 设计三塔 reward model,每塔分别学习 CTR、CVR 和 CTCVR,使用 binary cross-entropy loss。最终偏好分数:
$$R_{score} = \lambda_1 \cdot CTR + \lambda_2 \cdot CVR + \lambda_3 \cdot CTCVR + 10 \cdot \lambda_4 \cdot S_{Rel} \quad (10)$$
其中 $S_{Rel}$ 为离线计算的相关性分数,$\lambda_l$ 均设为 1。相关性项带有放大权重 $10 \cdot \lambda_4$ 确保生成结果满足相关性约束。
混合排序框架 (Hybrid Ranking Framework)¶
分两阶段训练:
Phase 1: Reward-guided Training
- 从真实搜索日志收集 query,使用 reward model 对 OneSearch fine-tuned 模型的输出重新排序
- 选取排序发生变化的样本进行 list-wise DPO 训练
- 被 reward model 提升/点击的商品为正样本,排名下降的为负样本
优化目标:
$$\mathcal{L} = -\mathbb{E}\left[\log \sigma \left(\log \sum_{i_l \in \hat{I}_l} \exp\left(rw_\Delta \cdot \max\left(0, \hat{r}_\theta(x_u, i_w) - \hat{r}_\theta(x_u, i_l) - \delta\right)\right) + \alpha \log \pi_\theta(i_w | x_u)\right)\right] \quad (11)$$
其中隐式奖励:
$$\hat{r}_\theta(x_u, i_{w/l}) = \beta \log \frac{\pi_\theta(i_{w/l} | x_u)}{\pi_{ref}(i_{w/l} | x_u)} \quad (12)$$
结合 list-wise 偏好对齐和对首选样本的 log-likelihood 预测,建立了生成式排序的新混合范式。
Phase 2: User Interaction Training
- 使用纯用户交互数据(来自传统搜索系统的真实反馈)
- 从前三个交互层级(购买、同类购买、点击)选正样本,后三个选负样本
- 用相同 loss 继续训练,克服在线分布限制
训练调度¶
- 每周:多阶段 SFT + Reward Model 更新
- 每天:Reward-guided 更新(使用最近 3 天数据)
- 近实时:用户交互训练更新
7. 实验¶
7.1 实验设置¶
- 数据集:快手商城搜索平台 2025 年 5 月至 8 月的可靠用户交互对,约 10 亿 PV,91 天数据,前 90 天训练,最后一天测试
- 评估指标:HitRate@K 和 MRR@K(Mean Reciprocal Ranking),取所有测试的平均值
- Baseline:在线 MCA 系统 (onlineMCA),不构建离线 MCA 模拟(因为单阶段模型无法准确反映在线多机制复杂系统性能)
- 基础模型:Bart-B [19](线上模型参数量 ≥100x Bart-B)
- 超参:最大窗口长度 n=5,SFT/DPO batch size 分别为 512/128,RQ-OPQ codebook 层 C=5(RQ-Kmeans 3层 + OPQ 2层),每层大小 (4096, 1024, 512 | 256, 256),beam search size 512
7.2 离线性能¶
Table 5: OneSearch 与 onlineMCA 的离线性能对比
| 方法 | order (30k) HR@350 | order (30k) MRR@350 | click (30k) HR@350 | click (30k) MRR@350 |
|---|---|---|---|---|
| OnlineMCA | 51.74% | 19.26% | 64.40% | 16.89% |
| w/o ranking | 75.75% | 4.19% | 80.23% | 3.00% |
| OPQ (8/256) | 19.43% | 9.55% | 22.57% | 7.42% |
| (1024-1024-1024) | 57.39% | 9.12% | 63.63% | 7.46% |
| (2048-1024-512) | 58.29% | 10.79% | 65.39% | 8.86% |
| (4096-1024-256) | 58.57% | 11.21% | 64.51% | 9.24% |
| (4096-1024-512) | 59.58% | 14.29% | 62.49% | 11.82% |
| + keywords | 62.38% | 14.30% | 66.14% | 12.10% |
| + l3 balanced | 63.16% | 13.59% | 68.26% | 11.67% |
| + Adaptive RS | 64.33% | 16.11% | 68.94% | 13.80% |
| RQ-OPQ (2/256) | 65.05% | 15.33% | 68.88% | 12.90% |
| + Adaptive RS | 66.46% | 18.38% | 71.06% | 16.33% |
关键结论:
- "w/o ranking"(仅召回+粗排无精排)HR 很高但 MRR 极低,说明粗排阶段倾向于聚合用户交互商品但排序能力弱,精排阶段负责将意图匹配商品推到列表前部,这正是 MCA 各阶段目标冲突的体现
- 最终方案 RQ-OPQ (2/256) + Adaptive RS 在召回指标上大幅超越 onlineMCA(66.46% vs 51.74%),MRR 也接近(18.38% vs 19.26%),且具备个性化排序能力
7.3 消融实验¶
多视角行为序列注入消融(Table 6)¶
| 方法 | order HR@350 | order MRR@350 | click HR@350 | click MRR@350 |
|---|---|---|---|---|
| OneSearch | 66.46% | 18.38% | 71.06% | 16.33% |
| w/o User SIDs | -0.94% | -0.37% | -1.72% | -0.36% |
| w/o $Seq_{short}$ | -3.43% | -1.53% | -4.15% | -1.32% |
| w/o $Seq_{long}^{emb}$ | -2.26% | -1.01% | -3.00% | -1.05% |
| w/o Slid.Window | -1.95% | -0.81% | -1.80% | -0.70% |
- 使用行为序列构建的用户 ID 比随机 hash 更有效(-0.94% ~ -1.72%)
- 短行为序列贡献最大(-3.43% ~ -4.15%),显式输入短期行为对预测用户最可能点击的商品类别至关重要
- 长行为序列隐式编码也有显著贡献(-2.26% ~ -3.00%)
- 滑动窗口增强有效引导模型学习用户兴趣变化
OPQ tokenization 消融(Table 7)¶
| 方法 | order HR@10 | order MRR@10 | click HR@10 | click MRR@10 |
|---|---|---|---|---|
| RQ-OPQ (2/256) | 28.42% | 14.15% | 33.69% | 11.94% |
| *-OPQ (4/256) | -2.36% | -1.77% | -2.52% | -1.56% |
| -OPQ (42/256) | -10.20% | -5.57% | -11.77% | -3.84% |
| -OPQ (44/256) | -24.18% | -11.83% | -27.11% | -9.61% |
- 基本配置 RQ-OPQ (2/256) 性能最优
- 将 OPQ 应用于所有 embedding(42/256, 44/256)后性能急剧下降,类似于全层 balanced k-means 的问题——层次化特征未被独立表征,大量商品被聚合到相同 SID
7.4 在线 A/B 测试¶
在快手商城搜索平台进行严格 A/B 测试,与 onlineMCA 对比:
Table 8: 在线 A/B 测试结果(黑色字体表示 p < 0.05 统计显著)
| 方法 | Item CTR | PV CTR | PV CVR | Buyer | Order |
|---|---|---|---|---|---|
| MCA w/o ranking | -9.97% | -20.33% | -11.55% | -28.78% | -39.14% |
| $OneSearch^1$ | -1.10% | -2.06% | +0.39% | +1.27% | -2.22% |
| $OneSearch^1_{RM}$ | +1.40% | +3.05% | +1.94% | +1.92% | +1.59% |
| $OneSearch^2$ | +1.45% | +1.40% | -0.12% | -0.58% | -0.09% |
| $OneSearch^2_{RM}$ | +1.67% | +3.14% | +1.78% | +2.40% | +3.22% |
其中:
- $OneSearch^1$:使用 RQ-Kmeans 编码,无隐式长行为序列,无全部优化
- $OneSearch^2$:使用 RQ-OPQ + 长行为序列的完整优化版本
- 下标 $RM$:额外应用 reward model 排序选择
关键发现:
- 纯生成模型 $OneSearch^1$ 可达到与 onlineMCA 相当的性能
- 引入 RQ-OPQ 和长行为序列后($OneSearch^2$),Item CTR +1.45%,PV CTR +1.40%
- 加入 reward model 后($OneSearch^2_{RM}$),所有指标显著提升:Item CTR +1.67%,PV CTR +3.14%,PV CVR +1.78%,Buyer +2.40%,Order +3.22%
- 仅保留召回+粗排去掉精排的 MCA 在所有指标上大幅下降(Order -39.14%),间接验证 OneSearch 具备可比的排序能力
Table 9: 人工评估结果
| 指标 | Page Good Rate | Item Quality | Q-I Relevance |
|---|---|---|---|
| $OneSearch^1$ | 0.84% | 1.69% | 1.40% |
| $OneSearch^2$ | 1.03% | 2.12% | 1.87% |
$OneSearch^2$ 在页面好评率 +1.03%、商品质量 +2.12%、query-item 相关性 +1.87% 均有提升。
7.5 效率分析¶
MFU (Model FLOPs Utilization):
- onlineMCA: 3.26%
- OneSearch: 27.32%(+24.06 个百分点,相对提升 700.38%)
- 显著超越 onlineMCA 和一般 LLM(在 H100 上约 40% MFU)
OPEX (运维开支):
- OneSearch 运维开支仅为 onlineMCA 的 24.60%
- 节省 75.40% 运维成本
7.6 进一步分析¶
行业维度¶
计算 Top 30 行业的 CTR 相对增益(Figure 8):28/30 个行业获得正向提升,平均增益 2.49%,p < 0.05。仅 2 个行业出现不显著的负面效果。
Query 热度维度(Table 10)¶
| 方法 | Top (PV > 1000) | Middle (100-1000) | Long-tail (< 100) |
|---|---|---|---|
| $OneSearch^2$ | +1.25% | +2.27% | +1.33% |
所有热度级别的 query 均获得提升,中频 query 获益最大。
冷启动能力(Table 11)¶
| 对象 | Warm | Cold | Average |
|---|---|---|---|
| Item | +2.34% | +3.31% | +2.52% |
| User | +1.11% | +2.50% | +2.41% |
冷启动商品和用户的 CTR 提升均大于热门项,分别为 +3.31% 和 +2.50%,证明 OneSearch 有效缓解冷启动问题。
7.7 推理推理能力¶
OneSearch 利用 transformer 注意力机制结合用户长短期序列信息推断搜索意图。例如,一位女性用户先前搜索"情侣运动鞋"和"情人节礼物",当搜索"银戒指"时,OneSearch 能推断出她可能同时为伴侣和自己寻找戒指,并展示了最终被购买的相关商品。
8. 部署情况¶
OneSearch 已成功部署于:
- 快手电商详情页搜索的全部流量
- 商城搜索 50% 流量
- 首页搜索平台 20% 流量
服务数百万用户,日均生成数千万 PV。据作者所知,这是首个工业部署的端到端生成式电商搜索框架。
9. 总结与展望¶
OneSearch 是首个端到端生成式电商搜索框架,通过关键词增强层次化量化编码解决商品信息噪声问题,多视角行为序列注入实现个性化建模,偏好感知奖励系统提升排序能力。在快手大规模线上实验中验证了显著的效果和效率提升。
未来方向:
- 探索实时在线编码(无需重建 codebook 即可为新商品生成 SID)
- 使用单一生成模型统一编码和推理
- 通过更鲁棒的强化学习对齐用户偏好
- 融入多模态信息(图片、视频)增强推理能力