← Back to list
PIANO

PIANO: Personalized Reranking via Information Aggregation Node for Music Search Optimization

判别式推荐 NetEase
Abstract 7 Reading 6 Rating —
2026-06-15
Weisheng Li, Chuqiao Huang, Pengcheng Li, Zhengchao Peng, Qiang Xiao, Zhongqian Xie, Qiang Huang, Chuanjiang Luo
NetEase Cloud Music
网易云音乐提出 PIANO 音乐搜索个性化重排框架:QDIR 以当前 query 对历史 query 序列做 cross-attention 精炼长期偏好,IAN([CLS] 式聚合节点)受真实 per-list CTR/CVR 监督做 listwise 多目标优化,线上 A/B 取得 CTR +0.62%、CVR +4.45%。
评分原因
摘要评分:音乐搜索个性化重排,提出基于历史查询的交叉注意力意图精炼 + [CLS] 式聚合节点做 list 级 CTR/CVR 联合优化,且有网易云音乐线上 A/B(CTR +0.62%、CVR +4.45%);偏重排模块、范围较窄。
精读评分:工业落地完整(网易云音乐线上 A/B CTR+0.62%/CVR+4.45% + 95% 流量部署),方法清晰、消融系统(6 baseline、10 seed、QDIR/IAN/α 逐项);但核心机制(query-aware cross-attention + [CLS] 式聚合 token)为成熟模块重组、创新中等,离线提升仅第三位小数,公开实验仅 Yahoo Letor 一个通用 LTR 数据集,歌曲表征走离线预计算的冻结 Qwen3 嵌入(两阶段解耦),范围偏窄(末端重排模块)。
transformer search-ranking industrial pretrained-lm contrastive-ssl

PIANO:面向音乐搜索优化的信息聚合节点个性化重排

NetEase Cloud Music(网易云音乐),arXiv:2606.16641,2026-06-15

一、研究动机与背景

音乐流媒体平台高度依赖搜索来连接用户与具体内容。与以"短期新鲜度"为核心的短视频信息流不同,音乐曲目具有很长的生命周期和持久的艺术价值——一首老歌可能在多年后依然被反复收听。这给搜索重排(re-ranking)带来了独特挑战:系统既要对齐用户当下的查询意图,又要兼顾其长期的收听偏好,才能保证持续的满意度。同时,工业场景还要求在用户体验与商业目标之间取得平衡,这就要求对点击率(Click-Through Rate, CTR)与转化率(Conversion Rate, CVR,本文特指点击后触发的付费会员订阅)做联合优化

作者指出,尽管搜索重排在该领域作用关键,现有重排框架存在两个根本性缺口(gap):

缺口一:意图对齐不充分(intent alignment is insufficient)。 多数序列模型(如 DIN、SASRec)只编码用户的行为序列(item 交互历史),却忽略了历史查询(historical queries)中蕴含的丰富语义信号。即便是近期的 query-aware 工作(如 He et al. [14]),通常也只使用静态的查询表征(如平均池化)。作者举了一个生动的例子:一个平时频繁收听 fast-paced pop(快节奏流行乐) 的用户,可能突然搜索 calm piano for studying(适合学习的舒缓钢琴曲)。如果不显式建模查询序列,系统就无法过滤掉与当前情境不一致的历史偏好,从而推出不相关的结果。

缺口二:列表级多目标优化仍然困难(list-level multi-objective optimization remains challenging)。 现有 listwise 模型大多面向单目标任务(如只优化 CTR),或依赖 item 级代理(item-level proxies)来处理多目标。传统多目标方法在 item 层面平衡 CTR 与 CVR 的冲突,却忽视了这些权衡如何在整个排序列表上体现。作者举例:一个 item 级多目标排序器可能因为某首付费内容歌曲的 CVR 分高,就把它顶到列表最前面,即便把它放在一堆免费独立音乐中反而会损害整个列表的点击率。这种跨 item 的权衡无法被 item-wise 打分捕捉,直接把这类方法套用到音乐搜索上,会无法刻画整个 slate(列表)的整体效用,导致商业目标的次优平衡。

为弥合这两个缺口,作者提出 PIANOPersonalized reranking via Information Aggregation Node for music search Optimization),一个 listwise 重排框架,包含两个核心创新:

  1. Query-Driven Interest Refiner(QDIR,查询驱动的兴趣精炼器):利用历史查询序列,通过 cross-attention 动态精炼长期偏好,使其对齐当前查询意图;
  2. Information Aggregation Node(IAN,信息聚合节点):一个可学习的 [CLS] 式 token,由 QDIR 输出的 query-conditioned 用户兴趣初始化,用于聚合候选列表的全局上下文,并直接在 list 级别预测 CTR/CVR,实现多目标监督。

主要贡献可总结为三点:

  • Query-Aware 兴趣建模:提出 QDIR,用历史查询序列动态对齐长期偏好与短期查询意图;
  • 列表级多目标优化:设计 IAN,一个 [CLS] 式 token,聚合列表上下文做直接的多目标预测,避免 item 级代理优化;
  • 工业验证:在公开数据集上做大量离线实验,并在网易云音乐线上 A/B 测试中取得 CTR +0.62%、CVR +4.45% 的显著收益。

二、相关工作与定位

序列用户兴趣建模。 自注意力模型(如 SASRec)建模长程依赖,工业系统(BST、DIN、SIM)将行为序列与丰富特征结合。MIR、RAISE 等进一步用多级 set-to-list 交互、基于评论的意图建模来丰富个性化重排。He et al. [14] 通过异质序列把 query 引入序列建模,但依赖静态查询表征(如平均池化),没有针对历史查询做 cross-attention,难以捕捉音乐搜索重排中的快速意图漂移。PIANO 的 QDIR 则用 query-aware cross-attention,基于当前查询动态精炼长期偏好。

Listwise 重排与上下文建模。 现有方法大致分两类:一阶段打分模型——从 RNN(DLCM、Seq2Slate)演进到自注意力机制(PRM、SetRank、RankFormer);两阶段排列框架(PRS、PIER、CLIG),将候选生成与评估解耦以平衡效率与效果。为捕捉全局上下文,这些方法常依赖 [CLS] 式 token 或 set-to-list attention,但这些节点很少受真实 list 级结果的监督。值得特别区分的是 RankFormer [4]:它也给 listwise Transformer 增加了一个 [CLS] token 并用 listwise 目标监督,但其 listwide 标签是合成的(取列表中 item 标签的最大值),而且该 token 本身只是一个通用可学习参数;相比之下,IAN 由 QDIR 的 query-conditioned 用户兴趣初始化,且直接受真实 per-list CTR/CVR 在多目标框架下的监督。在用户上下文整合方面,PEAR [20] 等虽引入历史,但只用 item 历史编码,缺少对过去偏好与当前意图的显式 query-conditioned 对齐——对音乐搜索这类动态场景而言并不理想。

多目标重排。 ESMM、MMoE、PLE 等 item 级多任务模型联合预测多目标,但忽略重排时的跨 item 依赖。Nguyen et al. [26] 用 Kendall tau 正则化做多方利益排序,CMR [9] 用超网络调节任务权重。PRECTR [8] 通过条件概率融合耦合相关性匹配与 CTR 预测,并加 batch-wise listwise 一致性正则,但其监督仍定义在 per-item 点击标签上而非 per-list 结果。SORT-Gen [5] 用带 ordered-regression 监督的自回归生成做 list 级多目标优化;相比之下,PIANO 采用判别式框架,用一个受显式监督的 [CLS] 式聚合器(IAN)在单次前向中预测 per-list CTR/CVR,实现高效的端到端联合优化

三、问题定义

一个多阶段搜索/推荐流水线通常由召回(matching)、排序(ranking)、重排(re-ranking)组成。记排序阶段输出的结果列表为 $I = (i_1, \ldots, i_M)$。令 $\Pi_M$ 为 $\{1, \ldots, M\}$ 所有可能排列的集合,对 $\pi \in \Pi_M$ 记 $\pi(I) = (i_{\pi(1)}, \ldots, i_{\pi(M)})$。则重排器选择:

$$\pi^* \in \arg\max_{\pi \in \Pi_M} \ \lambda\, U_{\text{clk}}(\pi(I), C) + (1-\lambda)\, U_{\text{conv}}(\pi(I), C) \tag{1}$$

其中 $\lambda \in [0,1]$ 控制点击导向与转化导向两个 list 级目标之间的权衡,$C$ 为上下文。在音乐搜索场景中,click 指用户点击/播放返回列表中的歌曲,conversion 指点击交互后触发的付费会员订阅——这是音乐流媒体平台的关键营收指标。$U_{\text{clk}}(\cdot)$ 与 $U_{\text{conv}}(\cdot)$ 是 list-wise 效用函数:$U_{\text{clk}}$ 表示列表上的期望平均点击数,$U_{\text{conv}}$ 表示期望平均转化数,二者都通过在整个排序列表 $\pi(I)$ 上聚合 item 级预测来计算,因此必须有一个能捕捉全局列表依赖的模型

作者采用加权和标量化(weighted-sum scalarization),通过变化 $\lambda$ 让系统在实践中扫出近似 Pareto 前沿的工作点。

四、核心方法与模型架构

4.1 整体架构

如图 1 所示,PIANO 由两个核心组件构成:QDIR 与 IAN。给定输入信号(当前 query、用户历史、候选 item),PIANO 首先由 QDIR 抽取 query-conditioned 用户兴趣,并用它初始化 IAN,将 IAN 作为前缀(prepend)拼接到候选列表前。随后通过一个 Transformer,模型同时优化 item 级与 list 级的业务指标。

Fig. 1. PIANO 整体架构:左侧 QDIR 模块从 query-item 交互历史中抽取用户兴趣表征;右侧带固定位置编码的 List 级信息聚合节点(IAN)被前缀拼接以聚合全局信息,再通过 cross-attention 与候选 item 交互做 list 级预测

4.2 音乐专用表征模型(Music-specific Representation Model)

为捕捉音乐领域的语义,作者基于 Qwen3-Embedding-0.6B 构建表征模型,在域内的 query–song 对上用任务专属 prompt 微调(fine-tune)。如图 2,模型采用双塔(dual-tower)设计

Fig. 2. 预训练音乐专用表征模型。(a) 训练:一个冻结的 Qwen3-Embedding-0.6B 编码器在 query 塔与 song 塔之间权重共享,两个塔专属的 MLP 投影头(MLP_query、MLP_song)产生文本嵌入,用带 in-batch negatives 的对比损失优化。(b)(c) 推理:编码器与投影头均冻结;song 嵌入离线预计算,query 嵌入按每次搜索请求在线计算。两者都喂给下游重排器

  • 训练阶段:一个冻结的 Qwen3-Embedding-0.6B 编码器在 query 塔和 song 塔之间权重共享;两个塔各自的 MLP 投影头($\text{MLP}_{query}$、$\text{MLP}_{song}$)产出文本嵌入,用带 in-batch negatives 的对比损失(contrastive loss)优化。每首歌用 prompt 形式给出元数据(如 Song name: "Love Story", Artist: "Taylor Swift", Language: "English")。
  • 推理阶段:编码器和投影头都冻结。song 嵌入离线预计算query 嵌入按每次搜索请求在线计算

相比通用编码器,这种设计产生的嵌入更贴合音乐搜索,并把编码器成本与在线延迟解耦(因为歌曲嵌入是离线算好的)。

4.3 Query-Driven Interest Refiner(QDIR)

QDIR 旨在把用户的长期偏好与当前查询所表达的短期意图对齐。它包含两个部分:Current Intent RepresentationHistorical Query-aware Preference Refinement

当前意图表征。 记原始当前查询为 $q_{\text{cur}}$,用 §4.2 的方法嵌入:

$$q_{\text{cur}}^{\text{emb}} = \phi_{\text{music}}(q_{\text{cur}}) \tag{2}$$

再通过一个可学习线性投影形成短期兴趣:

$$r_{\text{short}}^{\text{emb}} = W^E q_{\text{cur}}^{\text{emb}} \tag{3}$$

其中 $W^E$ 是初始化为单位阵(identity)的可学习投影。这样训练初始时 $r_{\text{short}}^{\text{emb}} = q_{\text{cur}}^{\text{emb}}$,再逐渐把当前查询嵌入自适应到下面 cross-attention 所用的融合空间中。这个"恒等初始化"的设计动机是保证训练起步稳定。

历史查询感知的偏好精炼。 为用当前查询过滤过去的偏好,作者用 cross-attention:以 $q_{\text{cur}}^{\text{emb}}$ 为 query,历史查询序列 $q_{\text{seq}}^{\text{emb}} = [q_1^{\text{emb}}, \ldots, q_L^{\text{emb}}]$ 为 key,每个历史查询下交互过的 item $s_{\text{seq}}^{\text{emb}} = [s_1^{\text{emb}}, \ldots, s_L^{\text{emb}}]$ 为 value:

$$r_{\text{long}}^{\text{emb}} = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d}}\right) V \tag{4}$$

其中 $Q = W^Q q_{\text{cur}}^{\text{emb}}$,$K = W^K q_{\text{seq}}^{\text{emb}}$,$V = W^V s_{\text{seq}}^{\text{emb}}$,$d$ 为隐藏维度。注意力权重按历史点击 item 与当前查询的相关性重新加权——这正是"过滤掉与当前情境不一致的历史偏好"的机制实现:当用户搜 calm piano 时,历史中与之相关的查询会获得高权重,从而把对应的历史歌曲偏好放大,而无关的 fast-paced pop 历史被抑制。这里 key 是历史 query、value 是历史 item,是 QDIR 区别于一般行为序列建模(key/value 都是 item)的关键。

长短期兴趣融合。 把精炼后的长期偏好 $r_{\text{long}}^{\text{emb}}$、短期意图嵌入 $r_{\text{short}}^{\text{emb}}$ 与用户画像融合成统一的 query-conditioned 用户兴趣表征:

$$r_{\text{user}}^{\text{emb}} = \text{LayerNormalization}\!\left(W_f \cdot \big[\text{concat}(r_{\text{long}}^{\text{emb}}, r_{\text{short}}^{\text{emb}}, r_{\text{user\_profile}})\big] + b\right) \tag{5}$$

其中 $W_f$ 把表征映射到维度 $d_{\text{model}}$,$b$ 为偏置,$r_{\text{user\_profile}}$ 是静态用户画像嵌入。最终的 $r_{\text{user}}^{\text{emb}}$ 作为后续重排阶段 IAN token 的初始化信号

4.4 Information Aggregation Node(IAN)

动机与设计。 受 BERT、ViT 中 [CLS] token 启发,作者把一个可学习的 [CLS] 式 token——即 IAN——前缀拼接到候选列表前(图 1 右)。不同于忽略 item 交互的静态池化(如 mean pooling),IAN 借助自注意力捕捉 list-wise 依赖,学习一个超越简单 item 分数求和的 list 级效用

初始化与位置编码。 IAN token 用 QDIR 的 query-conditioned 兴趣向量初始化。令 $g = r_{\text{user}}^{\text{emb}} \in \mathbb{R}^{d_{\text{model}}}$。候选歌曲先经音乐专用表征模型(§4.2)得到 item 表征 $h_{1:M} \in \mathbb{R}^{d_{\text{model}}}$。把 $g$ 经一个 MLP 得到原始 IAN 表征:

$$h_0^{\text{raw}} = \text{MLP}_{\text{init}}(g) \tag{6}$$

再给所有位置加位置编码:

$$\tilde{h}_j = \begin{cases} h_0^{\text{raw}} + \text{PE}(0), & \text{if } j = 0, \\ h_j + \text{PE}(j), & \text{if } j \in \{1, \ldots, M\}, \end{cases} \tag{7}$$

其中 $\text{PE}(0)$ 把 IAN 锚定到一个固定参考位置,而 $\text{PE}(j)$($j \ge 1$)为 item 打分保留顺序敏感性。

4.5 上下文化 Transformer 编码器

架构。 带位置编码的序列 $[\tilde{h}_0, \tilde{h}_1, \ldots, \tilde{h}_M]$ 被送入 $N_x = 2$ 个 pre-norm Transformer 编码块:

$$[h_0', h_1', \ldots, h_M'] = \text{Transformer}([\tilde{h}_0, \tilde{h}_1, \ldots, \tilde{h}_M]) \tag{8}$$

每个块包含多头自注意力(MHSA)和 position-wise 前馈网络(FFN),都配残差连接与层归一化。

预测头。 编码后,输出序列 $[h_0', h_1', \ldots, h_M']$ 被两个联合训练的头用于多任务预测(如 click 与 conversion,对应图 1 中的橙色框):

$$\hat{\mathbf{p}}_{\text{list}}^{(t)} = \text{Sigmoid}\big(\text{MLP}(h_0')\big) \tag{9a}$$ $$\mathbf{p}_j^{(t)} = \text{Sigmoid}\big(\text{MLP}(h_j')\big) \tag{9b}$$

其中 $h_0'$ 充当 list 级分类器的全局列表表征(global list representation),item 头(式 9b)作用在 item 表征 $h_j'$($j \in \{1, \ldots, M\}$)上。关键在于:$h_0'$ 聚合的全局语义通过自注意力传播到每个 item 表征 $h_j'$,增强其上下文感知能力。这就是 IAN 既能产出 list 级预测、又能反过来调节 item 级打分的双向收益机制。

4.6 模型预测与优化目标

PIANO 用两个互补的损失函数联合优化 list 级与 item 级目标。模型在三个层次有三个权重:$\lambda$(式 1,list 级 click vs. conversion 效用)、$\alpha$(式 15,list 级 vs. item 级损失)、$\beta$(item 损失内部 click vs. conversion 的 BCE 权重)。

List 级损失。 与式 (1) 对齐,用两个 BCE 损失在软标签上预测 list 级点击率与转化率:

$$L_{\text{list}} = -\frac{1}{N} \sum_{t=1}^{N} \sum_{m \in \{\text{clk}, \text{conv}\}} \Big[ y_m^{(t)} \log \hat{p}_m^{(t)} + (1 - y_m^{(t)}) \log(1 - \hat{p}_m^{(t)}) \Big] \tag{10}$$

其中 $\mathbf{y}^{(t)} = (y_{\text{clk}}^{(t)}, y_{\text{conv}}^{(t)}) \in [0,1]^2$ 是 per-list 的率目标,$\hat{\mathbf{p}}^{(t)} = (\hat{p}_{\text{clk}}^{(t)}, \hat{p}_{\text{conv}}^{(t)})$ 是预测分,$N$ 为 batch size。软标签定义为:

$$y_{\text{clk}}^{(t)} = \frac{\#\text{clicked items in list } t}{\text{length of list } t} \tag{11}$$ $$y_{\text{conv}}^{(t)} = \frac{\#\text{converted items in list } t}{\text{length of list } t} \tag{12}$$

即 list 标签是该列表中被点击/转化 item 的占比——这正是用真实 per-list CTR/CVR 直接监督 IAN,区别于 RankFormer 用"item 标签最大值"合成 listwide 标签。

Item 级损失。 对 item 标签 $y_j^{(\text{clk})}, y_j^{(\text{conv})} \in \{0, 1\}$,用带转化权重 $\beta \ge 0$ 的二元交叉熵:

$$L_{\text{item}} = \frac{1}{N} \sum_{t=1}^{N} \frac{1}{M} \sum_{j=1}^{M} \Big( \ell_{\text{BCE}}\big(y_j^{(\text{clk})}, p_j^{(\text{clk})}\big) + \beta\, \ell_{\text{BCE}}\big(y_j^{(\text{conv})}, p_j^{(\text{conv})}\big) \Big) \tag{13}$$ $$\ell_{\text{BCE}}(y, p) = -y \log p - (1 - y) \log(1 - p) \tag{14}$$

其中 $\beta$ 平衡转化信号相对点击信号的权重,通常设 $\beta = 1$。

联合目标。 最终训练目标是加权和:

$$L = \alpha\, L_{\text{list}} + (1 - \alpha)\, L_{\text{item}} \tag{15}$$

其中 $\alpha > 0$ 平衡 list 级监督与 item 级监督(§4.4 实验研究其敏感性)。通过自注意力,IAN 把全局列表上下文聚合进 $h_0'$(受 $L_{\text{list}}$ 监督做整体效用预测);同时 item 表征 $h_j'$ 经 attention 受益于该全局上下文,从而实现与式 (1) 多目标目标对齐的联合优化。

五、实验设置

5.1 数据集

作者在公开的 Yahoo Letor(Yahoo! Webscope v2.0)基准与自建的工业级 Music Search Re-ranking 数据集(取自网易云音乐)上评估。

Table 1. 数据集概览

Yahoo Letor Dataset Music Search Re-ranking Dataset
#User - 4,488,871
#Docs/Items 709,877 642,239
#Queries - 236,191
#Records 29,921 31,336,800
  • Yahoo Letor:遵循 Seq2Slate [2] 的做法,把相关性等级二值化($r \ge T_b$),并用 $P_{\text{exam}}(i) \propto 1/\text{pos}(i)^\eta$ 模拟位置偏差。
  • Music Search Re-ranking:含 query 上下文、候选列表、用户反馈。过滤了仅有"首屏完整曝光"的会话以减小偏差。特征包括元数据、行为统计、文本嵌入(§4.2)。标签包括 item 级 click 与 conversion 信号,及其 list-wise 平均作为 list 级 CTR/CVR 目标。采用基于时间的划分防止泄漏,所有方法共享同一候选池与特征。

5.2 研究问题(RQ)

  • RQ1:PIANO 是否在多个数据集与指标上超越强 baseline?
  • RQ2:消融是否确认 QDIR 与 IAN 各自带来可量化的收益?
  • RQ3:平衡超参 $\alpha$ 如何影响整体性能?
  • RQ4:历史行为序列长度对 QDIR 的排序效果有何影响?
  • RQ5:IAN 是否编码了有意义的 list 级语义(用诊断/可视化佐证)?

5.3 Baselines

涵盖三个维度:(i) LTR 范式(pointwise/pairwise vs. listwise);(ii) 个性化(有无用户侧信号);(iii) 上下文建模(独立打分 vs. slate-aware 跨 item 交互):

  • SVMRank:经典 pairwise LTR,非 listwise、非个性化,作为量化 item 间交互收益的下界。
  • LambdaMART:基于 GBDT 的强 listwise LTR,因低延迟推理被工业界广泛部署,是 production-grade 代表。
  • DLCM:开创性 listwise 重排器,用 GRU 编码 top-n slate,作为自注意力重排器的对照。
  • PRM:把用户嵌入注入 Transformer 自注意力编码器,联合建模 user–item 与 item–item 交互,是 PIANO 最接近的非历史个性化自注意力重排对照。
  • SAR:近期 listwise 方法,通过 slate-aware 上下文建模捕捉 item–item 依赖,是无用户历史/无 query-aware 组件的当代 listwise baseline。
  • PEAR:通过 Transformer 融合初始列表与用户历史信号做个性化重排,是与 PIANO 架构最相似的 baseline(但只用 item 历史、无 query 信号),是关键参照点。

5.4 实现细节

  • 超参(所有 baseline 与 PIANO 统一):隐藏维度 $d_{\text{model}} = 128$(两数据集相同);优化器 Adam;dropout $p_{\text{dropout}} = 0.2$;mini-batch size:Yahoo Letor 为 32,Music Search 为 256。
  • 评估协议:所有结果报告为 10 次不同随机种子独立运行的均值 ± 标准差
  • 跨数据集特征对齐:工业数据集的 $s_i^{\text{emb}}$ 用音乐专用表征模型(§4.2)产出;Yahoo Letor 缺音乐元数据,改用同宽度 $d_{\text{model}}$ 的可训练 ID 嵌入: $$s_i^{\text{emb}} = E_{\text{item}}[\text{ID}(i)] \tag{16}$$ 其中 $E_{\text{item}} \in \mathbb{R}^{(|\mathcal{D}|+1) \times d_{\text{model}}}$ 为嵌入查找矩阵(多一行 [UNK] 给未见 item)。两种情况下 $s_i^{\text{emb}}$ 都占据同样的 $d_{\text{model}}$ 维输入槽,使所有方法收到形状相同的 item 表征。

  • 数据集特定适配:PEAR 需要用户行为序列(Yahoo Letor 没有),故只在工业数据集评估;PIANO 在 Yahoo Letor 上禁用 QDIR 的 query 序列组件、保留 IAN,以在相同特征约束下公平比较。

  • 评估指标:NDCG@k(按位置做对数折扣)与 MAP(相关 item 位置上 AP 的均值)。因工业音乐搜索只展示 top 5,取 $k=5$ 对齐实际部署。

六、主要实验结果(RQ1)

Table 2. Yahoo Letor 数据集性能对比

Model NDCG@5 NDCG@10 MAP
PIANO 0.6700±0.0008 0.7225±0.0006 0.6516±0.0005
PRM 0.6676±0.0008 0.7204±0.0008 0.6494±0.0006
SAR 0.6539±0.0028 0.7107±0.0020 0.6386±0.0023
DLCM 0.6530±0.0019 0.7044±0.0017 0.6353±0.0016
LambdaMART 0.6388±0.0002 0.6992±0.0003 0.6153±0.0001
SVM 0.5943±0.0001 0.6556±0.0002 0.5768±0.0001

Table 3. 工业 Music Search Re-ranking 数据集性能对比

Model NDCG@3 NDCG@5 MAP
PIANO 0.8296±0.0002 0.8606±0.0002 0.8100±0.0003
PEAR 0.8277±0.0001 0.8586±0.0002 0.8081±0.0002
PRM 0.8098±0.0006 0.8433±0.0006 0.7868±0.0008
SAR 0.8062±0.0002 0.8426±0.0002 0.7840±0.0002
DLCM 0.8042±0.0006 0.8398±0.0004 0.7822±0.0006
LambdaMART 0.7767±0.0016 0.8247±0.0017 0.7622±0.0012
SVM 0.7640±0.0014 0.8188±0.0012 0.7542±0.0016

结论分析:PIANO 在两个数据集所有指标上一致超越全部 baseline。在 Yahoo Letor 上(注意此时 PIANO 已禁用 query 组件、仅保留 IAN),它对最强神经 baseline PRM 仍有稳定提升(NDCG@5 0.6676→0.6700),说明即便候选列表短、缺乏 query 序列信号,IAN 的 list 级聚合机制本身就有价值。在工业 Music Search 上优势更明显:PIANO 显著超过 PEAR(架构最相似的强 baseline,NDCG@3 0.8277→0.8296、MAP 0.8081→0.8100)和其他 baseline。值得注意的是按 NDCG@3 排序的梯队——PEAR (0.8277) ≫ PRM (0.8098),说明引入用户历史(PEAR、PIANO)相对纯 slate 模型(PRM/SAR/DLCM)有一大截提升,而 PIANO 在 PEAR 基础上再通过 query-conditioned 对齐 + list 级监督进一步推进。这印证了"融合 query-conditioned 兴趣建模 + 显式 list 级多目标优化"能在真实场景中改善重排质量。

七、消融与分析(RQ2–RQ5)

7.1 组件消融(RQ2)

在工业数据集上做组件消融:

Table 4. PIANO 消融研究(工业 Music Search 数据集)

Model NDCG@3 NDCG@5 MAP
w/ QDIR, w/ IAN 0.8296±0.0002 0.8606±0.0002 0.8100±0.0003
w/o QDIR, w/ IAN 0.8108±0.0013 0.8442±0.0011 0.7880±0.0015
w/ QDIR, w/o IAN 0.8198±0.0002 0.8507±0.0002 0.8002±0.0003
w/o QDIR, w/o IAN 0.8103±0.0014 0.8437±0.0013 0.7874±0.0018

结论分析

  • QDIR 的作用:去掉 QDIR(替换为 query-agnostic 池化),NDCG@k 与 MAP 一致下降。对比"w/ QDIR, w/o IAN"(NDCG@3=0.8198) 与 "w/o QDIR, w/o IAN"(0.8103),可见 QDIR 单独贡献约 +0.0095。这证实把长期行为信号与当前查询对齐对有效个性化是必要的——它过滤噪声、捕捉意图漂移。
  • IAN 的作用:去掉 IAN 与 list 级头,所有指标一致退化。对比"w/o QDIR, w/ IAN"(0.8108) 与 "w/o QDIR, w/o IAN"(0.8103),IAN 在无 QDIR 时贡献较小;但在有 QDIR 时(0.8296 vs 0.8198)IAN 贡献约 +0.0098,明显更大。这说明两个组件存在正向协同:IAN 需要 QDIR 提供高质量的 query-conditioned 初始化才能充分发挥 list 级监督的价值,二者互补。

7.2 平衡参数 $\alpha$ 的影响(RQ3)

$\alpha$(式 15)控制 list 级与 item 级监督的权衡:

Table 5. 不同平衡参数 $\alpha$ 下的 PIANO 性能

$\alpha$ NDCG@3 NDCG@5 MAP
0.00 0.8199±0.0002 0.8508±0.0002 0.8004±0.0003
0.25 0.8250±0.0003 0.8577±0.0002 0.8052±0.0003
0.50 0.8296±0.0002 0.8606±0.0002 0.8100±0.0003
0.75 0.8262±0.0005 0.8576±0.0004 0.8060±0.0006

结论分析:性能呈清晰的倒 U 形。$\alpha=0$(纯 item 级,无 list 级监督)因缺乏全局指导而次优;$\alpha=0.5$ 取得最佳平衡,说明全局 list 语义与细粒度 item 信号互补;继续增大到 $\alpha=0.75$(偏 list 级)收益递减,过度强调 list 级损失反而会稀释 item 级打分能力。这验证了联合优化的必要性,也确定了后续实验统一用 $\alpha=0.5$。(注:式 15 中 $\alpha$ 是 $L_{\text{list}}$ 的权重,故 $\alpha=0$ 表示纯 item 级,与表中 $\alpha=0$ 行性能偏低、纯 item 级"缺乏全局指导"的叙述一致。)

7.3 历史行为序列长度的影响(RQ4)

Fig. 3. 历史行为序列长度对排序性能的影响:随序列从 5 增长到 30,NDCG@3、NDCG@5、MAP@5 三项指标单调上升

结论分析:如图 3,所有指标随序列从 5 增长到 30 单调提升。这验证:更丰富的历史行为序列为 QDIR 提供更强的长期偏好信号,而其 query-driven cross-attention 会过滤无关历史,所以更长的序列带来更多有用信号而不引入噪声。这与 QDIR "用当前 query 加权历史"的设计自洽——若没有这种过滤,加长序列通常会引入噪声导致性能饱和甚至下降。

7.4 IAN 的可视化(RQ5)

为评估 IAN 是否真的编码了 list 级风格信号,作者对一批 held-out 用户提取经 Transformer 后的 IAN 嵌入 $h_0'$,用 t-SNE 投影到二维。考察八个高频曲风标签——Anime/ACG、Children、Chinese Traditional、Electronic、Folk、Rock、Slow DJ、Soundtrack,每个点按候选列表的主导曲风着色。

Fig. 4. 经 Transformer 编码后 IAN 输出嵌入的 t-SNE 可视化:不同曲风形成可分辨的聚类,Slow DJ 在左侧形成分离良好的簇,Electronic 与 Anime/ACG 占据下中部与右上部不同区域

结论分析:可视化显示清晰的曲风对齐聚类Slow DJ 在左侧形成分离良好的簇,ElectronicAnime/ACG 占据下中部和右上部不同区域,其他曲风也呈现可分辨模式(部分重叠反映风格邻近性)。这表明 IAN 成功聚合了全局候选列表信息,产出语义上有意义的表征。关键在于:由于用户参与度随列表构成(如曲风)变化,IAN 区分风格不同列表的能力,给 list 级 MLP 头预测点击/转化提供了有用基础。类比 BERT 的 [CLS],IAN 把 item 级特征聚合成 list 级摘要,同时喂给 list 级头并通过自注意力调节 item 级打分。

八、在线实验与部署

8.1 在线 A/B 测试

作者在工业音乐搜索栈做了多周在线实验。用户按稳定标识分桶,treatment 用 PIANO、control 用既有重排器。试验显示 CTR +0.62%、CVR +4.45%(均 $p<0.05$,双尾),且收益在工作日/周末与主要 query 类别上都稳定。

Table 6. 在线 A/B 测试结果:相对 control 的绝对与相对变化

Week CTR Abs (pp) CTR Rel (%) CVR Abs (pp) CVR Rel (%)
Week 1 +0.13* [0.00, 0.26] +0.46* +0.006* [0.003, 0.009] +4.62*
Week 2 +0.18* [0.05, 0.31] +0.66* +0.007* [0.004, 0.009] +4.91*
Week 3 +0.21* [0.05, 0.36] +0.73* +0.006* [0.003, 0.011] +4.02*
Week 4 +0.17* [0.01, 0.33] +0.61* +0.007* [0.004, 0.013] +4.23*
Avg +0.17 +0.62 +0.005 +4.45

注:* 表示 $p<0.05$(双尾)显著。

结论分析:四周内 CTR/CVR 的绝对提升均稳定为正且统计显著,置信区间下界基本在 0 以上。CVR 的相对提升(~+4.45%)远大于 CTR(~+0.62%)——这与 PIANO 显式做 list 级多目标(含 conversion)优化的设计直接对应:转化(付费会员订阅)是稀疏但高价值信号,list 级 CVR 监督让模型更善于把"会促成订阅"的列表组合整体顶上去,这是 item 级代理优化难以达到的。

8.2 在线部署

PIANO 已部署于网易云音乐,作为 matching→ranking→re-ranking 流水线中的后排序(post-ranking)服务:上游排序器返回列表 $I$,PIANO 产出最终顺序 $\pi$。稳态下 95% 流量由 PIANO 服务(覆盖数百万 DAU),保留 5% 随机 holdout 路由到 baseline 做长周期 KPI 跟踪。作者用最新交互日志做周期性模型刷新以适应偏好演化。自上线以来关键业务指标持续高于对照组,且不损害在线延迟要求。这证明 list-aware、query-conditioned 的重排可在高流量音乐搜索系统中可靠地规模化运行。

九、核心贡献总结

  1. QDIR——查询驱动的兴趣精炼:首次以"当前 query 为 Q、历史 query 序列为 K、历史交互 item 为 V"的 cross-attention 机制,动态地用当前查询过滤/重加权长期偏好,解决音乐搜索中"快速意图漂移"导致的历史偏好不一致问题;并用恒等初始化的短期投影 + 长短期 + 用户画像融合产出 query-conditioned 用户兴趣。
  2. IAN——受真实 list 级标签监督的 [CLS] 式聚合节点:用 QDIR 兴趣初始化、固定参考位置锚定的全局 token,由真实 per-list CTR/CVR(软标签 = 列表内点击/转化占比)直接监督,实现 list 级多目标优化,并通过自注意力把全局上下文反哺到 item 级打分——区别于 RankFormer 用合成标签 + 通用可学习 token。
  3. 判别式单次前向的 list 级多目标框架:相对 SORT-Gen 的自回归生成式 list 级优化,PIANO 在单次前向内完成 list 级 + item 级联合预测,兼顾效果与在线延迟,适合 latency-sensitive 工业部署。
  4. 完整工业验证:公开(Yahoo Letor)+ 工业(网易云音乐)双数据集离线领先,外加多周线上 A/B(CTR +0.62%、CVR +4.45%)与 95% 流量规模化部署。

十、讨论与局限性

值得借鉴的设计

  • "key=历史 query、value=历史 item"的 cross-attention 是一个干净且可迁移的 query-conditioned 兴趣建模范式,凡是"既有搜索 query 历史、又有行为历史"的搜索/推荐场景(电商搜索、视频搜索)都可借鉴,比静态 query 池化(如 He et al. [14])更能捕捉意图漂移。
  • 用真实 per-list 率(软标签)显式监督 [CLS] 式 token,把"list 级多目标"从 item 级代理升格为一等公民,且实现成本低(一个 token + 一个 BCE 头)。$\alpha$ 的倒 U 形曲线给出了 list 级与 item 级监督的实用配比经验(0.5)。
  • 音乐专用 Qwen3-Embedding 双塔 + 离线预计算歌曲嵌入:把大模型编码成本与在线延迟解耦,是 LLM 嵌入落地工业重排的务实工程范式。

局限与争议

  • 离线绝对提升偏小:在工业数据集上 PIANO vs PEAR 的 NDCG/MAP 提升只在第三/四位小数(如 NDCG@3 0.8277→0.8296,+0.23%),虽然有 10 次种子的小标准差支撑统计可靠性,但收益幅度有限;线上 CVR +4.45% 与离线小提升之间的"放大"主要来自 list 级 conversion 监督,论文未给出离线 list 级 CTR/CVR 指标来直接佐证这一点(离线只报 NDCG/MAP 这类排序质量指标,与线上 CTR/CVR 之间存在 metric gap)。
  • 方法范围较窄:PIANO 是一个重排模块,依赖上游排序给出的候选列表 $I$ 与高质量 query/song 嵌入,整体框架对召回/排序阶段无改动,属于流水线末端的局部优化。
  • 多个超参需要调:$\lambda$(式 1)、$\alpha$(式 15)、$\beta$(式 13)三层权重,论文只系统研究了 $\alpha$,$\lambda$ 如何在线扫 Pareto 前沿、$\beta$ 的取值影响缺乏实证。
  • Transformer 仅 2 层、$d_{\text{model}}=128$:模型容量较小(为满足在线延迟),论文未探索 scaling 行为,list 长度 $M$ 较大时自注意力 $O(M^2)$ 成本与 IAN 聚合质量的权衡也未讨论。
  • 泛化性:QDIR 的价值高度依赖"用户有丰富历史搜索 query",对冷启动用户或 query 历史稀疏的场景效果存疑(图 3 显示序列越短性能越低)。

与已有工作的差异:PIANO 同时攻 query-aware 意图对齐(区别于 PEAR 只用 item 历史、He et al. 用静态 query)与 list 级多目标(区别于 PRM/SAR/DLCM 的单目标或 item 级处理、RankFormer 的合成标签、SORT-Gen 的生成式范式)。其判别式单次前向 + 真实 list 标签监督的组合,是它在工业 latency-sensitive 音乐搜索落地的关键差异点。