← Back to list
RRK

Efficient Listwise Reranking with Compressed Document Representations

LLM Naver
Abstract 7 Reading 7 Rating —
2026-04-29
Hervé Déjean, Stéphane Clinchant
NAVER LABS Europe
RRK 把 PISCO 风格的多 token soft compression 引入 listwise reranking,每文档压缩为 8 个 memory token 后由 LoRA 微调的 8B Qwen2.5 reranker 单次前向 + 余弦打分,蒸馏 jina-v3 教师;BEIR 上比 0.6–4B reranker 快 3×–18×,长文档场景效率优势放大到 10×–58×。
评分原因
摘要评分:将文档压缩成多 token 固定长度 embedding 用于 listwise reranking,蒸馏训练,相比小 reranker 3-18× 加速且效果不降,长文档优势显著,对 LLM 推理效率有借鉴价值
精读评分:首次把 PISCO 风格 soft compression 用于 listwise reranking,工程化干净(offline 压缩 + single-pass + 余弦打分),8B 模型 8 token/doc 跑赢 4B 全文且长文档场景速度领先 10×–58×;新意主要是任务迁移而非全新机制,且未对比同期 ResRank,故 7 分。
pretrained-lm search-ranking knowledge-distillation academic

Efficient Listwise Reranking with Compressed Document Representations (RRK)

一、研究动机与背景

1.1 LLM 列表式重排器的效率瓶颈

现代信息检索(IR)通常分两阶段:第一阶段(first-stage)从大规模语料中召回候选段落(BM25、SPLADE、密集检索),第二阶段(reranker)对召回结果进行精细重排。LLM-based 列表式重排(listwise reranking)一次性接收 query 和数十个候选文档的完整文本,让模型在所有候选间显式做 cross-passage attention,效果显著优于传统 cross-encoder 与 pointwise reranker。然而该范式在工业场景下面临严重效率问题:

  • 输入长度爆炸:把 50–100 个候选文档的全文拼接成 prompt,序列长度轻易突破 10k token,self-attention 的 $O(L^2)$ 复杂度让推理延迟急剧上升。
  • 模型规模代价:listwise 重排器通常基于 7B/8B LLM;即便用 0.6B/4B 的小模型,sliding-window 的多次推理也叠加成显著延迟。
  • 生成开销:原始 RankGPT 风格做法要 LLM 显式生成排序后的文档 ID 序列(n→4.5n token),后续工作(Gangi Reddy 2024, E2Rank 2026, jina-reranker-v3)通过 first-token logits 或 embedding 得分把生成开销压到 0,但输入侧的长度问题仍未解决。

1.2 软压缩方向的启发

近期 RAG 社区涌现一批 soft compression 方法,把文档压缩成少量 memory token 供 LLM 在长上下文 / RAG-QA 中复用:

  • AutoCompressor(Chevalier et al. 2023):递归在 LM 训练目标上学到压缩 token;
  • ICAE(Ge et al. 2023):In-Context AutoEncoder,固定解码器、用文档自编码任务预训练;
  • xRAG(Cheng et al. 2024):直接把检索器 embedding 通过适配器投影到冻结 decoder 输入空间;
  • PISCO(Louis et al. 2025):完全用知识蒸馏训练 compressor 与 decoder,重现 teacher 的输出,在 RAG-QA 上做到 16× 压缩、0–3% 精度损失;
  • ArcEncoder(Pilchen et al. 2025):单 token 压缩文本用于 LLM 输入;
  • PE-Rank(Liu et al. WWW 2025):把 first-stage Jina embedding 当作 passage 的压缩表示送入 reranker,但仍依赖 sequential decoding 输出排列;
  • E2Rank(Liu et al. 2026):把第一阶段 retrieval embedding 与 listwise reranking 联合训练,复用 embedding 做最终打分。

1.3 RRK 的核心问题

PE-Rank、E2Rank 都用 IR 任务训出来的 retrieval embedding 作为 passage 压缩表示。论文的核心问题是:

Soft compression(即从 LLM 自身内部语义提炼的多 token 富表示)能否替代 IR-based embedding,作为更适合 listwise 重排的 passage 压缩表示?

贡献:提出 RRK(compressed version of ReRanker),首个把 PISCO-style soft compression 与 listwise reranking 结合的端到端框架。RRK 8B 参数模型在 BEIR 上比 0.6–4B 的小型 reranker 快 3×–18×,效果不降;在长文档(MS-MARCO Document, ~1k token)场景优势进一步放大到 10×–58×。这一发现支持"压缩表示的 质量长度 更重要"的核心论点:LLM-derived 软压缩比 IR-derived embedding 保留更丰富的细粒度语义,因此即便用 8B 大模型 + 短输入也能跑赢 4B/0.6B + 长输入。

Figure 1: BeIR 上效率/效果权衡图。RRK 8B 用 8 token 压缩表示(512-token 文档),同时跑赢所有 0.6B-4B reranker 在速度和效果上

二、核心方法 / 模型架构

2.1 系统概览

RRK 由两个 LoRA-finetuned 组件组成:

  1. Compressor $f_{\theta_c}: d_i \to \mathbf{c}_i$:基于 PISCO 模型,把每个文档 $d_i$ 映射成 $l$ 个 memory token 的 embedding 序列 $\mathbf{c}_i = (c_i^1, \ldots, c_i^l)$。论文固定 $l = 8$。
  2. Decoder reranker $g_{\theta_r}(q, \mathbf{c}_1, \ldots, \mathbf{c}_k)$:接收 query 和 $k$ 个候选文档的压缩表示,输出每个候选的相关性分数 $s_i$。

形式化:给定文档集合 $\mathcal{D} = \{d_i\}_{i=1}^N$ 和 query $q$,第一阶段检索器返回 top-$k$ 子集 $D_k = \{d_1, \ldots, d_k\}$,重排器输出分数 $s_i = g_{\theta_r}(q, \mathbf{c}_i)$ 用于排序。

Figure 4: RRK 架构示意图——query token 与每个文档的压缩 token 拼接,最终在文档分隔符位置取 hidden state 与 query EOS hidden state 做 cosine 相似度

2.2 文档压缩(PISCO Compressor)

训练完成后,每个文档 $d_i$ 在离线(offline)阶段被一次性压缩并存盘——这是 RRK 工业部署友好的关键。对每个 $d_i$,附加 $l$ 个 memory token $(m_1, \ldots, m_l)$ 形成 $(d_i; m_1, \ldots, m_l)$ 输入压缩器,取这些 memory token 的最终隐藏态作为文档 embedding:

$$\mathbf{c}_i = (c_i^s)_{s=1\ldots l} \tag{1}$$

PISCO 训练时使用 $l = 8$、最大文档长度 128 token,对应 16× 压缩比。但论文实验证明 PISCO compressor 可自然外推到长文档(最长 2048 token,对应 256× 压缩比,见 §6.1),这是 RRK 在长文档场景效率优势进一步放大的根本原因。

对于 BEIR 平均文档长度(约 200 token)和 $l = 8$,单文档压缩到 8 token,attention 复杂度的二次项被显著降低。

2.3 列表式 LLM 重排器

RRK reranker 的输入借鉴 jina-reranker-v3 的设计:query 在序列首尾各出现一次("repeating the query at both the beginning and end may compensate for the lack of bidirectional attention and enhances the results")。对 query $q$ 和候选 $\{d_1, \ldots, d_k\}$,输入序列:

$$X = (q; \mathbf{c}_1; [\text{SEP}]; \mathbf{c}_2; [\text{SEP}]; \ldots; \mathbf{c}_k; [\text{SEP}]; q) \tag{2}$$

记 reranker hidden state 为 $H = \text{Decoder}_{\theta_r}(X)$。打分协议

  • Query 表示 $\mathbf{q}$:取最后一个 token 的 hidden state $\mathbf{q} = H_{|X|}$(global aggregation embedding);
  • 文档表示 $\mathbf{h}_i$:取第 $i$ 个 SEP token位置的 hidden state(紧跟在 $\mathbf{c}_i$ 后);
  • 相关性分数

$$s_i = \cos(\mathbf{q}, \mathbf{h}_i) \tag{3}$$

生成 token 数 = 0,单次前向就能给所有候选打分。打分阶段读取压缩 embedding 的开销不超过总重排时间的 10%(论文实测)。

2.4 训练目标:RankNet Listwise Loss

RRK 用 RankNet pairwise ranking loss 训练。设 $\mathcal{P}$ 为 preference 对集合 $(d_i, d_j)$($d_i$ 比 $d_j$ 更相关),温度 $\tau = 1/8$:

$$\mathcal{L}(q, D_k) = \sum_{(i,j) \in \mathcal{P}} \log\left(1 + \exp\left(\frac{s_i - s_j}{\tau}\right)\right) \tag{4}$$

关键点:compressor 与 reranker 联合训练——通过 $s_i = g_{\theta_r}(q, f_{\theta_c}(d_i))$ 把排序梯度反向传到 compressor,使后者学会保留对排序有用的信息(而非通用 RAG-QA 信息)。训练完成后,文档可被 offline 压缩,inference 时 reranker 读 embedding 即可。

2.5 复杂度分析

记 $k$ 为候选数、$|q|$ 为 query token 数、$|d|$ 为平均文档 token 数。

  • 标准 LLM listwise reranker(如 jina-v3):处理长度 $|q| + k|d|$ 的序列,注意力复杂度

$$O((|q| + k|d|)^2) \tag{5}$$

  • RRK:处理长度 $2|q| + k(l + 1)$ 的序列(query 重复一次、$l$ 压缩 token + 1 个 SEP),复杂度

$$O((2|q| + k(l+1))^2) \tag{6}$$

由于 $l \ll |d|$(如 BEIR 中 $l = 8$ vs $|d| \approx 200$),attention 二次项显著缩小。这正是 RRK 速度优势的来源——文档越长,优势越大。

2.6 Pointwise 变体(RRK PW)

为消融对比,论文还训了一个 pointwise 版本:reranker 输入 $(q; \mathbf{c}_i)$ 并把最后一层最后 token 通过线性头映射到标量分数,用 MSE loss 拟合教师的分数:

$$\mathcal{L}_{\text{PW}} = \frac{1}{N}\sum_i (s_i^{\text{student}} - s_i^{\text{teacher}})^2$$

实验显示 RRK PW 比 RRK listwise 略弱,验证 listwise 训练对学好"跨文档对比"信号不可或缺。

三、关键技术细节

3.1 蒸馏教师选择

论文不依赖大规模人类标注,全用蒸馏训练。教师选择经过对比实验:

  • 第一阶段检索器:SPLADE-V3(Lassance et al. 2024)——快、对域外鲁棒;
  • Listwise 教师:jina-reranker-v3(Wang et al. 2025)——基于 Qwen3-0.6B 的 listwise reranker,在 BEIR 上效果与 Qwen3-4B reranker 相当(Zhang et al. 2025)。

教师在 top-50 上提供 ranking permutation,作为蒸馏信号。这一点与 SumRank 用 Qwen2.5-72B 做教师、ResRank 用 Qwen3-Max 重新标注 PE-Rank 数据集的做法殊途同归。

3.2 学生骨干:Qwen2.5-8B + LoRA

PISCO 模型基于 Qwen2.5-8B-Instruct(与 PISCO 原始论文一致),LoRA 微调 compressor 和 reranker。lora rank、alpha 等超参未在正文显式说明。

3.3 训练数据

两份数据集组合:

  1. MS MARCO passage(Bajaj et al. 2018):500k query,每条配 16 个文档(top-50 中随机抽),相关性由 SPLADE-v3 + jina-v3 教师生成;
  2. E2RANK 数据集(Campagnano et al. 2025):150k query,每条配 16 个文档,由 Qwen-32B 作为 zero-shot 教师生成相关性分数;该集源自 BGE-M3。

最终用 MS-MARCO + E2RANK 联合训练效果最好(avg nDCG@10 = 58.4)。

3.4 训练超参

  • 2 epoch(再多无进一步提升);
  • 1 张 A100;16 docs/query, batch size 2, gradient accumulation 16,等效 batch 32;
  • 学习率 $1\times 10^{-4}$;
  • Pointwise 版本:4 docs/query, batch size 8(同样 ~48h 训练);
  • 推理 batch size 128(~90% A100 显存利用率,输入长度 512);
  • 整体训练 ~48 小时。

3.5 三类基线

类别 模型 备注
Public reranker jina-v3 (0.6B), Qwen3-0.6B, Qwen3-4B 用 7M/12M 大数据训练,规模和数据量均显著占优
Fine-tuned 文本输入(无压缩) ModernBERT-large, Qwen2.5-8B 用同 RRK 数据训练,作为效果上界与文本输入对照
RRK 系列 RRK†(listwise), RRK PW(pointwise) †标记 listwise reranker

baseline 与 RRK 都用 SPLADE-V3 top-50 作为输入候选,确保公平对比。

四、实验设置

4.1 数据集与评估

  • TREC DL 2019/2020(passage 任务);
  • BEIR:12 个 OOD 数据集(排除 ArguAna,因其与多数 BEIR 任务在 counter-argument 检索目标上不同);
  • MS-MARCO Document DL19/20:长文档场景(平均长度 ~1000 token);
  • 主指标:nDCG@10 ×100;效率指标:latency ratio(相对 RRK 的 query-per-second 比值,RRK 始终最快)。

4.2 评估协议

  • 候选数 $k = 50$(除特别声明);
  • 输入长度配置 512 / 1024 / 2048(或 -1 表示 jina-v3 的全长无截断);
  • 所有 latency 在单卡 A100、batch size 128 下测量;输入长 512 默认满 90% 显存利用率,更短输入用 batch 256。

五、主要实验结果

5.1 BEIR 综合表现(Table 1)

Model Len. nDCG@10 Latency Ratio s/q ↓
RRK Rerankers (Qwen2.5-8B)
RRK † (listwise) 512 58.4 0.06
RRK PW (pointwise) 512 57.5 0.21
Public Rerankers
jina-v3 † (Qwen3-0.6B) 512 57.6 0.44
jina-v3 † 1024 59.0 0.53
jina-v3 † -1 59.8 11× 0.72
Qwen3-0.6B 512 55.1 0.18
Qwen3-0.6B 1024 56.9 0.24
Qwen3-0.6B 2048 57.3 0.31
Qwen3-4B 512 58.4 10× 0.64
Qwen3-4B 1024 59.6 14× 0.84
Qwen3-4B 2048 60.2 17× 1.0
Fine-tuned without compression
ModernBERT-Large 512 57.2 0.13
Qwen2.5-8B 512 59.7 20× 1.26

关键观察

  • 8B + 8 token 压缩跑赢 0.6B/4B + 全文输入:RRK 58.4 仅落后 Qwen3-4B@2048 的 60.2 1.8 个点,但快 17 倍;与 Qwen2.5-8B 文本版(59.7)相比,速度快 20 倍只损失 1.3 点。
  • 超过同量级公开模型:RRK 58.4 > Qwen3-0.6B 任意输入长度,且 RRK 比 Qwen3-0.6B@2048 还快 5×。
  • 比 ModernBERT-Large 快 2×、效果高 1.2 点:表明压缩-输入策略不仅适合大模型,对小型 reranker 也是替代方案。

5.2 BEIR 细粒度对比(Table 2)

Figure 2 (Table 2): BEIR 12 子集上的详细 nDCG@10 对比

SPLADE-V3 Jina-v3 † Qwen3 4B ModernBERT (text) Qwen-2.5 8B (text) RRK RRK †
TREC DL 19 72.3 75.3 76.5 76.3 77.9 77.5 75.8
TREC DL 20 75.4 66.8 75.3 76.7 79.0 77.6 77.1
TREC-COVID 74.8 87.8 88.1 89.0 87.7 86.5 89.3
NFCorpus 35.7 36.7 38.6 38.1 38.7 38.7 37.2
NQ 58.6 72.5 77.5 66.0 72.3 66.3 70.2
HotpotQA 69.2 80.3 79.1 75.4 78.4 73.7 76.3
FIQA 37.4 46.1 46.9 47.6 49.4 47.5 45.3
Touché 2020-v2 29.3 32.8 32.5 35.2 32.7 31.1 33.6
Quora 81.4 89.9 84.9 86.0 89.2 86.8 87.6
DBPedia 45.0 48.7 48.3 52.0 48.7 49.9 51.2
SCIDOCS 15.8 22.2 23.3 19.5 21.3 19.6 21.1
FEVER 79.6 91.6 90.5 88.4 89.4 84.8 85.3
Climate-FEVER 23.3 33.7 39.5 25.3 28.3 27.0 28.1
SciFact 71.0 75.6 77.4 75.4 77.6 76.4 75.3
AVG 51.8 59.8 60.2 57.9 59.4 57.5 58.4

分析:RRK † 在 12 个 BeIR 子集中没有任何一项夺魁,但通过保持稳定中游表现拿下平均第二(仅次于 Qwen3-4B)。在 TREC-COVID 上 RRK † 89.3 居首,说明对长查询、短文档的 ad-hoc 任务有特殊优势。RRK 在 HotpotQA、FEVER 等多跳/事实核查类任务上显著落后 jina-v3 与 Qwen3-4B(差距 ~5 点),可能是因为压缩损失了支持多跳推理的细粒度证据。

5.3 长文档场景(Table 3)

Figure 3: MS-MARCO Document DL20 上效率/效果权衡。RRK MS 在 2048 token 时 nDCG@10=68.6,比 Qwen3-0.6B 快 10 倍以上

Doc Length RRK-MS † RRK † jina-v3 † Qwen3 4B Qwen3 0.6B MBerT
nDCG/Lat nDCG/Lat nDCG/Lat nDCG/Lat nDCG/Lat nDCG/Lat
MS MARCO Document DL19
512 68.5 / 1× 70.6 / 1× 62.6 / 11× 60.3 / 4× 60.3 / 4× 69.7 / 6×
1024 68.6 / 1× 72.1 / 1× 66.4 / 24× 66.9 / 21× 64.5 / 5× 70.0 / 7×
2048 68.6 / 1× 72.0 / 1× 68.3 / 58× 70.0 / 37× 65.5 / 10× 69.7 / 8×
MS MARCO Document DL20
512 66.1 / 1× 67.7 / 1× 60.0 / 12× 58.5 / 13× 55.0 / 4× 66.3 / 6×
1024 66.5 / 1× 67.0 / 1× 62.6 / 24× 62.8 / 20× 59.4 / 6× 66.4 / 7×
2048 67.0 / 1× 68.6 / 1× 64.5 / 59× 66.9 / 35× 63.7 / 10× 67.4 / 8×

关键发现

  • 长文档场景效率优势放大:在 2048 token 时 RRK 比 jina-v3 快 58–59×,比 Qwen3-4B 快 35–37×,比 Qwen3-0.6B 快 10×。
  • 长文档反而提效:从 512 到 2048,RRK 自身延迟几乎不变(压缩比 256×),nDCG 反而提升(DL19 70.6→72.0、DL20 67.7→68.6),说明 PISCO compressor 即便在 128-token 训练下也自然外推到 2K 输入。
  • 公开模型在长文档下集体失速:jina-v3 从 512→2048 延迟翻 5×;Qwen3-4B 翻 9×;表明非压缩 listwise reranker 在长文档场景几乎不可部署。
  • ModernBERT-Large 效果接近 RRK 但效率劣势:MBerT 67.4 vs RRK 68.6 (DL20@2048),但前者用的是真实文本输入(受其 8K context 限制)。

论文原文:"This confirms that listwise reranking, when used without compression, does not by itself provide sufficient efficiency benefits."(无压缩的 listwise 重排,单凭 listwise 训练本身不足以解决效率问题。)

5.4 训练数据消融(Table 4)

Training set Nb. queries nDCG@10
MS-MARCO 0.50M 57.7
MS-MARCO 0.15M 57.1
E2RANK 0.15M 55.6
MS MARCO + E2RANK 0.65M 58.4

结论

  • 单独 MS MARCO 0.15M 子样本(57.1)强于 E2RANK 0.15M(55.6),尽管 E2RANK 用了更强的 Qwen3-32B 教师。论文推断这是因为 RRK 对域适配敏感(MS-MARCO 是 in-domain),而 E2RANK 教师分布漂移导致蒸馏效果下降;
  • MS-MARCO + E2RANK 联合最优(58.4):listwise 训练能融合多个不同教师的排序信号,在多教师场景中比 pointwise 更鲁棒。这也是 RRK PW 在该联合数据上未观察到同等增益的原因。

5.5 PISCO Compressor 消融(Table 5)

Compressor configuration nDCG@10
Frozen PISCO compressor 55.5
Compressor from scratch 57.7
Fine-tuned PISCO compressor 58.4

关键洞察:原始冻结的 PISCO compressor(仅基于 RAG-QA 任务预训练)在 reranking 任务上效果有限(55.5);从头训练的 compressor(57.7)反而比冻结预训练好——这暗示 RAG-QA 与 ranking 是不同任务,前者要求保留答案级语义、后者要求保留可比较的排序证据。LoRA 微调 PISCO 预训练权重最优(58.4),印证"从 LM 内部抽取的 soft compression 比 IR-task embedding 更适合 listwise reranking"的核心论点。

5.6 与 PE-Rank、E2RANK 的横向对比(Table 6)

Model nDCG@10 Lat. Ratio
RRK†-MS 55.4 1.0 (0.06)
RRK† 56.5 1.0 (0.06)
E2RANK† (MS)
0.6B 53.9 2.1×
4B 56.2 7.0×
8B 56.8 10.4×
E2RANK† (BGE)
0.6B 55.0 2.1×
4B 57.0 7.0×
8B 57.2 10.4×
PE-RANK† (7B, MS) 51.3

评测协议:BM25 top-100 重排,BeIR 5 子集(TREC-COVID, SciFact, Web-Touché, NFCorpus, DBPedia)。

核心结论

  • RRK 同时碾压 PE-Rank 与 E2RANK:PE-Rank 51.3(7B)、E2RANK 8B 56.8/57.2,RRK 8B 56.5(与 E2RANK 8B 持平)但快 10×
  • PE-Rank 落后明显:用 IR-based first-stage embedding + AR decoding,效果与效率均不及 RRK;
  • E2RANK 输入侧仍依赖 20 个文档全文("to compute query, the top 20 documents in text form are concatenated with the query"),输入长度受限,无法享受 RRK 的纯 8 token 文档输入优势;
  • 论文总结:"Built on a richer compressed representation using 8 compression tokens, RRK consistently outperforms PE-Rank in both effectiveness and efficiency. It also surpasses E2RANK in speed while achieving comparable effectiveness on the shared datasets."

完整 5 子集对比见附录 Table 8(RRK MS+BGE 在 TREC-Covid 上达 87.6,超过所有基线)。

六、消融与讨论

6.1 长文档外推

PISCO compressor 在 128 token 上预训练,但论文实验证明它能自然外推到 2048 token。原因推测是 PISCO 的 self-attention 在更长序列上 memory token 仍能聚合全段语义;但 BEIR 多数文档较短(avg ~200 token),看不到这种增益,因此 RRK 在 BEIR 上从 512→1024 输入长度反而无显著提升。这是一个与文档长度强相关的优势

"Interestingly, RRK, although trained to compress short documents (128 tokens in the PISCO setting), effectively handles long documents and responds favourably to increased document lengths within these collections, a phenomenon not observed with the BeIR collection."

6.2 Pointwise vs Listwise

RRK PW 在 Table 1 中比 RRK 落后 0.9 点(57.5 vs 58.4)但速度慢 3×。原因:

  • pointwise 用 MSE 损失,分数分布漂移会因数据集差异(multi-teacher)放大;
  • listwise 的 RankNet 损失只关心 相对 序,对教师分数尺度不敏感,能更好地融合多教师信号;
  • listwise 的 cross-passage attention 在 reranker 内部产生 contextualized 表示,比 pointwise 的"独立打分"信息密度更高。

6.3 与三大公开 reranker 的差异化定位

公开 reranker 用 7M / 12M 大规模标注数据训练,RRK 仅用 0.65M 蒸馏数据:

"While public models perform the best when considering a long input length (2048), their latency compares badly to our RRK models using compressed document representation."

论文不试图在效果上击败 Qwen3-4B (60.2) ——这种规模的训练数据和 fine-tuning 工程是 NAVER LABS 的复现成本难以承受的。RRK 的核心价值是效率维度的 Pareto 前沿推进:在可接受的效果范围内提供 3×–18× 的速度增益。

七、核心贡献总结

  1. 首次把 PISCO-style soft compression 用于 listwise reranking:把 RAG-QA 中证明有效的多 token 软压缩方法迁移到 IR 重排,证明 LLM-derived 压缩比 IR-derived embedding 更适合排序任务。
  2. 8 token 富压缩 + cosine 打分的极简架构:8B 模型用 8 token/文档 跑赢 4B + 全文,效率/效果 Pareto 占优。
  3. 联合微调 compressor 与 reranker:通过排序损失反向传播让 compressor 学到"为排序服务"的语义,而非通用 RAG 摘要。
  4. 长文档场景的部署友好性:在 MS-MARCO Document(~1k token)上比公开 reranker 快 10×–58×,效果反而提升。
  5. 完整效率-效果对比:与 PE-Rank、E2RANK 在同一评测协议下的横向对比,揭示了 IR-based vs LLM-based 压缩的本质差异。

八、与已归档相关工作的对比

ResRank ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training (Alibaba Qwen, 2026-04-24)

关系:独立并发(本文未引用 ResRank,二者发布间隔仅 5 天,殊途同归)· 已加载对方精读

  • 共同关注的问题:LLM listwise reranker 同时受困于「输入侧候选拼接的二次注意力开销」与「输出侧自回归生成排列」两大瓶颈,工业部署延迟巨大。RRK 与 ResRank 用几乎相同的两条路径对症下药:(a) 把每个 passage 压缩成少量 token 注入 reranker;(b) 用 cosine similarity 替代 AR decoding 把生成开销降为 0。两篇论文都把 RankNet 系列损失作为核心训练目标。
  • 相近的技术骨架:ResRank = 1 token/doc(Qwen3-Embedding-4B)+ 残差融合 + 端到端 joint InfoNCE+RankNet;RRK = 8 token/doc(PISCO)+ 直接拼接 + LoRA 联合训练 + RankNet。两者输入序列结构高度同构:(query;压缩 token;分隔符);打分协议同构:query 全局表示与文档表示做 cosine。
  • 本文的差异与推进
  • 压缩源不同:ResRank 复用现成的 Qwen3-Embedding-4B 检索模型作为 encoder(IR 任务源压缩),RRK 复用为 RAG-QA 训练的 PISCO compressor(语言建模源压缩)。RRK 的 Table 5 实验间接支持"从 LM 内部学到的 soft compression 比 IR encoder 输出更适合排序"——这是两篇论文最深刻的分歧点。
  • token 数选择不同:ResRank 取 1 token,靠残差结构补偿;RRK 取 8 token,靠丰富表示直接承担排序信号。两条路径都成立,是设计空间的不同点。
  • 训练目标差异:ResRank 用 InfoNCE+RankNet 双目标保护 encoder 的独立检索能力;RRK 完全放弃保护 compressor 作为独立检索器的能力,仅用 RankNet。RRK 更纯粹的 reranker-only 定位,ResRank 更通用的两阶段端到端定位。
  • 模型规模:RRK 用 Qwen2.5-8B,ResRank 用 Qwen3-4B(reranker)+ Qwen3-Embedding-4B(encoder)。

  • 可比的方法 / 实验差异:ResRank 的 BEIR 8 子集平均 nDCG@10 = 0.5440(single-pass),RRK 在 BEIR 12 子集的 nDCG@10 = 58.4。两者评测覆盖范围与教师不同(ResRank 用 Qwen3-Max + PE-Rank/E2Rank 数据 232K+87K,RRK 用 jina-v3 + MS MARCO/E2Rank 0.65M),不能直接对比绝对数字,但都在 PE-Rank 与 E2RANK 这两个 baseline 上展现压制性优势。两篇论文共同构成 2026 年 4 月「LLM soft-compression listwise reranker」这一新范式的最初证据。

SumRank SumRank: Aligning Summarization Models for Long-Document Listwise Reranking (RUC, 2026-03-25)

关系:同根问题、不同压缩路径(textual summary vs. latent token)· 已加载对方精读

  • 共同关注的问题:长文档(数千 token)下 listwise reranker 的有效性 + 效率双下降。两篇都聚焦"先压缩文档再 listwise 排序"的范式,且都把 MS-MARCO Document、TREC DL(passage 任务) 作为核心评测。两者都发现"无压缩的 LLM listwise reranker 在长文档场景几乎不可部署"。
  • 相近的技术骨架:都把"从大模型蒸馏"作为核心训练范式,都用 listwise teacher 对 student(compressor 或 summarizer)端到端反向传递排序信号;都强调"压缩器不能独立于下游排序任务训练"。
  • 本文的差异与推进
  • 压缩表示差异(核心分歧):SumRank 输出人类可读的文本摘要(约 100 token),让 frozen 的下游 listwise reranker(Qwen2.5-32B)继续在文本上做 sliding window 排序;RRK 输出8 个不可读的 latent token,由专门 fine-tuned 的 reranker 直接消费。SumRank 保留了文本通用性(可换任意下游 reranker),RRK 牺牲通用性换取更激进的压缩比(256× vs ~10×)和零生成开销。
  • 训练范式:SumRank 三阶段(SFT + RL 数据构造 + GRPO)在 NDCG@10 奖励下对齐摘要器;RRK 一阶段联合 LoRA fine-tune compressor + reranker 用 RankNet 损失。SumRank 的 RL 流程成本远高于 RRK 的纯监督蒸馏,但 RRK 不需要 NDCG 直接奖励即能反向传递排序信号。
  • 下游推理协议:SumRank 仍依赖 sliding window(w=20, sz=10)多次推理;RRK single-pass 把 50 个候选一次性吞下。RRK 的 single-pass 是其 3×–18× 速度增益的核心来源。
  • 模型规模:SumRank 摘要器 3B/7B + 32B reranker(共两阶段大模型);RRK 8B compressor + 8B reranker(同骨干、同步训练)。

  • 可比的方法 / 实验差异:两者都用 SPLADE / BM25 作为第一阶段,都报告 long-document 场景的延迟优势。SumRank 的延迟优势主要来自"摘要后下游 reranker 输入变短",RRK 的延迟优势来自"压缩 token 注入 + single-pass + cosine 打分"三重因素叠加。SumRank 更适合"无法 fine-tune 下游 reranker"的工业场景(如调用 GPT-4 reranker),RRK 更适合"自有 reranker 可控"的部署。两条路径互补,未来可融合(如 RRK 上层套用 SumRank 多教师 RL 训练范式)。

九、讨论与局限性

9.1 主要局限(论文 §Limitations)

  1. 依赖短 query:RRK 的速度优势建立在"query 远短于文档"的前提上。若 query 与文档同长(如 BRIGHT 数据集,query 长度堪比 BeIR 文档),输入序列中 query 主导部分使压缩收益消失,RRK 不再快。
  2. 缺乏轻量化 compressor:RRK 用 8B 作为 compressor,作者尝试过 1–4B 模型但未成功。若有能用的 1B 级 compressor,部署成本可大幅降低(同时减少索引存储维度)。
  3. 存储开销:每文档 $c \times h = 8 \times 3584 = 28,672$ float16 ≈ 57 KB。MS-MARCO 8.8M 文档需要 ~230 GB 索引;这与 ColBERT v1 早期版本的 286 GB 相当,但比 first-stage 检索的稠密 embedding(dense 0.5–4 KB/doc)大数十倍。论文承认这是亟待解决的问题,建议用 quantization 缓解。

9.2 值得借鉴的设计

  • 8 token 是经验甜点:1 token 太少(信息瓶颈),更多 token 边际收益递减;这与 ICAE、PISCO 等先驱工作的发现一致。
  • 训练时优于冻结:Table 5 显示从头训 compressor (57.7) 比冻结 PISCO (55.5) 强,进一步微调 PISCO (58.4) 最佳——这给"冻结 compressor + 训 reranker"的简化方案盖棺:行不通。
  • RankNet 优于 MSE:在多教师蒸馏下 listwise + RankNet 比 pointwise + MSE 鲁棒得多。
  • Query 头尾重复:借鉴 jina-reranker-v3 在 causal attention 下的 query 双端重复技巧,缓解 first-half query 没有 attention 到后续文档的问题。

9.3 与已有工作的差异

  • vs PE-Rank / E2RANK:RRK 的本质创新是用LM-derived soft compression 替代 IR-derived embedding作为压缩源;同样多 token 数(8 vs PE-Rank 1)下也支持更细粒度排序信号。
  • vs Compressed-prompt RAG(PISCO 等):RRK 把这些方法从 RAG-QA 任务迁移到 listwise reranking,在新任务上重训 compressor 后效果更佳。
  • vs SumRank:见 §八。SumRank 走文本压缩路径,RRK 走 latent 压缩路径,二者互补。
  • vs ResRank:见 §八。两者几乎同时发布、独立工作,构成同一新范式的双证据点。

9.4 对工业落地的启示

  • 如果 reranker 可自训:RRK 范式(8 token + single-pass + cosine)是当前 latency / quality 折衷的最优解之一;
  • 如果 reranker 不可改:SumRank 范式(输出可读 summary)更合适,但效率收益较小;
  • 存储是隐性瓶颈:57 KB/doc 在 100M 级语料上意味着 5+ TB 索引,需 quantization 或更小 hidden dim 的 compressor 才能规模化;
  • 教师选择决定上界:RRK 用 Qwen3-0.6B 教师(jina-v3)即达 58.4,工业上若用 GPT-4 类大教师重做蒸馏,仍有显著上行空间。