From Relevance to Authority: Authority-aware Generative Retrieval in Web Search Engines¶

研究动机与背景¶

生成式信息检索（Generative Information Retrieval, GenIR）将检索任务重新定义为文本生成问题，模型直接生成文档标识符（DocID）来满足用户查询需求。近年来 GenIR 在学术研究和工业应用中取得了显著进展，已被应用于电商搜索、外卖配送、金融服务等场景。然而，现有 GenIR 方法主要优化语义相关性，忽略了文档权威性（document authority）这一关键维度。

在医疗健康、金融等高风险领域，仅依赖语义相关性进行检索存在严重隐患。如图 1 所示，对于"糖尿病早期症状"这样的查询，纯相关性模型可能将一个未经验证的个人健康博客（Doc 1）与官方医学协会网站（Doc 2）给出相近的排名分数，因为两者在话题上都高度相关。但前者的内容可能包含不准确或未经验证的信息，后者才是可信赖的权威来源。

Figure 1: Illustration of our motivation. (a) Models relying solely on relevance fail to distinguish an unreliable blog from authoritative ones. (b) By integrating authority, our model can prioritize trustworthy documents.

将文档权威性整合到 GenIR 面临三大挑战：（i）定义权威性：仅靠文本线索难以区分精心伪装的推广内容和真正权威的来源，难以在大规模下量化权威性；（ii）学习权威性：在不损害语义相关性的前提下，将权威性这一微妙且复杂的概念注入模型是非平凡的，需要超越标准微调的训练方法；（iii）部署权威性感知模型：直接替换现有生产检索器不切实际且有风险，模型必须能无缝集成到大规模搜索平台的现有流水线中。

核心方法：AuthGR 框架¶

本文提出 Authority-aware Generative Retriever（AuthGR），首个将文档权威性系统性整合到 GenIR 中的框架。如图 2 所示，AuthGR 包含三个核心组件：（i）Multimodal Authority Scoring，利用视觉语言模型（VLM）从文本和视觉线索中量化文档可信度；（ii）Three-Stage Training Pipeline，通过领域持续预训练（CPT）、监督微调（SFT）和群体相对策略优化（GRPO）逐步注入权威性意识；（iii）Hybrid Ensemble Pipeline，将 AuthGR 与现有检索器集成以实现稳健部署。

Figure 2: Overall architecture of AuthGR. (a) Multimodal Authority Scoring quantifies document trustworthiness based on textual and visual signals. (b) Three-stage training pipeline progressively instills authority awareness into the retriever. (c) The Hybrid Ensemble Pipeline integrates AuthGR with existing rankers for deployment.

3.1 Multimodal Authority Scoring¶

为了在大规模下量化文档权威性，本文提出了 Multimodal Authority Scoring，自动化模拟人类评估者的判断过程。传统系统依赖 PageRank 等链接结构等碎片化信号，难以全面捕捉可信度。相比之下，人类评估者能综合文本内容、视觉设计和广告模式等多方面线索进行判断。

为复刻这一直觉，本文使用视觉语言模型（VLM）作为人类评估者的可扩展代理。具体而言，VLM 同时处理两类信号：

文本信号：包括文档标题、正文内容和 URL 元数据
视觉信号：来自页面级截图

视觉信号的整合至关重要，因为推广内容常模仿权威语言风格，仅靠文本难以识别欺骗性内容。视觉线索（如广告侵入程度、版面布局质量）对于区分真正权威性和精巧伪装至关重要。

VLM 采用综合评估 rubric，从 Expertise（专业性）、Officialness（官方性） 和 Public Interest（公共利益） 三个核心维度进行评估，并辅以对商业意图和有害内容的检查。文档 $d$ 的权威性分数定义为：

$$\text{Authority}(d) = f_{\text{VLM}}(T(d), V(d)) \in [0, 100] \tag{1}$$

其中 $f_{\text{VLM}}$ 是 VLM 的评分函数，$T(d)$ 和 $V(d)$ 分别表示文本和视觉特征。模型输出一个分数和简洁的自然语言解释。该分数随后在 GRPO 阶段作为奖励信号，显式引导模型优先选择高权威文档。

VLM 评分与人类判断的一致性验证：通过与人类二分类专业性标签的比较（Table 6），VLM 分数展现出强相关性——Point-biserial 相关系数 $r = 0.495$（$p \lt 0.001$），ROC-AUC 为 0.915，Matthews 相关系数为 0.526。在多模态设置下（文本+图片），VLM 在 40,000 个网站上达到 97% 的准确率，显著优于纯文本（81%）和纯图片（92%）设置。

评分效率与可扩展性：采用三种优化策略——批量请求、多样本请求（将多个站点合并到单个 prompt）、结构化 JSON 输出格式。生产环境中每季度对全库重新评分一次，约 10 万个站点需 3000 万 tokens。增量更新通过梯度提升回归树模型监控内容变化，仅对分数偏差显著的站点触发重新评分。

3.2 Three-Stage Training Pipeline¶

AuthGR 通过三个阶段逐步将权威性嵌入检索器。生成目标采用host-level URL 作为文档标识符（如使用 "plus.gov.kr" 而非完整 URL），host 级别粒度降低噪声并暴露来源身份，为权威性建模提供稳定基础。

3.2.1 Domain-Continued Pre-Training（CPT）¶

第一阶段通过领域持续预训练将通用 LLM 适配到搜索领域，弥合通用语言知识和结构化 query-document 关联之间的差距。具体地，利用大规模搜索日志，格式化为 [Query + URL + Title + Body] 的拼接序列。这种结构使模型能内化内容与来源身份之间的关联——例如学习到 ".gov" 域名与官方机构相关。模型参数 $\theta$ 通过标准语言建模目标更新：

$$\mathcal{L}_{\text{CPT}} = -\sum_t \log p_\theta(x_t \mid x_{\lt t}) \tag{2}$$

其中 $x_t$ 表示拼接序列中的第 $t$ 个 token。通过将 URL 视为有意义的语义单元而非随机字符串，CPT 为后续的监督映射和权威性对齐建立了稳健的先验。

3.2.2 Supervised Fine-Tuning（SFT）¶

SFT 阶段优化模型在给定查询下生成相关 DocID 的能力，将 CPT 中隐含的 query-URL 关联转化为稳健的排序能力。损失函数为 ground truth DocID 序列的负对数似然：

$$\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(q,d) \sim \mathcal{D}} \left[ \log P_\theta(d \mid q) \right] \tag{3}$$

其中 $P_\theta(d \mid q) = \prod_{t=1}^{L} p_\theta(y_t \mid q, y_{\lt t})$ 表示生成 DocID 序列 $y = (y_1, \ldots, y_L)$ 的概率。

训练数据来自大规模商业搜索引擎的真实点击日志。由于点击日志固有的位置偏差和误点击噪声，本文采用混合过滤策略：（i）基于频率的剪枝，移除不稳定的长尾查询；（ii）使用辅助排序器进行相关性验证，丢弃语义不匹配的对。实验显示，过滤掉 63% 的原始数据后，在策划子集上训练使 P@3 提升 16.62%，收敛速度加快 40%。

3.2.3 Authority-Aware Ranking with GRPO¶

最终阶段采用偏好优化将模型与权威性信号对齐。SFT 平等对待所有有效文档，无法捕捉可信度的内在差异。简单的替代方案如加权交叉熵（WCE）是逐点（pointwise）的，缺乏有效排序所需的探索机制。

Figure 3: Illustration of the GRPO stage.

如图 3 所示，对于给定查询 $q$，从当前策略 $\pi_{\theta_{\text{old}}}$ 采样 $G$ 个候选 DocID $O = \{o_1, \ldots, o_G\}$，每个输出 $o_i$ 获得标量奖励 $r_i = \text{Authority}(d_i)$。然后计算优势值 $A_i = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}$，通过组内奖励归一化。策略通过以下目标优化：

$$\mathcal{L}_{\text{GRPO}} = \mathbb{E}\left[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(O|q)\right]$$

$$\frac{1}{G}\sum_{i=1}^{G}\left[\min(\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i) - \beta \, D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\right] \tag{4}$$

其中 $\rho_i = \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}$ 是似然比，$\pi_\theta$ 和 $\pi_{\text{ref}}$ 分别是当前策略和参考模型（用 SFT 模型初始化）。超参数 $\beta$ 和 $\epsilon$ 分别调节 KL 惩罚和裁剪范围。该阶段使模型能在简单相关性之外区分权威性水平，通过有效平衡探索与利用来实现。

为保证训练稳定性，GRPO 使用严格过滤的高频查询数据集，聚焦于八个高风险领域（健康、教育、信息技术、金融、育儿、社会、动物、招聘），并使用预计算的权威性分数作为奖励。

3.3 Hybrid Ensemble Pipeline for Deployment¶

生产环境中，AuthGR 通过 Hybrid Ensemble Pipeline 与现有检索器协同工作。现有检索器提供相关性分数 $S_{\text{rel}}(d \mid q)$ 以覆盖广泛的文档集合，AuthGR 生成一组与权威性对齐的 DocID 集合 $\mathcal{D}_{\text{auth}}(q)$。对于 $d \in \mathcal{D}_{\text{auth}}(q)$，通过线性衰减得到归一化分数：

$$S_{\text{auth}}(d \mid q) = \frac{N - \text{rank}(d) + 1}{N} \tag{5}$$

其中 $N$ 是生成的 DocID 数量。最终分数计算为：

$$S_{\text{final}}(d \mid q) = S_{\text{rel}}(d \mid q) + \lambda \cdot S_{\text{auth}}(d \mid q) \cdot \mathbb{I}[d \in \mathcal{D}_{\text{auth}}(q)] \tag{6}$$

其中 $\mathbb{I}[\cdot]$ 是指示函数，$\lambda$ 控制权威性信号的强度。该公式保留了现有排序器的召回能力，同时注入 AuthGR 的权威性知识，产出既语义相关又可信的结果。

实验设置¶

数据集¶

数据来自韩国大型商业搜索引擎的日志，三个阶段分别使用不同规模的数据：

阶段	数据量	说明
CPT	985 万对	`[Query; URL; Title; Body]` 格式的网页爬取数据
SFT	395 万对	高风险领域（健康/金融），周查询量 QC > 50，过滤 63% 噪声
GRPO	1.38 万查询	QC > 200，375 万 host URL 预计算权威性分数

CPT 阶段额外设计了 [Query; Title] 和 [Query; Snippet] 等多样化序列格式，使模型学习 URL 与内容的结构关系和可靠性。

Baselines¶

考虑到目标语言为韩语，采用两类 baselines：

In-context Learning（ICL）：Gemma 3（27B）、EXAONE 3.5（32B）、K-EXAONE（236B）、Qwen3（32B）、LLaMA 3.1（405B）、LLaMA 4 Scout（109B）、LLaMA 4 Maverick（400B）、DeepSeek-R1（671B）、DeepSeek-V3（671B）、DeepSeek-V3.2（685B）、GPT-4o

Supervised Fine-tuning（SFT）：HyperCLOVAX（0.5B/1.5B）、LLaMA 3.2（1B/3B）、T5Gemma 2（0.5B/2B）、Qwen3（1.7B/4B）、HyperCLOVAX（14B）

实现细节¶

基础模型：3B decoder-only transformer，初始化自 HyperCLOVAX-SEED-Vision-Instruct 的语言组件
GRPO rollout group size $G = 256$，KL 系数 $\beta = 0.2$
推理使用 beam search，beam size 为 10
Ensemble 系数 $\lambda = 0.6$（通过验证集调优）
训练框架：PyTorch + DeepSpeed ZeRO-3，8×A100 GPU
优化器：AdamW（$\beta_1 = 0.9$，$\beta_2 = 0.95$，weight decay = 0.01）
学习率调度：cosine scheduler，warmup ratio 0.03
最大输入长度：2,048 tokens
CPT：全局 batch size 256，peak learning rate $5.0 \times 10^{-6}$
SFT：3 个 epoch，全局 batch size 512，learning rate $1 \times 10^{-6}$
GRPO：1 个 epoch，温度 1.5，top-$p$ 为 0.8，top-$k$ 为 50
WCE baseline：$\alpha = 4.0$
推理最大生成长度：50 tokens（足以覆盖 host-level URL）
每个 DocID 最大生成长度 50 tokens

评估协议¶

三种评估方式：

Offline Evaluation：3,000 个专家查询，人工标注 ground truth，评估 Precision@3 和 Recall@{5,10}
Human Evaluation：500 个查询的盲测 side-by-side 比较，5 分制量表同时衡量相关性和权威性
Online A/B Test：在大规模搜索平台上分析数百万次交互的用户参与指标

主要实验结果¶

Offline Evaluation¶

Table 1: Offline evaluation results.

Model	Size	P@3	R@5	R@10
In-context Learning (ICL)
Gemma 3	27B	0.1255	0.1732	0.2285
EXAONE 3.5	32B	0.0825	0.1253	0.1612
K-EXAONE	236B	0.1366	0.1918	0.2656
Qwen3	32B	0.0821	0.1176	0.1570
LLaMA 3.1	405B	0.1413	0.1974	0.2590
LLaMA 4 Scout	109B	0.1066	0.1555	0.2128
LLaMA 4 Maverick	400B	0.1274	0.1841	0.2483
DeepSeek-R1	671B	0.0891	0.1328	0.1718
DeepSeek-V3	671B	0.1359	0.1932	0.2626
DeepSeek-V3.2	685B	0.1398	0.2027	0.2729
GPT-4o	-	0.1700	0.2348	0.3170
Supervised Fine-tuning (SFT)
HyperCLOVAX	0.5B	0.3470	0.4933	0.6634
HyperCLOVAX	1.5B	0.3573	0.5058	0.6708
LLaMA 3.2	1B	0.3479	0.4948	0.6679
LLaMA 3.2	3B	0.3602	0.5108	0.6892
T5Gemma 2	0.5B	0.3280	0.4646	0.6151
T5Gemma 2	2B	0.3399	0.4805	0.6384
Qwen3	1.7B	0.3433	0.4853	0.6582
Qwen3	4B	0.3581	0.5053	0.6843
HyperCLOVAX	14B	0.3854	0.5508	0.7289
Ours
AuthGR (SFT)	3B	0.3555	0.5058	0.6899
AuthGR (CPT+SFT)	3B	0.3725	0.5293	0.7031
AuthGR (Full)	3B	0.3856	0.5464	0.7175

关键发现：

AuthGR (Full) 的 3B 模型在所有 baselines 中取得最高 P@3，与 14B 的 HyperCLOVAX 性能持平，尽管参数量小 4.7 倍
三阶段训练的有效性得到验证：CPT 确保领域适配，GRPO 显式优化权威性
ICL baselines 表现有限，即使是 685B 的 DeepSeek-V3.2 的 P@3 也仅为 0.1398，凸显了 task-specific fine-tuning 对生成式检索的必要性
GPT-4o 在 ICL 中表现最好（P@3=0.17），但仍远低于 SFT 方法

Human Evaluation¶

	Production	Hybrid Ensemble
Label score	3.06	3.41

在 500 个查询的盲测 side-by-side 比较中，AuthGR 增强的 Hybrid Ensemble 在 1-5 分制下获得 3.41 的平均分，相比生产系统的 3.06 提升了 11.4%。这证实显式优化权威性能让用户感知到更相关和可信的结果。

Online A/B Test¶

Metrics	Control	Treatment
Pages with clicks	+0.08%	+21.36%
Total document clicks	+0.22%	+22.07%
Top 1 document CTR	+0.87%	+22.83%
Top 3 document CTR	+0.81%	+22.68%
Top 5 document CTR	+0.81%	+22.76%

在商业搜索平台上进行的大规模 A/B 测试（2025 年中，持续数天，数百万次交互）展现了显著改善：

"Pages with clicks" 增长 21.36%
"Total document clicks" 增长 22.07%
Top-1 document CTR 提升 22.83%

这些结果表明，权威性感知排序显著提升了头部结果的质量和用户参与度。

消融与分析¶

训练阶段消融¶

Model	SFT	CPT	GRPO	P@3	R@5	R@10
AuthGR (0.5B)	✓			0.3470	0.4933	0.6634
	✓		✓	0.3515	0.4989	0.6651
AuthGR (3B)	✓			0.3555	0.5058	0.6899
	✓		✓	0.3660	0.5216	0.6986
	✓	✓		0.3725	0.5293	0.7031
	✓	✓	✓	0.3856	0.5464	0.7175

四个关键发现：

完整流水线最优：Full pipeline 相比 SFT baseline 在 P@3 上提升 8.5%
CPT 贡献最大：CPT 带来 4.8% 的 P@3 提升，为后续 GRPO 建立领域基础
GRPO 收益随模型规模增长：3B 模型获得 3.1% 增益 vs 0.5B 的 1.3%，暗示更大模型能更好地内化权威性概念
阶段间存在协同效应：CPT 之后应用 GRPO 获得 3.5% 增益，高于仅 SFT 后的 3.0%

排序优化方法对比¶

Figure 4: Performance of ranking optimization methods. 'CPT+SFT+GRPO' represents our AuthGR.

对比了四种排序优化方法在 CPT+SFT 基线之上的表现：

GRPO：P@3 增益最高，达 3.5%
RLOO：P@3 增益 3.0%
WCE：仅 0.2% 的边际增益
Reinforce++：反而降低 1.7%

组级方法（GRPO、RLOO）显著优于逐点方法（WCE、Reinforce++），证实建模候选项间的相对顺序比逐点优化更适合排序任务。

权威性分数分布变化¶

Training stage	Mean(↑)	Median(↑)	Low(↓)	High(↑)
CPT+SFT	87.2	90.0	118	2,754
+ GRPO (Binary)	88.0	90.0	115	2,804
+ GRPO (Linear)	90.4	95.0	106	2,877

GRPO 成功重塑了生成文档的权威性分布。均值从 87.2 提升至 90.4，中位数达到 95.0。低权威性生成（0-60 分）减少 10.2%，高权威性生成（90-100 分）增加 4.5%，证实模型系统性地学会了优先选择可信来源。

奖励缩放策略对比¶

Scaling strategies	P@3	R@5	R@10
Binary	0.3820	0.5375	0.7133
Binning	0.3841	0.5420	0.7151
Sigmoid	0.3833	0.5377	0.7147
Linear (AuthGR)	0.3856	0.5464	0.7175

在 GRPO 中评估了四种奖励缩放策略：Binary（固定阈值二分）、Binning（五级离散化）、Sigmoid（非线性变换）、Linear（直接使用原始分数）。Linear 策略在所有指标上一致最优，表明保留细粒度权威性差异比粗粒度近似更有效。

超参数敏感性¶

KL 惩罚系数 $\beta$：最优范围 0.1-0.2。将 $\beta$ 从 0.01 设为 0.2 时，Precision@3 和 Recall@5 分别提升 10.6% 和 9.7%。显式约束训练策略与参考策略之间的 KL 散度对于保留 SFT 阶段习得的相关性生成能力至关重要
Rollout group size $G$：最佳范围 128-512。过少的 rollout 无法提供足够信息计算组内相对优势

数据过滤效果¶

Data filtering	P@3	R@5	R@10
w/o filtering	0.3194	0.4642	0.6299
w/ filtering	0.3725	0.5293	0.7031
Gain (%)	16.62	14.02	11.62

过滤掉约 63% 的原始数据（从近 1100 万减至约 400 万），所有指标显著提升。Precision@3 提升 16.6%，证明在生成式检索中数据质量远比数量重要。过滤阈值 2.1 为最优点，超过此值则因训练信号不足导致性能下降。

推理效率¶

Model	Size	Latency (ms)	Throughput
HyperCLOVAX (SFT)	14B	2,881	1.30
AuthGR (Ours)	3B	1,225	3.26

在 NVIDIA A100 上，AuthGR 3B 相比 HyperCLOVAX-14B (SFT) 延迟降低 2.35 倍，吞吐量提升 2.51 倍，同时保持可比的排序性能。

训练效率¶

在 8×A100 GPU 上，完整三阶段训练约 83 小时：

CPT：57 小时（985 万样本）
SFT：20 小时（395 万样本）
GRPO：6 小时（1.38 万样本）

GRPO 阶段的开销极小，特别适合频繁的权威性对齐更新。

统计显著性¶

Metric	Gain	p-value	95% CI
P@3	2.31%	0.0277	[0.0012, 0.0158]
R@5	1.65%	0.0483	[-0.0002, 0.0170]

AuthGR 3B 在 P@3 和 R@5 上均统计显著优于 14B baseline（$p \lt 0.05$，paired t-test with 5,000 bootstrap resampling）。

每个训练阶段的增益也均统计显著（$p \lt 0.0001$），完整流水线相比 SFT 带来 +7.51% 的 P@3 提升。

讨论与局限性¶

核心贡献¶

AuthGR 是首个将文档权威性系统性整合到生成式检索中的框架，解决了现有 GenIR 方法忽视内容可信度的关键缺陷。三个设计值得借鉴：

Multimodal Authority Scoring：利用 VLM 综合文本和视觉线索量化权威性，是传统 PageRank 类方法的现代化替代，97% 准确率证明了多模态信号的互补价值
渐进式训练策略：CPT→SFT→GRPO 的三阶段设计优雅地分离了领域适配、任务学习和偏好对齐三个目标，阶段间的协同效应（CPT 后 GRPO 增益更大）验证了这种分阶段设计的必要性
Hybrid Ensemble 部署：通过可调参数 $\lambda$ 平衡相关性和权威性，避免了直接替换生产系统的风险，是值得参考的工业部署模式

局限性¶

奖励信号单一：主要依赖 VLM 权威性分数作为 GRPO 奖励。更多样化的奖励信号（如用户停留时间、滚动深度等隐式反馈）可能进一步提升效果
规模瓶颈：验证了 3B 显著优于 0.5B，但未探索超过 3B 的规模。作者指出可通过量化、投机解码等推理优化技术解锁更大模型的权威性推理潜力
语言和平台特异性：实验均在韩语搜索引擎上进行，框架的跨语言和跨平台泛化性尚未验证
WCE 作为 pointwise baseline 的局限：论文指出 WCE 缺乏探索能力，但 WCE 的 $\alpha$ 值（4.0）可能未充分调优

工业部署价值¶

AuthGR 已成功部署到 Naver 商业搜索引擎，A/B 测试中所有用户参与指标均获得 20%+ 的提升。3B 模型即可匹配 14B 性能，延迟降低 2.35 倍，吞吐量提升 2.51 倍，对于大规模搜索服务的成本控制具有重要参考价值。权威性评分的增量更新策略（梯度提升回归树 + 季度全量重评）也为工业规模的内容质量管理提供了实用方案。