1. 研究动机与问题定义¶
预训练语言模型越来越多地通过扩展词汇表来适应特定领域,例如在生成式推荐中引入 Semantic ID (SID) token。当前标准做法是将新 token 的 embedding 初始化为已有词汇 embedding 的均值(Mean Initialization, MI),然后通过下游监督微调来学习这些新 token 的表示。
本文通过谱分析和几何诊断系统性地揭示了这种均值初始化策略的根本问题:
Token-Embedding Misalignment(token-嵌入不对齐):均值初始化将所有新 token 折叠到同一个点,抹去 token 间的区分度,形成退化的低秩子空间,后续微调难以完全恢复。
具体诊断发现:
- 均值初始化后所有 SID token 的 pairwise cosine similarity 呈现近乎均匀的高相似度块(Figure 5 中间图),丧失了区分性
- 对 SID embedding 矩阵 $E_{\text{SID}} \in \mathbb{R}^{|\mathcal{V}_{\text{SID}}| \times d}$ 做奇异值分解,微调后仍然表现出快速的谱衰减和低有效秩(Figure 2b),说明微调无法从退化起点恢复 token 间结构
- 随机初始化虽然赋予每个 token 不同向量,但缺乏与预训练流形的语义关联
基于此诊断,论文提出 Grounded Token Initialization (GTI) Hypothesis:
在下游微调之前,通过语言学方式将新 token grounded 到预训练 LM 的嵌入空间中语义有意义的位置,能更好地让模型利用其预训练知识服务于新 token 域。
2. 方法:GTI(Grounded Token Initialization)¶
2.1 生成式检索形式化¶
采用 TIGER (Rajput et al., 2023) 框架。每个 item $I_i \in \mathcal{I}$ 通过预训练文本编码器映射为语义嵌入 $\mathbf{z}_i \in \mathbb{R}^d$,然后由 RQ-VAE($L$ 层 codebook,每层 $K$ 个 entry)通过递归残差量化将其离散化为 Semantic ID $(c_1, \ldots, c_L)$:
$$\mathbf{r}_1 := \mathbf{z}_i; \quad c_l = \arg\min_k \|\mathbf{r}_l - \mathbf{q}_k^{(l)}\|_2, \quad \mathbf{r}_{l+1} := \mathbf{r}_l - \mathbf{q}_{c_l}^{(l)}, \quad l = 1, \ldots, L$$
$K \times L$ 个 SID code 作为新 token $\mathcal{V}_{\text{SID}}$ 追加到 LM 原始词汇 $\mathcal{V}_{\text{text}}$ 中。给定上下文 $\mathbf{x}$(用户交互历史或自然语言查询),LM 自回归生成目标 Semantic ID:
$$P_\theta(c_1, \ldots, c_L \mid \mathbf{x}) = \prod_{l=1}^{L} P_\theta(c_l \mid c_{\lt l}, \mathbf{x})$$
2.2 均值初始化(Baseline)¶
标准做法将所有新 token embedding 初始化为已有词汇 embedding 的均值:
$$\mathbf{e}_c := \frac{1}{|\mathcal{V}_{\text{text}}|} \sum_{v \in \mathcal{V}_{\text{text}}} \mathbf{e}_v, \quad \forall\, c \in \mathcal{V}_{\text{SID}} \tag{1}$$
2.3 GTI Grounding 阶段¶
GTI 在标准 SFT 之前插入一个 grounding 阶段:
核心思路:冻结 LM backbone(包括 $E_{\text{text}}$ 和 LM head),仅训练新 token 的 embedding $E_{\text{new}}$。
训练数据构造:构建 grounding 语料 $\mathcal{D}_{\text{ground}} = \{(x_i, y_i)\}_{i=1}^n$,其中 $x_i$ 是 item 的自然语言描述(title/description),$y_i$ 是对应的 SID token 序列。同时加入反向对 $\{(y_i, x_i)\}$,从 SID token 生成描述文本。
优化目标:最小化 grounding 语料上的负对数似然:
$$\min_{E_{\text{new}}} \sum_{(x,y) \in \mathcal{D}_{\text{ground}}} \sum_{t=1}^{|y|} -\log P_\theta(y_t \mid y_{\lt t}, \text{prompt}(x)) \tag{2}$$
其中 $\theta$ 为所有 LM 参数,grounding 期间除 $E_{\text{new}}$ 外全部冻结。由于 embedding 矩阵与 LM head 通过标准 tied-embedding 参数化共享权重,grounding 阶段同时影响模型如何读取和生成新 token。
Prompt 模板示例(Text -> SID 方向):
<system> You are a helpful assistant.
<user> What item is called {{title}} and described as {{description}}?
<assistant> {{ITEM SEMANTIC_ID}}
反向模板(SID -> Text)也类似构造。
Grounding 后:保留学到的 $E_{\text{new}}$ 作为初始化,随后进行标准的全模型端到端 SFT。
2.4 Algorithm 1: GTI Grounding Stage¶
Input: 预训练模型 M, embedding 矩阵 E ∈ R^{V×d}, 新 token 索引 T ⊆ {0,...,V-1},
配对语料 D = {(text_j, token_j)}
Output: 对 T 中 token 具有 grounded embedding 的模型 M
// Setup: 冻结除新 token embedding 外的所有参数
Freeze all parameters of M
Construct binary mask m ∈ {0,1}^V where m_i = 1 iff i ∈ T
M ← m ⊗ 1_d // Broadcast to R^{V×d}
// Training: 通过 masked gradient 仅更新新 token embedding
for each batch B ⊂ D do
L ← LM_Loss(M, B) // Forward pass
∇E ← ∇_E L // Compute gradients
E ← E - η · (∇E ⊙ M) // Update only new token embeddings
end
3. 实验设置¶
3.1 数据集¶
(1)工业级候选人检索数据集:来自世界领先的招聘平台(LinkedIn)的职位需求-候选人配对数据,按 good match、good&maybe match、not match 三级标注。候选人语义表示通过 Mistral-E5 双塔架构微调得到 1024 维嵌入。RQ-VAE 使用 $L=3$ 层 codebook,每层 $K=8192$ 个 code。
(2)Vibrent Clothes Rental 公开数据集:Kaggle 上的服装租赁交易数据,构建为生成式检索任务(用户为 query,服装为 candidate)。Item 语义表示通过 Qwen3-Embedding-0.6B 编码器得到 1024 维向量。RQ-VAE 使用 $L=4$ 层 codebook,$K=256$ 个 code(32 维),加入 diversity regularizer 和 Sinkhorn-Knopp trick。
3.2 Baseline¶
- MI+Vanilla SFT (Baseline):均值初始化 + 标准 SFT
- MI+Multi-task SFT (LC-Rec):均值初始化 + 微调期间加入辅助语言对齐目标(Zheng et al., 2024)
- GTI+Multi-task SFT (Ours):GTI grounding + 多任务 SFT(工业数据集)
- GTI+Vanilla SFT (Ours):GTI grounding + 标准 SFT(公开数据集)
3.3 实现细节¶
- 骨干模型:Qwen3-0.6B(hidden dim 1024, 28 层 transformer, 最大上下文 32768)
- 参数高效微调:QLoRA(rank=8, alpha=32, dropout=0.05),目标投影层:q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
- GTI grounding 阶段:冻结除 $E_{\text{new}}$ 外的所有参数,训练 8000 步,batch size 128
- SFT 阶段:解冻全部参数,再训练 8000 步,同样 batch size
- GTI embedding grounding:learning rate 1e-3,batch size 16,训练 10 epochs
- 硬件:4 张 NVIDIA H100 GPU
3.4 评估指标¶
- 工业数据集:Top-K Precision 和 NDCG(200 个 job 作为 query,每个检索 200 candidates),报告相对于 SFT baseline 的相对提升百分比
- 公开数据集:Recall@K 和 NDCG@K,采用 leave-one-out 序列切分
4. 实验结果¶
4.1 工业数据集结果¶
Table 1: 工业候选人检索数据集上相对 Precision@K 增益 (%)
| Methodology | P@5 | P@10 | P@20 | P@50 | P@100 | P@5 | P@10 | P@20 | P@50 | P@100 |
|---|---|---|---|---|---|---|---|---|---|---|
| Good Match | Good & Maybe Match | |||||||||
| MI+Vanilla SFT (Baseline) | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
| MI+Multi-task SFT (LC-Rec) | +6.38% | +5.20% | +3.87% | +3.00% | +3.47% | +5.63% | +5.35% | +2.98% | +3.32% | +3.05% |
| GTI+Multi-task SFT (Ours) | +21.63% | +13.59% | +8.16% | +6.35% | +4.25% | +15.83% | +10.89% | +5.74% | +5.87% | +4.10% |
| GTI extra gain over LC-Rec (Δ) | +15.25% | +8.39% | +4.29% | +3.35% | +0.78% | +10.20% | +5.54% | +2.76% | +2.55% | +1.05% |
结论:在严格的 Good Match 标准下,GTI 在 P@5 上实现 +21.63% 的相对提升,远超 LC-Rec 的 +6.38%,GTI 归因的额外增益 Δ 达 15.25%。在宽松的 Good & Maybe Match 标准下同样保持优势(+15.83% vs +5.63% at P@5)。
Table 2: 工业数据集上相对 NDCG@K(Composite)增益 (%)
| Methodology | @5 | @10 | @20 | @50 | @100 |
|---|---|---|---|---|---|
| MI+Vanilla SFT (Baseline) | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
| MI+Multi-task SFT (LC-Rec) | +6.94% | +4.38% | +1.94% | +1.95% | +1.01% |
| GTI+Multi-task SFT (Ours) | +17.88% | +12.03% | +6.90% | +4.99% | +2.89% |
| GTI extra gain over LC-Rec (Δ) | +10.94% | +7.65% | +4.96% | +3.04% | +1.88% |
结论:NDCG@5 上 GTI 实现 +17.88% 提升(vs LC-Rec +6.94%),额外增益 Δ=10.94%。GTI 在所有 K 值上一致优于 LC-Rec,且优势在小 K 时最显著。
4.2 Vibrent 公开数据集结果¶
Table 3: Vibrent 数据集上相对 Recall@K 和 NDCG@K 增益 (%)
| Methodology | R@5 | R@10 | R@20 | R@50 | R@100 | N@5 | N@10 | N@20 | N@50 | N@100 |
|---|---|---|---|---|---|---|---|---|---|---|
| MI+Vanilla SFT (Baseline) | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
| MI+Multi-task SFT (LC-Rec) | +7.69% | +11.86% | +13.41% | +12.03% | +15.73% | +8.47% | +10.74% | +11.30% | +11.18% | +13.26% |
| GTI+Vanilla SFT (Ours) | +1.71% | +22.03% | +26.02% | +21.55% | +18.54% | -3.19% | +8.02% | +12.23% | +12.83% | +12.46% |
结论:在 K>=10 时 GTI 的 Recall 大幅领先(如 R@20: +26.02% vs +13.41%),NDCG 在 K>=20 时也有优势。注意 GTI 此处仅使用 Vanilla SFT(无多任务辅助),而 LC-Rec 使用了 Multi-task SFT。这说明 grounding 阶段本身就贡献了大部分下游提升。
Table 4: Vibrent 数据集绝对指标值
| Methodology | R@5 | R@10 | R@20 | R@50 | R@100 | N@5 | N@10 | N@20 | N@50 | N@100 |
|---|---|---|---|---|---|---|---|---|---|---|
| MI+Vanilla SFT (Baseline) | 0.0226 | 0.0342 | 0.0475 | 0.0771 | 0.1031 | 0.0150 | 0.0188 | 0.0222 | 0.0280 | 0.0322 |
| MI+Multi-task SFT (LC-Rec) | 0.0243 | 0.0382 | 0.0539 | 0.0863 | 0.1194 | 0.0163 | 0.0208 | 0.0247 | 0.0311 | 0.0365 |
| GTI+Vanilla SFT (Ours) | 0.0230 | 0.0417 | 0.0599 | 0.0937 | 0.1222 | 0.0143 | 0.0203 | 0.0249 | 0.0316 | 0.0362 |
4.3 Candidate Pool Size 实验(Figure 3 & 4)¶
将候选池大小从 5 扫到 200(工业)/ 100(公开),GTI 在所有池大小下一致优于两个 baseline,且在小池大小(小 K)时优势最为显著。这表明 GTI 的提升在不同检索规模下都是鲁棒的。
5. 分析与消融¶
5.1 Grounded 初始化产生差异化的嵌入几何¶
- Pairwise cosine similarity(Figure 5):随机初始化产生无结构噪声;均值初始化产生近均匀高相似度块;GTI 产生丰富的 intra-SID 差异结构和与相关预训练 token 的跨块亲和性
- 微调后的 SID pairwise similarity(Figure 6):只有 GTI 保留了 RQ-VAE 编码的 blockwise hierarchical 语义结构,均值和随机初始化在 SFT 后仍产生平坦或噪声化的相似度模式
5.2 Grounded 结构在微调后持续存在¶
- SVD 谱分析(Figure 7a, Figure 8):GTI 初始化的 SID embedding 矩阵在微调后呈现更慢的谱衰减和更高的有效秩,表明更丰富的、非退化的子空间,存在多个有效方向来区分不同 item
- Representational Similarity Analysis (RSA)(Figure 7b):将学到的 SID embedding 的 pairwise geometry 与 ground-truth RQ-VAE codebook 向量对比,GTI 在 Pearson $r$ 和 Spearman $\rho$ 两项指标上均达到最高相关性(Pearson: 0.0715 vs Mean Init 0.0428 vs Random 0.0503; Spearman: 0.0599 vs 0.0066 vs 0.0373),说明 GTI 更好地保留了原始语义结构
5.3 双向训练的重要性¶
论文提到双向训练(Text->SID 和 SID->Text 两个方向的配对监督)有助于 token embedding 同时编码 input 和 output 两个方向的语义信息。消融实验在 Section 4.3 中提及。
6. 与 Dimensional Collapse 的联系¶
论文将均值初始化诊断的坍缩现象与对比学习和自监督学习中的 dimensional collapse(Jing et al., 2021; Jiang et al., 2024)联系起来:所有新 token 从同一起点出发,形成 rank-deficient 配置。Jiang et al. (2024) 表明适当的初始化可以缓解对比学习中的 dimensional collapse,这与 GTI 在微调前 grounding 新 token 以保持更高秩、更差异化嵌入子空间的发现一致。
7. 总结与评价¶
核心贡献: 1. 通过谱和几何诊断系统揭示了均值初始化在词汇扩展中导致的 token-embedding misalignment 问题 2. 提出 GTI,一种简单有效的 grounding 阶段,在微调前将新 token 嵌入到语义有意义的位置 3. 在工业级和公开生成式推荐基准上验证了 GTI 的有效性,一致优于均值初始化和 LC-Rec
优势:
- 方法极其简单(仅冻结 LM 训练新 token embedding),无需修改下游 SFT 流程
- 诊断工作扎实,谱分析和几何分析为假说提供了充分的实验支撑
- 工业级实验增强了实用价值
局限:
- 仅在生成式推荐场景验证,未测试其他词汇扩展场景(如 tool token、domain token)
- 公开数据集(Vibrent)较小,且绝对指标值整体偏低
- 未与更多初始化策略对比(如基于语义相似度的初始化)
- GTI 在 Vibrent 上 R@5 和 N@5 偏弱,小 K 场景不如 LC-Rec