Decoupled Residual Quantization for Robust Semantic IDs in Recommendation¶

Shopee · Xuesi Wang, Junjie Wang, Ziliang Wang, Weijie Bian, Guanxing Zhang · arXiv:2606.01844（2026-06-01）

一、研究动机与背景¶

现代推荐系统越来越依赖共享的离散物品表示来支撑检索、索引、压缩与跨物品参数共享。一种主流做法是把高维物品 embedding 量化成离散 token 序列，即 Semantic ID（SID）。用结构化离散码替换孤立的 hash ID，可以让统计强度在物品之间迁移，并能在多模态与协同信号之上构建统一表示。TIGER、SE-REC、OneRec 等近期工作都建立在这条流水线之上。

当前的 tokenizer 主要依赖向量量化（Vector Quantization, VQ）：Product Quantization（PQ）、Residual Quantization（RQ），其中 RQ-VAE 是代表性的神经实现。然而，当这些 VQ 方法被直接套用到推荐 embedding 上时，作者指出存在两个尤为突出的失效模式：

第一，Index Collapse 与 Distribution Mismatch（码本坍缩与分布失配）。 传统 VQ 隐式或显式地偏好均衡的码字使用。但真实世界的物品交互高度长尾。当长尾物品分布被强行塞进一个"均匀分配"的码本时，大量稀有物品会被少数热门码字吸收，而许多其他码字则得不到足够的样本分配或梯度更新，从而失去作用。

第二，Dimensional Collapse 与 Geometric Mismatch（维度坍缩与几何失配）。 许多量化器通过在连续空间里"铺设欧氏网格"来组织空间，把每个物品分配到最近的格子。在 PQ 中，向量被切成固定坐标块，每块独立量化，子码本的笛卡尔积等价于原空间中一个轴对齐网格。在 RQ-VAE 这类神经 RQ 中，表示是分级构建的：每一级量化前几级留下的残差，最终重构是来自多个码本的码字之和；几何上这构成一个 Minkowski-sum 码本（每个残差级各取一个码字的所有可能和）。这些设计高效，但仍然用平坦的欧氏积木去描述潜空间。而推荐 embedding 往往高度各向异性（anisotropic）或集中在弯曲流形上。当一个平坦网格被强加到这种数据上时，很多码字组合落在"没有真实物品居住"的区域，真正有用的物品邻域被压缩进一个更小的有效空间里。

为了诊断这些问题，本文把分析锚定到一个具体的 tokenizer 实现上，从其码分配的几何与分布两个角度研究 Semantic ID。本文的三大贡献：

理论框架（核心贡献）：定义 Expected Overlap Rate（期望重叠率 $O_\pi$），衡量扰动下码字混淆的期望程度；以及 Effective Codebook Size（有效码本容量 $K_{\text{eff}}$），把这种混淆转换成等价的"鲁棒码字数量"。分析把 SID 退化分解为 Distribution Penalty（分布惩罚） 与 Geometry Penalty（几何惩罚），给出了比较各种 ID 量化方法的统一语言。
概念验证算法：提出 Decoupled Residual Quantization（DRQ） 作为简单实现，它把"用 VAE 学习连续几何"与"用 K-Means 做离散分布匹配"解耦成两个阶段，便于分别检视两个目标。
实证验证：在大规模工业数据集上的实验支持了该框架的诊断价值，并揭示出在"基于重构的符号容量、码本利用率、重构保真度、embedding 级检索保持、行为感知软匹配"之间存在权衡。

作者反复强调：所有下游观察都基于一个专有工业数据集，因此应被视为工业案例研究而非通用 benchmark 结论。

二、相关工作¶

Semantic IDs in Recommendation。 早期推荐依赖 one-hot 编码或 hashing。近期工作把 SID 作为结构化离散表示用于检索、压缩与统一物品建模。TIGER、SE-REC、OneRec 证明离散物品码可以把多模态内容与协同信号连接起来，同时缓解物品稀疏。但这些系统通常把 tokenizer 当作黑盒，因而不直接测量 tokenizer 的几何与码使用如何影响鲁棒性与下游检索质量——这正是本文要补的空白。

VQ Methods。 VQ-VAE 首先把离散隐变量引入表示学习；PQ 与 RQ 成为向量离散化的标准范式，RQ-VAE 是代表性神经实现。本文聚焦 RQ-VAE 而非 PQ，因为 RQ-VAE 保留了对层次化语义码有用的 coarse-to-fine 层级，而 PQ 把向量切到正交子空间，可能削弱全局语义相关性。在联合训练框架中，量化截断通过 Straight-Through Estimator（STE） 把码本学习与刚性的重构目标耦合在一起，这种耦合会扭曲连续潜流形并触发 index collapse。近期一些技术能改善码分布，但并未充分解决"弯曲流形被强压到刚性网格"造成的几何失配。通过聚类把表示学习与离散分配解耦，是减轻这一失效模式的一条路径——这正是 DRQ 的出发点。

三、理论分析¶

3.1 VQ 映射困境（VQ Mapping Dilemma）¶

在 PQ、RQ-VAE 等经典 VQ 范式中，模型用一个或多个码本对向量做离散化。在一般的 $L$ 级设置下，每一级 $\ell\in\{1,\dots,L\}$ 使用一个大小为 $K$ 的码本 $C^{(l)}=\{c_1^{(l)},\dots,c_K^{(l)}\}$。

量化过程把 $x\in\mathbb{R}^d$ 分配到一段离散 token 序列：在各级上找最近的质心（PQ 里匹配子向量、RQ-VAE 里匹配残差）。重构向量 $\hat{x}$ 在 PQ 里是线性拼接，在 RQ-VAE 里是线性叠加。这些映射都假设潜空间可以被平坦的欧氏格子划分——这是后续两类惩罚的根源。

3.2 重叠率与有效码本容量¶

在一个量化检索系统中，第一级 semantic code 上的一个小扰动就可能把物品重定向到一个不同的离散邻域。作者称之为 retrieval-time perturbation（检索时扰动）。为量化这种风险，假设检索流水线在预测潜向量时引入方差为 $\sigma^2$ 的各向同性高斯噪声。

作者保留 Overlap Rate（$O_\pi$） 这个名字，但数学上它是一个归一化重叠代理（normalized overlap proxy），而非精确的 Voronoi 边界跨越概率——它衡量在经验码字先验下，被扰动的码字密度在期望意义上重叠的强度。这种各向同性扰动恰好对应 K-Means"等方差球形簇"的假设（一个已知会过度简化复杂多模态分布、但在 RQ-VAE 式分配中也常见的前提）。在该球形等方差假设下，对给定码本：

$$O_\pi \approx \sum_{i=1}^{K}\sum_{j=1}^{K}\pi_i\pi_j\exp\!\left(-\frac{\lVert c_i-c_j\rVert^2}{4\sigma^2}\right) \tag{1}$$

其中 $\pi_i$ 是码字 $i$ 的先验使用概率，$c_i$ 是其几何中心。

进一步定义 Effective Codebook Size：

$$K_{\text{eff}}=\frac{1}{O_\pi}$$

这个定义来自一个理想情形：在一个完全均匀（$\pi_i=1/K$）、码字无限远的码本里，非对角重叠消失，剩下的对角质量恰为 $1/K$。因此取倒数 $1/O_\pi$ 就估计出"需要多少个均匀使用、互不重叠的码字"才能产生同样的归一化重叠分数。$K_{\text{eff}}$ 越大，意味着 SID 在不增加 token 序列长度的前提下拥有更多有效符号容量。

式 (1) 揭示了 SID 退化的两个根因——把 $O_\pi$ 拆成对角项与非对角项，得到一个由分布控制的下界：

$$O_\pi=\underbrace{\sum_i\pi_i^2}_{\text{distribution floor 分布地板}}+\underbrace{\sum_{i\neq j}\pi_i\pi_j\exp\!\left(-\frac{\lVert c_i-c_j\rVert^2}{4\sigma^2}\right)}_{\text{geometry-sensitive cross-overlap 几何敏感的交叉重叠}} \tag{2}$$

Distribution Penalty（分布惩罚）：若发生码本坍缩，多数样本被分到少数热门码字，$\pi_i$ 被严重偏斜。第一项是自碰撞质量：即使几何上完全分离，一个高度集中的先验也会让 $\sum_i\pi_i^2$ 很大。把使用分布"摊平"可以同时压低这个不可避免的地板，并下调非对角重叠。
Geometry Penalty（几何惩罚）：当数据贴近弯曲流形（如超球面）时，RQ-VAE 的多层欧氏叠加会把重构组合放到偏离该流形的位置。许多名义上的码组合落到几乎没有真实物品的区域，而真实物品集中在码空间的一小部分。由于码字间距离 $\lVert c_i-c_j\rVert^2$ 仍然很小，交叉重叠项保持很大，$O_\pi$ 上升、$K_{\text{eff}}$ 收缩。扩张潜空间、增大几何分离有助于缓解这种失配。

四、方法：Decoupled Residual Quantization（DRQ）¶

如第 3 节所述，式 (1) 耦合了两样东西：使用权重 $\pi_i\pi_j$ 与几何核 $\exp(-\lVert c_i-c_j\rVert^2/4\sigma^2)$。要降低 $O_\pi$ 必须同时做两件事——码字先验要更不集中（降低分布地板 $\sum_i\pi_i^2$），码字要彼此更远（抑制非对角交叉重叠）。

标准端到端量化很难同时满足这两个目标：梯度只通过被激活的码字经 STE 流动；对长尾数据，热门物品主导这些更新，把质心拉向稠密码、让很多码欠训练，从而抬高自碰撞地板；与此同时，强迫连续表示贴到刚性网格上，又限制了 embedding 能散开多远，使几何核保持很大。

DRQ 把这两个目标拆成两个阶段，从而更易研究：

flowchart LR
    A["物品多模态 embedding x ∈ R^d"] --> B["阶段一: 连续重塑\nVAE 编码器 E_φ / 解码器 D_θ\n(无 STE, 无 codebook 约束)\n可选 InfoNCE 对比损失"]
    B --> C["冻结的连续潜向量 z = E_φ(x)"]
    C --> D["阶段二: 离散匹配\n层次 K-Means (RQ-KMeans)\n逐级对残差聚类"]
    D --> E["层次化 Semantic ID\n(l_1, l_2, ..., l_L)"]

4.1 阶段一：Continuous Reshaping（连续重塑）¶

在传统 VQ-VAE 中，量化层强迫潜空间遵循欧氏网格切片，会触发 Geometry Penalty。DRQ 因此从训练回路里移除离散量化操作。

编码器 $E_\phi$ 与解码器 $D_\theta$ 的训练由重构损失 $\mathcal{L}_{\text{recon}}$ 加一个可选对比项 $\mathcal{L}_{\text{contrastive}}$ 驱动：

$$\mathcal{L}=\mathbb{E}_{x\sim\mathcal{D}}\left[\lVert x-D_\theta(E_\phi(x))\rVert_2^2\right]+\lambda\,\mathcal{L}_{\text{contrastive}} \tag{3}$$

其中 $\mathcal{L}_{\text{contrastive}}$ 是一个 InfoNCE 损失，把共曝光（co-viewed）或语义相似的物品在潜空间里拉近。在基础 DRQ-VAE 实验里设 $\lambda=0$ 以隔离解耦本身的效果；DRQ-VAE+CL 则激活该项以注入用户行为监督。

由于没有 Commitment Loss 与 STE 梯度，连续隐变量 $z=E_\phi(x)$ 在被离散化之前可以自由扩张。当对比学习开启时，它优化两个常被研究的性质：(1) Alignment（对齐），把相似物品聚拢；(2) Uniformity（均匀性），把随机负样本在超球面上推开。Uniformity 有助于在全局上增大物品间距离 $\lVert c_i-c_j\rVert^2$，而 Alignment 在局部上形成行为感知的邻域。

4.2 阶段二：Discrete Matching（离散匹配）¶

当连续表示训练完成并冻结后，对向量集合 $Z=\{z_1,z_2,\dots,z_N\}$ 应用层次 K-Means（RQ-KMeans）得到层次化 SID：

第 1 级：在全局数据集 $Z$ 上执行 K-Means 求 $K$ 个质心 $C^{(1)}$。每个点 $z_n$ 得到标签 $l_n^{(1)}$，并计算残差 $e_n^{(1)}=z_n-c_{l_n^{(1)}}^{(1)}$。
第 $l$ 级：在残差 $\{e_n^{(l-1)}\}$ 上执行 K-Means 求第 $l$ 级质心 $C^{(l)}$ 与标签 $l_n^{(l)}$，递归计算下一级残差。

K-Means 会让质心适配观测到的数据密度：在长尾设置下，它给稠密区域分配更多质心、给稀疏区域更少。因为它用的是数据集级的分配 + 质心重算，而非只在当前被激活码上做 STE 更新，所以它较少暴露于联合 VQ 训练里的"更新饥饿（update starvation）"。这并不意味着收敛后每个码都活跃——深层残差级仍可能留下未用码——但实践中，聚类阶段倾向于拓宽码使用、降低分布地板（相对于严重坍缩的码本而言）。

4.3 连续表示的作用¶

既然密度自适应聚类已经能缓解 Distribution Penalty，一个自然的问题是：能否绕过 VAE，直接对原始物品 embedding 做层次聚类？这就是 RQ-KMeans 基线。它有用，但只能利用输入特征里已有的几何与语义。原始多模态表示常常受表示退化与各向异性（即"cone effect"）困扰——物品挤在一个狭窄区域里。直接聚类这种 embedding 能保留有用结构，却无法重塑表示空间、也无法补充缺失的协同信号；而且原始 embedding 主要表征静态内容（视觉/文本），可能不包含推荐所需的行为信息。

VAE 阶段提供了结构上的灵活性：可以融合异质多模态特征（文本、图像、类目标签），可以通过序列/图对比学习注入用户行为信号，还能容纳 Information Bottleneck、uniformity 约束等正则。连续重塑并不保证改善每一项诊断，但它提供了一个可训练的空间，在离散聚类之前调节重构保真度、协同语义与几何分离。

五、实验¶

5.1 设置¶

数据集：真实工业级短视频数据集，包含超过 1500 万物品。初始多模态稠密 embedding 维度 $d=256$。数据集专有且涉及隐私，应被解读为工业案例研究，而非跨 benchmark 排行榜。
码本配置：所有方法使用层次码本，大小 $K=4096$、级数 $L=3$，对应理论容量 36 bits。
对比权重：标准 DRQ-VAE 评测设 $\lambda=0$（隔离解耦效果）；DRQ-VAE+CL 设 $\lambda=0.3$（激活用户行为对齐）。

五个对照方法（每个隔离一种设计选择）：

方法	说明	用于检验
RQ-VAE	标准层次量化器（联合训练基线）	SID 的联合训练基线
RQP-VAE	增强 RQ-VAE，带 EMA 码本更新 + 死码复活（dead-code revival）	分布侧稳定化能帮多少
RQ-KMeans	直接对原始输入 embedding 做层次 K-Means	VAE 重塑阶段是否在密度自适应聚类之外有额外贡献
DRQ-VAE	本文方法（$\lambda=0$）	解耦本身的效果
DRQ-VAE+CL	DRQ + 对比学习（$\lambda=0.3$）	用户行为监督能否改善下游匹配

5.2–5.4 报告表示诊断，5.5 评测从用户行为序列出发的 item-to-item 检索。

5.2 几何（Geometry）¶

评估每个 tokenizer 如何改变 embedding 空间的几何——目标不仅是重构质量，还要检查潜空间是否仍足够高维、足够散开。四个指标：

Participation Ratio：有效利用的维度数，$(\mathrm{Tr}(\Sigma))^2/\mathrm{Tr}(\Sigma^2)$，$\Sigma$ 为协方差矩阵。
Entropy-Based Effective Rank：$\exp(H(p))$，其中 $p_i=\lambda_i/\sum_j\lambda_j$ 为 $\Sigma$ 的归一化特征值，$H(p)=-\sum_i p_i\log p_i$。衡量有多少维度有效承载方差。
$\lambda_{\max}$（最大特征值）：$\Sigma$ 的最大特征值（归一化），表示第一主成分占的方差比例。
Mean Abs Cosine：所有潜维度两两之间绝对余弦相似度的均值，评估空间整体正交性。

Table 1：Semantic ID 构造的潜空间几何与拓扑对比（在 20,000 随机子集上计算）

Model	Participation Ratio	Entropy-Based Effective Rank	$\lambda_{\max}$	Mean Abs Cosine
Raw Input	106.05	131.17	0.0307	0.0795
RQ-VAE	73.08	116.77	0.0456	0.0865
RQP-VAE	104.91	137.77	0.0313	0.0720
RQ-KMeans	105.92	131.15	0.0309	0.0752
DRQ-VAE	71.79	103.01	0.0400	0.0894
DRQ-VAE+CL	149.19	189.54	0.0159	0.4622

分析：在 $L=3, K=4096$ 设置下，RQ-VAE 相对原始输入退化了几何：Participation Ratio 从 106.05 降到 73.08，effective rank 从 131.17 降到 116.77，$\lambda_{\max}$ 与 Mean Abs Cosine 都上升（虽然还没坍缩到接近一维）。RQP-VAE 与 RQ-KMeans 都贴近原始几何，其中 RQP-VAE 取得最低 Mean Abs Cosine（0.0720），是量化模型里最干净的近正交组织。值得注意的是，DRQ-VAE 在这组几何指标上并不占优（尽管它后面在重构上表现强劲）。DRQ-VAE+CL 显示出最尖锐的权衡：取得最佳 Participation Ratio（149.19）、最佳 effective rank（189.54）、最低 $\lambda_{\max}$（0.0159），但 Mean Abs Cosine 升到 0.4622。说明对比监督把方差铺到更多方向上的同时，也引入了更强的维度间相关性。

5.3 鲁棒性与容量（Robustness & Capacity）¶

为验证式 (1)，向潜空间注入按经验潜方差缩放的标准高斯噪声（$\sigma^2=1.0\times\mathrm{Var}(Z)$）以测试鲁棒性。

Table 2：检索时扰动下的期望重叠与有效容量

Model	$O_\pi$ (L0)	$K_{\text{eff}}$ (L0)	$O_\pi$ (L1)	$K_{\text{eff}}$ (L1)	$O_\pi$ (L2)	$K_{\text{eff}}$ (L2)
RQ-VAE	0.002196	455.46	0.000466	2146.12	0.000427	2344.55
RQP-VAE	0.000273	3667.92	0.000314	3180.69	0.000310	3221.32
RQ-KMeans	0.000285	3506.33	0.000575	1738.18	0.000644	1555.27
DRQ-VAE	0.000286	3495.31	0.000512	1951.97	0.000550	1821.62
DRQ-VAE+CL	0.000297	3365.96	0.001075	930.04	0.001962	509.73

分析：该表报告 $\sigma^2=\mathrm{Var}(Z)$ 切片下的扰动分析，估计每个方法在每一级提供多少"不可混淆"的码字。

RQP-VAE 在这个代理上表现最好：三级上 $O_\pi$ 最低、$K_{\text{eff}}$ 最大，说明 EMA 式分布摊平对各向同性噪声下的符号鲁棒性非常有效。
RQ-VAE 是整体最弱的基线，但它的主要失效出现在 Level 0（最粗一级）而非最深一级：粗码本 $O_\pi=0.002196$、只有 455.46 个有效状态，而更深的级别恢复到 2,100+ 个有效状态。
DRQ-VAE 与 RQ-KMeans 居中，且 DRQ-VAE 在 Level 1、2 略优于 RQ-KMeans，但仍落后于 RQP-VAE。
DRQ-VAE+CL 在更深码本上退化：$K_{\text{eff}}$ 从 Level 0 的 3365.96 跌到 Level 1 的 930.04、Level 2 的 509.73。协同重塑帮助了下游软匹配，却不会自动改善基于重叠的符号鲁棒性。

5.4 码本利用率（Codebook Utilization）¶

三个指标：Perplexity（$\exp(H(p))$）、Active Codes（至少被分配过一个物品的码字数）、Gini 系数（码频不平等度）。

Table 3：Semantic ID 构造的码本利用率统计（Max 4096）

Level	Model	Perplexity	Active Codes	Gini
L0	RQ-VAE	480.96	512	0.899
L0	RQP-VAE	3872.12	4096	0.184
L0	RQ-KMeans	3765.45	4096	0.225
L0	DRQ-VAE	3758.63	4096	0.229
L0	DRQ-VAE+CL	3665.12	4096	0.258
L2	RQ-VAE	2815.64	3377	0.445
L2	RQP-VAE	3692.76	4096	0.239
L2	RQ-KMeans	1912.13	3371	0.636
L2	DRQ-VAE	2130.85	3464	0.592
L2	DRQ-VAE+CL	698.71	2389	0.865

分析：该表检查名义上 4096 路的码本在实践中是否真的成为互异的语义邻域。

RQ-VAE 最严重的坍缩出现在 Level 0：perplexity 跌到 480.96，只有 512 个码活跃，Gini 高达 0.899——一个极度集中的粗划分。
RQP-VAE 在纯利用率上最强：粗、细两级都取得最高 perplexity、满码激活、最低不平等度。
RQ-KMeans 与 DRQ-VAE 都保持中等的细级使用（无显式死码复活），DRQ-VAE 在 L2 略优于 RQ-KMeans（更高 perplexity、更多活跃码）。
DRQ-VAE+CL 走向相反方向：最深码本恶化（perplexity 698.71、仅 2389 活跃码、Gini 0.865 @L2）。协同监督帮了下游匹配，却伤了深层离散码使用。

5.5 Item-to-Item 检索表现¶

为把表示诊断与下游任务连接，作者评测从用户行为序列出发的 item-to-item 检索。用户序列按"最新在前"存储；对每个连续对 (query, target) = (较旧物品, 较新物品)，若两物品都在评测池中则构成一个测试样本（否则跳过，不做 gap 配对）。检索在去掉 query 物品后的全物品池上进行。

Table 4：SID 重构 embedding 下的 item-to-item 检索保持率

Model	@20	@50	@100	@200
RQ-VAE	0.5561	0.6472	0.7162	0.7707
RQP-VAE	0.6625	0.7365	0.7984	0.8551
RQ-KMeans	0.5589	0.6297	0.6985	0.7765
DRQ-VAE	0.9999	0.9998	0.9999	0.9997
DRQ-VAE+CL	0.9976	0.9991	1.0016	1.0045

保持率定义为 $\mathrm{HR}_{\text{sid}}/\mathrm{HR}_{\text{orig}}$：用原始 embedding、SID 重构 embedding、随机基线分别检索邻居，再把重构结果换算成相对原始 embedding 的保持比。该组指标衡量量化与重构后保留了多少几何。（>1.0 表示 SID 重构 embedding 在该 cutoff 上甚至略优于原始 embedding 的命中。）

Table 5：Item-to-Item 检索 AUC 指标

Model	SID Embedding AUC	Weighted SID Match AUC	Exact SID Match AUC
RQ-VAE	0.9112	0.9127	0.7946
RQP-VAE	0.9112	0.8907	0.7579
RQ-KMeans	0.9103	0.8872	0.7527
DRQ-VAE	0.9114	0.9016	0.7466
DRQ-VAE+CL	0.9121	0.9240	0.7555

第二组指标（离散 SID 检索：层次模型用前缀匹配、非层次用独立码匹配）的详细 HR@k 在评测日志中给出，对码碰撞与分布平坦度最敏感；第三组三个 AUC（SID Embedding / Weighted SID Match / Exact SID Match）在同一滑窗测试对 + 固定随机负样本上计算，用来区分"软语义相似"与"严格符号相等"。

分析：Table 4、5 显示出重构保真、软语义匹配、精确符号查找三者的分裂。

DRQ-VAE 是重构最强的模型，且优势巨大。完整评测日志报告：最低 MSE（0.000432）、最高余弦相似度（0.999784）、最低碰撞率（0.074680）、最多唯一 ID 数（462,660）、最小最大碰撞桶（35）。与之一致，DRQ-VAE 在较低 cutoff 上近乎无损保持：@20 达 0.9999、@50 达 0.9998。
DRQ-VAE+CL 在检索更依赖软语义相似/更宽候选集时变得最强：@100、@200 取得最佳高 cutoff 保持（1.0016、1.0045），并取得最佳 SID Embedding AUC（0.9121）与 Weighted SID Match AUC（0.9240）。说明协同监督在"以软加权语义匹配评测"时最有用，而非单看重构保真。
精确符号查找呈不同模式：Exact SID Match AUC 由 RQ-VAE 最高（0.7946），但并不一定是因为它划分最干净，而部分是因为它更激进地复用码：其碰撞率 0.228898，只产出 385,351 个唯一 ID，最大碰撞桶高达 76。这提示更高的精确匹配分可能源自更重的码共享，而非更干净的语义分离。

综合下游证据，支持一个三方权衡：RQP-VAE 在符号容量代理上最强；DRQ-VAE 在重构保真与近无损 embedding 检索保持上最强；DRQ-VAE+CL 在软匹配与高 cutoff 检索保持上最强。

六、附录：$O_\pi$ 与 $K_{\text{eff}}$ 的推导¶

假设：连续潜空间为 $\mathbb{R}^d$，码本 $C=\{c_1,\dots,c_K\}$。假设检索系统在每个码字 $c_i$ 周围诱导各向同性高斯不确定性，密度 $p_i(x)=\mathcal{N}(x\mid c_i,\sigma^2 I_d)$。

两两重叠积分：定义两码字的重叠为两个密度乘积的积分：

$$\text{overlap}_{ij}\triangleq\int p_i(x)p_j(x)\,dx \tag{4}$$

展开两个高斯的乘积：

$$p_i(x)p_j(x)=\frac{1}{(2\pi\sigma^2)^d}\exp\!\left(-\frac{\lVert x-c_i\rVert^2+\lVert x-c_j\rVert^2}{2\sigma^2}\right) \tag{5}$$

引入中点 $\mu_{ij}=(c_i+c_j)/2$ 配方：

$$\lVert x-c_i\rVert^2+\lVert x-c_j\rVert^2=2\lVert x-\mu_{ij}\rVert^2+\frac{1}{2}\lVert c_i-c_j\rVert^2 \tag{6}$$

代回后，乘积分解为"依赖 $x$ 的项"与"常数项"：

$$p_i(x)p_j(x)=\frac{1}{(2\pi\sigma^2)^d}\exp\!\left(-\frac{\lVert x-\mu_{ij}\rVert^2}{\sigma^2}\right)\exp\!\left(-\frac{\lVert c_i-c_j\rVert^2}{4\sigma^2}\right) \tag{7}$$

对全空间 $x\in\mathbb{R}^d$ 积分，第一个指数项积出 $(\pi\sigma^2)^{d/2}$，于是精确的两两重叠为：

$$\text{overlap}_{ij}=\frac{1}{(4\pi\sigma^2)^{d/2}}\exp\!\left(-\frac{\lVert c_i-c_j\rVert^2}{4\sigma^2}\right) \tag{8}$$

归一化重叠核：对角自重叠为

$$\text{overlap}_{ii}=\frac{1}{(4\pi\sigma^2)^{d/2}} \tag{9}$$

除以共同的自重叠，得到一个尺度无关的核：

$$\mathcal{K}(c_i,c_j)=\frac{\text{overlap}_{ij}}{\text{overlap}_{ii}}=\exp\!\left(-\frac{\lVert c_i-c_j\rVert^2}{4\sigma^2}\right) \tag{10}$$

它在对角上为 1，随码字分离而衰减到 0。

全局期望重叠代理：设 $\pi_i$ 为利用码字 $c_i$ 的先验概率（$\sum\pi_i=1$），$O_\pi$ 即该归一化核在经验码字先验下的期望（与式 (1) 一致）：

$$O_\pi=\sum_{i=1}^{K}\sum_{j=1}^{K}\pi_i\pi_j\exp\!\left(-\frac{\lVert c_i-c_j\rVert^2}{4\sigma^2}\right) \tag{11}$$

它不是精确的 Voronoi 边界跨越概率，而是一个归一化混淆代理：值越低，扰动后的码字密度在期望意义上重叠越少。

有效码本容量：在理想均匀且正交条件（$\pi_i=1/K$、无限远）下，非对角核消失，重叠下界为

$$O_{\pi,\text{uniform}}=\sum_{i=1}^{K}\left(\frac{1}{K}\right)^2=\frac{1}{K} \tag{12}$$

为把实测重叠表达成"完全均匀系统里等价的码字数"，定义

$$K_{\text{eff}}=\frac{1}{O_\pi} \tag{13}$$

因此，最大化 $K_{\text{eff}}$ 要求更低的分布偏斜（更平的 $\pi$）+ 更大的几何分离 $\lVert c_i-c_j\rVert^2$——这就是解耦方法的数学基础。

核心贡献总结¶

统一诊断语言：用 $O_\pi$（期望重叠率）与 $K_{\text{eff}}$（有效码本容量）把 Semantic ID 退化形式化，并清晰拆成 Distribution Penalty（$\sum_i\pi_i^2$，分布地板） 与 Geometry Penalty（几何敏感的非对角交叉重叠） 两个可分别度量的根因。
DRQ 概念验证：把"连续几何学习（VAE，无 STE）"与"离散分布匹配（层次 K-Means）"解耦，使两个目标可被独立检视；可选对比项进一步注入行为监督（DRQ-VAE+CL）。
多目标权衡的实证：在 1500 万物品的工业短视频数据集上证明——没有单一 tokenizer 在所有维度上占优。RQP-VAE 胜在符号容量/码本利用率，DRQ-VAE 胜在重构保真/近无损检索保持，DRQ-VAE+CL 胜在软匹配/高 cutoff 保持。

与已归档相关工作的对比¶

DRQ 的论文指纹是：问题=RQ-VAE 式 SID tokenizer 因 (a) 分布惩罚（STE 在长尾数据上致码本坍缩）与 (b) 几何惩罚（弯曲流形被压到平坦欧氏网格）而退化；解法=把连续表示学习从离散量化瓶颈中"解放"出来，再做密度自适应的离散分配，并配一个重叠/容量诊断。下面三篇是文档库中问题 + 解法双同构的独立并发工作（DRQ 仅 14 篇引用且均为奠基性文献，未引用这三篇）。

AsymRec AsymRec: Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization (Tsinghua, 2026-05-14)¶

关系：独立并发（本文未引用 AsymRec，两者殊途同归）· 已加载对方精读

共同关注的问题：AsymRec 把 GenRec 的失效拆成一个双阶段信息瓶颈——input 端的 popularity bias（离散 lookup 按频次更新、长尾欠拟合）与 output 端的 dimensional collapse（直接回归连续 embedding 会让输出 SVD-rank 从 178.1 跌到 99.5）。这与 DRQ 的两条惩罚高度对应：popularity bias ≈ Distribution Penalty，dimensional collapse ≈ Geometry Penalty。两篇都拒绝"把 SID 退化压成单一标量"，都坚持分布轴与几何/维度轴分开诊断。
相近的技术骨架：两者的共同 insight 都是"不要在表示学习阶段强迫连续表示穿过离散量化瓶颈"。DRQ 彻底移除 STE（VAE 重塑 → 事后 K-Means）；AsymRec 则用"非对称"实现——input 侧用 MoE 连续投影（MSP）完全绕开离散 lookup，只在 output 侧用离散 SID 做监督。
本文的差异与推进：DRQ 的独特贡献是可量化的诊断框架（$O_\pi/K_{\text{eff}}$ 把"重塑前/后"的鲁棒性变成可比的数）+ 用最朴素的事后层次 K-Means 替代量化；AsymRec 的离散侧仍是联合 EMA 量化（PQ×RQ + 能量均衡 + 正交正则）——这恰好对应 DRQ 的 RQP-VAE 基线那一类"EMA 稳定化"路线，而非 DRQ 的 K-Means 路线。
可比的方法/实验差异：AsymRec 在四个 Amazon 子集上 NDCG@10 平均 +15.8%、广告 pCVR 线上 +1.9% GMV，是端到端 GenRec 指标；DRQ 只评 item-to-item 检索保持 + 诊断指标（专有数据），不报端到端排名。两者证据层级不同：AsymRec 证"非对称表示提升推荐效果"，DRQ 证"解耦改变了 tokenizer 的多目标剖面"。

CARD CARD: Non-Uniform Quantization of Visual Semantic Unit for Generative Recommendation (UESTC, 2026-04-29)¶

关系：独立并发（本文未引用 CARD，两者殊途同归）· 已加载对方精读

共同关注的问题：CARD 的 Challenge 2 与 DRQ 的 Distribution Penalty 几乎逐字同构——RQ-VAE 的"最小化全局重建误差"隐式假设 latent 分布均匀，但推荐 embedding 极度非均匀（热门致密簇 + 长尾稀疏区），导致 codeword imbalance 并在生成端被放大。
相近的技术骨架：两者都主张"先把 latent 分布重塑得更均匀/更散开，再去量化"。DRQ 通过无 STE 的 VAE 让 latent 自由扩张 + 密度自适应 K-Means；CARD 则在残差量化前插入一个可学习的可逆非线性变换（Kumaraswamy CDF 或 scaled logistic-logit），把非均匀 latent 映到近似均匀空间量化、解码时再 inverse 变换回来。
本文的差异与推进：CARD 的"重塑"是保留端到端 RQ-VAE（仍有 STE/commitment loss），只加一个 uniformizing 变换；DRQ 则整段抽掉量化训练，把分布塑造交给事后聚类，并额外给出 $O_\pi/K_{\text{eff}}$ 诊断来解释为何这样有效。此外 CARD 还有 DRQ 不涉及的另一半——把多模态信号"渲染"成卡牌图像用 SigLIP2 统一编码以绕开跨模态融合。
可比的方法/实验差异：CARD 把成效落到下游 GenRec 指标（公开数据集）；DRQ 把成效落到 tokenizer 的重构/容量/检索保持诊断（工业数据）。一个直接用变换函数"矫正分布"，一个用"解耦 + 聚类"间接达到同样的"摊平 $\pi$、增大码间距"目标。

CRAB CRAB: Codebook Rebalancing for Bias Mitigation in Generative Recommendation (Walmart Global Tech, 2026-04-06)¶

关系：独立并发（本文未引用 CRAB，两者在分布轴上殊途同归）· 已加载对方精读

共同关注的问题：CRAB 与 DRQ 的 Distribution Penalty 直接同构——RQ-KMeans/RQ-VAE tokenizer 把语义相近的热门 item 聚到同一 token，造成 token 频率严重不平衡（over-popular token），下游 LLM 对不流行 token 欠学习、并在生成端进一步放大流行度偏差。这正是 DRQ 式 (2) 里"分布地板 $\sum_i\pi_i^2$ 被偏斜先验抬高"的下游表现。
相近的技术骨架：两者都用聚类（而非 STE 梯度）作为对抗码本坍缩的工具。DRQ 用密度自适应层次 K-Means 从零构码；CRAB 用正则化 K-means 把过热门 token 拆分成多个频率更均衡的新 token（带 popularity 方差正则），再用 Hierarchical Semantic Alignment 校准 LLM embedding。
本文的差异与推进：关系上 CRAB 更窄——它是对已坍缩码本的事后去偏（post-hoc rebalancing），且只触及分布轴，完全不处理几何惩罚；DRQ 则在构码阶段就同时针对分布与几何，并提供统一诊断。换言之，CRAB 是"事后补救热门 token"，DRQ 是"换一套不易坍缩的构码流程 + 解释为何不易坍缩"。
可比的方法/实验差异：CRAB 在工业与 Office 数据上把流行度偏差 DGU@10 相对 MOR 降低 16.5%（以去偏指标为靶）；DRQ 不报去偏指标，而以重叠率/有效容量/检索保持为靶。两者都印证"K-Means 类聚类比 STE 更利于摊平码使用"，但落脚的评测维度不同。

被剔除的近似候选（问题或解法其一不同构）： - Semantic IDs for Recommender Systems at Snapchat: Use Cases, Technical Challenges, and Design Choices（Snap，GRID）：同样针对 codebook collapse，但解法是强化 STE + 多模态融合的联合训练，与 DRQ"从 STE 解耦"的路线方向相反——剔除（解法发散）。 - QuaSID QuaSID：问题部分相关（SID 碰撞质量），但解法是"区分有害碰撞 vs 良性重叠"的 qualification-aware 学习（HaMR/CVPM），不是重塑/解耦——剔除（解法发散）。 - CapsID CapsID：问题落在 RQ-VAE 硬 argmax 分配的刚性，解法是软胶囊路由 + 变长 SID（软分配），既非分布摊平也非几何重塑——剔除（解法发散）。

讨论与局限性¶

值得借鉴的设计：(1) 把"tokenizer 质量"从单一标量解构成可分别度量的两条惩罚 + 一套多目标剖面，给后续工作提供了诊断坐标系；(2) $O_\pi/K_{\text{eff}}$ 这套"扰动 → 重叠 → 等价容量"的代理简单、可解析、跨方法可比；(3) "解耦 VAE 重塑 + 事后 K-Means"作为一个可控的设计旋钮——本文明确不把它当作"全面更优的 tokenizer"，而是用它来隔离"分布塑造"与"几何塑造"两个变量。

核心局限（作者自陈）：

单一专有数据集：所有实验在一个工业短视频数据集上，无法证明 DRQ/RQP-VAE/RQ-KMeans 之间的同一排名能推广到稀疏模式、模态、序列动态都不同的公开 benchmark。
只评 item-to-item 检索，而非"召回 → 排序"的完整推荐流水线；下游结论是关于"SID 作为检索/匹配键"的质量，而非生产栈里的 Recall/NDCG 端到端指标。
诊断是简化代理：$O_\pi$ 假设各向同性扰动；检索指标刻意把"重构/加权/精确"三种匹配视角分开而非压成一个分数。这种分解是有意为之，但仍需更广验证。

与已有工作的差异/争议点：本文最反直觉的结论是 "Exact SID Match AUC 最高的 RQ-VAE 其实是靠更重的码共享（碰撞率 0.23、唯一 ID 仅 38.5 万）刷出来的"——即一个常被当作"语义分离干净"的指标，可能恰恰反映了码本坍缩。这提醒社区：评估 SID tokenizer 不能只看单一精确匹配分。最终论文的中心主张是——几何敏感检索、符号鲁棒性、行为感知软匹配是相关但相互独立的目标，不应被压缩成"tokenizer 质量"这一个概念。