AR-NTP 与 FV-MLE 在生成式推荐中的等价性：一篇简短的理论备忘¶

Authors: Yusheng Huang, Shuang Yang, Zhaojie Liu, Han Li (Kuaishou Technology)

ArXiv: 2604.15739 (2026-04-17)

1. 研究动机与背景¶

生成式推荐 (Generative Recommendation, GR) 已成为工业界顺序推荐的主流范式。一代代工业级系统——OneRec、OneLive、OneSug、OneMall、GPR、DOS、RecGPT 等——都聚合到了一套标准三段式管线：

分词 (Tokenization)：用 Semantic-ID (SID) 把每个候选 item 映射为 $k$ 个离散 token 组成的序列；
训练目标：Next-Token Prediction (NTP)，对目标 item 的 $k$-token 序列做自回归 teacher-forcing；
推理：beam search 在 $k$ 步自回归解码中生成 top-N 个 $k$-token 序列，再反查 token-item 映射回 item。

这一 AR-NTP 范式在工业 A/B 中几乎没有失败过。但一个长期悬而未决的理论问题是：为什么"逐 token 预测"能作为一种 item-level 的生成式建模？它到底在拟合什么样的概率分布？ 已有工作更多集中在架构设计与实验提升，理论层面几乎空白。

最接近的理论进展来自 NLP 领域：Malach (2024) 证明自回归 next-token 预测器是"通用函数学习器"；另一些并发工作 (Ding et al., 2026) 归因 GR 相对 ID-based 模型的泛化优势于"更好的压缩"；Zhao et al. (2026) 进一步揭示 SID 相比 item-ID 在 scaling 上的潜力。然而这些都没有从推荐系统视角解释 AR-NTP 的本质。

本文的贡献非常聚焦：在 bijective mapping 前提下，严格证明 $k$-token AR-NTP 范式与全 item 词表上的 Maximum Likelihood Estimation (FV-MLE) 在数学上严格等价。 这一结果：

为 GR 的主流范式提供第一个严格的理论依据——AR-NTP 不是某种近似，它就是 FV-MLE 本身；
对级联 (cascaded，如 RQ-VAE、RQ-KMeans) 与并行 (parallel，如 OPQ + MTP) 两种主流 tokenization 均成立；
自然解释了 AR-NTP 的计算复杂度优势：把 $O(V)$ 的全词表 softmax 分解为 $k$ 次 $O(V_m)$ 的小 codebook softmax，对工业级 $V \sim 10^6 \text{–} 10^9$ 可行，而 FV-MLE 不可行。

2. 符号与定义¶

下文核心符号：

$h \in \mathbb{R}^d$：用户与上下文向量（由历史行为序列、用户静态特征、请求上下文编码而来）；
$\mathcal{V}$：全 item 词表，$N = |\mathcal{V}|$；
$k$：表示单个 item 所用的 token 数；
$X$：每个 token 的 codebook 大小，为简化假设 $N = X^k$，且每个位置共用同一个 codebook（即 $|\mathcal{V}_m| = X, \forall m \in [1, k]$）；
$\Phi = (t_1^i, t_2^i, \dots, t_k^i)$：item $i$ 的 $k$-token 序列；bijection $\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$——item 空间与合法 $k$-token 序列空间一一对应；
$\ell(t_m \mid h, t_1, \dots, t_{m-1})$：第 $m$ 步的 token-level 条件 logit（模型的 NTP 输出）；
$\ell(h, i) = \sum_{m=1}^{k} \ell(t_m^i \mid h, t_1^i, \dots, t_{m-1}^i)$：item $i$ 的 item-level logit，定义为 $k$ 个 token 条件 logit 之和。

训练管线¶

本文聚焦 single-next-item 生成：给定编码得到的 $h$，模型以 step-by-step 自回归方式预测目标 item $i^+$ 的 $k$-token 序列（list-wise 生成不在本文讨论范围内）。每个训练样本把"下一个正样本 item" $i^+$（可能是曝光样本或用户交互样本）作为 positive。

Single-Next-Item $k$-Token Auto-Regressive NTP (Definition 1)¶

联合概率按 Bayesian chain rule 展开：

$$ p(i \mid h) = p(t_1^i, t_2^i, \dots, t_k^i \mid h) = \prod_{m=1}^{k} p(t_m^i \mid h, t_1^i, \dots, t_{m-1}^i) \tag{1} $$

每一步 token 条件概率由 token-level 全 codebook softmax 给出：

$$ p(t_m \mid h, t_1, \dots, t_{m-1}) = \frac{\exp\left(\ell(t_m \mid h, t_1, \dots, t_{m-1})\right)}{Z_m(h, t_1, \dots, t_{m-1})} \tag{2} $$

其中 token-level partition function 为：

$$ Z_m(h, t_1, \dots, t_{m-1}) = \sum_{t_m \in \mathcal{V}_m} \exp\left(\ell(t_m \mid h, t_1, \dots, t_{m-1})\right) \tag{3} $$

在 teacher forcing 下，预测第 $m$ 个 token 时前缀条件取 ground-truth 序列 $[t_1^{i^+}, \dots, t_{m-1}^{i^+}]$，而不是模型自回归采样。训练损失（单样本 NLL）：

$$ \mathcal{L}_{\text{NTP}} = -\sum_{m=1}^{k} \log p\!\left(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+}\right) \tag{4} $$

Full-Item-Vocabulary MLE (Definition 2)¶

FV-MLE 直接在整个 item 词表上做 Softmax，并最大化正样本的对数似然：

$$ \mathcal{L}_{\text{Full\_MLE}} = -\log\!\left(\frac{\exp(\ell(h, i^+))}{Z_{\text{full}}(h)}\right) \tag{5} $$

其中全词表 partition function：

$$ Z_{\text{full}}(h) = \sum_{i \in \mathcal{V}} \exp(\ell(h, i)) \tag{6} $$

在统计学上，MLE 具有渐近一致性——样本量足够时，MLE 会收敛到真实的数据生成分布，因此是"分布拟合"的黄金标准。但对于工业级 $V$，全 softmax 计算不可行。

3. 核心等价定理¶

Theorem 1 (Equivalence of $k$-Token NTP and Full-Vocabulary MLE)¶

假设存在 bijection $\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$（$\mathcal{S}$ 为合法 $k$-token 序列空间）。则：

$$\mathcal{L}_{\text{NTP}} \equiv \mathcal{L}_{\text{Full\_MLE}}$$

证明（四步）¶

Step 1：用 Bayesian 链式法则展开 item-level 联合概率。 把公式 (2) 的 token 条件 softmax 代入 (1)：

$$ p(i^+ \mid h) = \prod_{m=1}^{k} \frac{\exp\!\left(\ell(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+})\right)}{Z_m(h, t_1^{i^+}, \dots, t_{m-1}^{i^+})} \tag{7} $$

Step 2：把 token logit 合并为 item logit。 分子是 $k$ 个指数相乘，利用指数乘法规则合成为单个指数：

$$ \prod_{m=1}^{k} \exp\!\left(\ell(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+})\right) = \exp\!\left(\sum_{m=1}^{k} \ell(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+})\right) = \exp(\ell(h, i^+)) \tag{8} $$

因此 item-level 条件概率改写为：

$$ p(i^+ \mid h) = \frac{\exp(\ell(h, i^+))}{\prod_{m=1}^{k} Z_m(h, t_1^{i^+}, \dots, t_{m-1}^{i^+})} \tag{9} $$

Step 3：证明 partition function 相等。 这是全证明最关键的一步。利用乘法对加法的分配律，把 $k$ 个 token 分区函数的乘积展开为嵌套求和：

$$ \prod_{m=1}^{k} Z_m(\cdot) = \sum_{t_1 \in \mathcal{V}_1} \exp(\ell(t_1 \mid h)) \cdot \sum_{t_2 \in \mathcal{V}_2} \exp(\ell(t_2 \mid h, t_1)) \cdots \tag{10} $$

进一步把嵌套 sum 合并为单重 sum（遍历所有合法 $k$-token 序列）：

$$ \prod_{m=1}^{k} Z_m(\cdot) = \sum_{t_1 \in \mathcal{V}_1} \sum_{t_2 \in \mathcal{V}_2} \cdots \sum_{t_k \in \mathcal{V}_k} \exp\!\left(\sum_{m=1}^{k} \ell(t_m \mid h, t_1, \dots, t_{m-1})\right) \tag{11} $$

关键一步：由 bijection 前提，遍历"所有合法 $k$-token 序列"完全等价于遍历"整个 item 词表 $\mathcal{V}$"。代入 item-level logit 定义：

$$ \prod_{m=1}^{k} Z_m(\cdot) = \sum_{i \in \mathcal{V}} \exp(\ell(h, i)) = Z_{\text{full}}(h) \tag{12} $$

这严格证明了 $k$ 个 token 分区函数的乘积恰好等于 FV-MLE 中的全词表分区函数。

Step 4：回代得到损失函数等价。 把公式 (12) 代回 (9)：

$$ p(i^+ \mid h) = \frac{\exp(\ell(h, i^+))}{Z_{\text{full}}(h)} \tag{13} $$

这正是 FV-MLE 中的条件概率定义。于是：

$$ \mathcal{L}_{\text{NTP}} = -\log p(i^+ \mid h) = -\log\!\left(\frac{\exp(\ell(h, i^+))}{Z_{\text{full}}(h)}\right) = \mathcal{L}_{\text{MLE}} \tag{14} $$

证毕。$\square$

直观理解¶

这个结果看似"显然"——毕竟 NTP 通过 chain rule 乘出来的就是 item 联合概率。但它不显然的地方在于 partition function 的等价：

NTP 每一步用的是 token-level Softmax 分母 $Z_m$（仅对当前 codebook 归一化）；
FV-MLE 用的是 item-level Softmax 分母 $Z_{\text{full}}$（对全词表归一化）；
如果 token-item 映射不是 bijection（如 codebook 坍缩、碰撞），则 $\prod_m Z_m$ 会"多数出一些非法序列"，从而严格大于 $Z_{\text{full}}$——此时 AR-NTP 就是 FV-MLE 的有偏逼近。

计算复杂度优势¶

等价定理揭示了 AR-NTP 被工业界大规模采用的核心原因：在理论最优性（FV-MLE）下实现了计算可行性。

FV-MLE：$O(V)$ 全 Softmax，工业 $V \sim 10^6 \text{–} 10^9$ 不可行；
$k$-token NTP：$k$ 次 $O(V_m)$ token Softmax，$V_m$ 通常 $256 \text{–} 8192$；总复杂度 $O(k \cdot V_m) \ll O(V)$。

在 bijection 条件满足的前提下，AR-NTP 以极低计算成本达到了 FV-MLE 的最优性。

4. 推论：级联与并行分词的普适性¶

工业界的两种主流分词方式：

级联分词 (Cascaded)：RQ-VAE、RQ-KMeans，残差量化，第 $m$ 个 token 的 codebook $\mathcal{V}_m$ 依赖于前序所有 tokens $t_1, \dots, t_{m-1}$；
并行分词 (Parallel)：基于 OPQ 等 Product Quantization 的范式，第 $m$ 个 codebook 与其他 token 独立（$t_m \perp t_j, \forall j \ne m$）。并行分词原生支持 Multi-Token Prediction (MTP) 快速解码，同时也兼容 AR 解码。

Corollary 1 (Applicability to Parallel & Cascaded Tokenization)¶

对以下两种分词：

Parallel：codebook $\mathcal{V}_m$ 独立于其他 token；
Cascaded：codebook $\mathcal{V}_m$ 依赖所有前序 token $t_1, \dots, t_{m-1}$；

$k$-token AR-NTP 与 FV-MLE 的数学等价性都成立——只要存在 bijection $\Phi: \mathcal{V} \to \mathcal{S}$，$\mathcal{S}$ 是对应分词方案生成的合法 $k$-token 序列空间。

两个充要条件¶

等价成立需要：

Bijective Mapping Condition：$\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$；
Probability Decomposition Condition：item-level 条件概率服从 Bayesian chain rule 展开。

Bijection 条件的满足依赖于分词质量：codebook collapse、高碰撞率的次优 GR 设计会破坏此条件。一些方法（如 RecGPT）采用 Finite Scalar Quantization (FSQ) 保证无碰撞的一一映射。下文证明中假设 bijection 始终成立。

级联分词的证明¶

级联分词天然满足 Condition (ii)：$m$-th token 以所有前序 token 为条件，这正是自回归形式。item-level 联合概率的分解与主定理一致，所有推导原样成立，无需修改。

并行分词的证明¶

并行分词是自回归分解的特例——条件概率独立于前序 token：

$$ p(t_m^i \mid h, t_1^i, \dots, t_{m-1}^i) = p(t_m^i \mid h), \quad \forall m \in \{1, 2, \dots, k\} \tag{15} $$

这仍然符合 Bayesian chain rule（只是条件项省略）。推导：

(1) 代入条件独立形式：

$$ p(i \mid h) = \prod_{m=1}^{k} p(t_m^i \mid h) = \prod_{m=1}^{k} \frac{\exp(\ell(t_m^i \mid h))}{Z_m(h)} \tag{16} $$

其中 $Z_m(h) = \sum_{t_m \in \mathcal{V}_m} \exp(\ell(t_m \mid h))$。

(2) 合并分子为 item-level logit：

$$ \prod_{m=1}^{k} \exp(\ell(t_m^i \mid h)) = \exp\!\left(\sum_{m=1}^{k} \ell(t_m^i \mid h)\right) = \exp(\ell(h, i)) \tag{17} $$

(3) 展开 partition function 乘积：

$$ \prod_{m=1}^{k} Z_m(h) = \sum_{t_1 \in \mathcal{V}_1} \cdots \sum_{t_k \in \mathcal{V}_k} \exp\!\left(\sum_{m=1}^{k} \ell(t_m \mid h)\right) \tag{18} $$

(4) 由 bijection 条件，合法 $k$-token 序列与 item 一一对应：

$$ \prod_{m=1}^{k} Z_m(h) = \sum_{i \in \mathcal{V}} \exp(\ell(h, i)) = Z_{\text{full}}(h) \tag{19} $$

最终：

$$ p(i \mid h) = \frac{\exp(\ell(h, i))}{Z_{\text{full}}(h)} \tag{20} $$

与公式 (5) 的 FV-MLE 形式完全一致。证毕。$\square$

5. 讨论、核心洞察与局限性¶

核心洞察¶

等价定理揭示了 GR 泛化优势的本质：AR-NTP 范式在 bijective tokenization 下内在实现了对整个 item 分布的无偏拟合。 这和 ID-based 模型的对比学习/二元交叉熵损失有根本差异——后者只在负采样集合上拟合局部分布，而 AR-NTP 相当于对整个 item 词表做了 MLE。

这一结果回答了几个工业界长期困惑：

"为什么 SID + NTP 比 item-ID + dot product 好？" —— 因为它在"用极小计算代价"下做 FV-MLE，而 ID-based 方法通常只做 BCE 或 sampled softmax 的有偏估计。
"为什么 tokenization 质量对 GR 如此关键？" —— 因为 bijection 是等价性成立的必要条件，codebook collapse 会直接把 AR-NTP 从无偏估计器变成有偏估计器。
"级联分词和并行分词谁更好？" —— 在满足 bijection 的前提下，两者在 loss 层面理论等价。选择应由 tokenization 质量、推理延迟、MTP 支持等工程因素决定。

工业部署启示¶

优先保证 bijection 质量：FSQ 这类"天然无碰撞"的量化方案 > 启发式的 RQ 但带碰撞修复；
k 与 codebook 尺寸的 tradeoff：$k \cdot V_m$ 决定计算开销，$X^k \geq N$ 决定是否能覆盖全词表。两者共同影响 bijection 能否严格满足；
并行 + MTP 的推理加速可以在不破坏理论等价性的前提下使用。

局限性与后续工作¶

Bijection 假设在真实系统中常常被破坏：RQ-VAE 的 codebook collapse、哈希碰撞、长尾 item 的稀疏码字分布都会让 $|\mathcal{S}| \gt |\mathcal{V}|$ 或多对一映射——此时 $\prod_m Z_m \gt Z_{\text{full}}$，AR-NTP 是 FV-MLE 的系统性有偏估计（下界）。论文明确把"量化这种偏差的性能边界"列为 future work。
本文只证明 single-next-item 生成：list-wise 生成（如 OneRec 的 list-level reward、OneLive 的直播推荐多 item 联合建模）不在覆盖范围内。
没有讨论 RL 阶段：工业 GR 通常有 pre-train (NTP) + RLHF/GRPO 两阶段，RL 阶段的理论刻画缺失。
假设 $N = X^k$ 且共用 codebook：实际系统 codebook 大小、$k$ 的选择往往与 $N$ 不严格匹配，bijection 是否被严格满足常常是工程实现细节。

与已有工作的差异¶

相对 Malach (2024) 的 NLP 通用性结果：本文是推荐领域首个把 AR-NTP 范式与 FV-MLE 做严格对应的工作；
相对 Ding et al. (2026) / Zhao et al. (2026)：那些工作侧重经验验证（"SID 比 ID 好"、"scaling 比 ID 更陡"），本文补上了为什么 SID + NTP 是最优的分布拟合器这一缺失的理论骨架。

6. 对我们工作的启示¶

这篇短文对任何自研 GR 系统（OneRec、OneSug、OneMall 类）都有直接指导意义：

把"bijection 质量"作为 tokenization 模块的一级指标监控——collapse rate、collision rate 比 codebook utilization 更直接地指示理论最优性的损失；
评估 tokenization 设计的理论优劣应回到 bijection：RQ-VAE vs FSQ、k=3 vs k=4、codebook 共享 vs 独立——这些选择最终都可以通过"是否保持 $\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$"来裁决；
并行分词 + MTP 在满足 bijection 下没有理论代价，只有工程收益，可以大胆采用；
未来扩展方向：量化 bijection 破坏下的偏差（"codebook collapse 到什么程度会让 NLL 偏离 FV-MLE 到不可接受的程度？"），可以直接作为一个可落地的研究课题。

本文是一篇短而重要的理论 note——5 页的篇幅里把 GR 的核心理论根基钉死了，值得作为所有工业 GR 系统的基础参考文献。