← Back to list

On the Equivalence Between Auto-Regressive Next Token Prediction and Full-Item-Vocabulary Maximum Likelihood Estimation in Generative Recommendation--A Short Note

生成式推荐 Kuaishou
Abstract 7 Reading 7 Rating —
2026-04-17
Yusheng Huang, Shuang Yang, Zhaojie Liu, Han Li
Kuaishou Technology
形式化证明 k-token AR-NTP 在 bijective 分词下严格等价于全词表 MLE,首次给出工业 GR 范式的严格理论基础,并推广到级联与并行两种分词。
评分原因
摘要评分:首次严格证明工业 GR 系统中 AR-NTP 与 FV-MLE 在双射映射条件下严格等价,为生成式推荐提供了第一个形式化理论基础;无新架构但理论贡献扎实,值得精读。
精读评分:首个从数学上严格证明 AR-NTP 与 FV-MLE 等价的理论短文,补齐了工业 GR 范式长期缺失的理论基石,思路清晰、结论实用(bijection 质量作为 tokenization 的一级指标);但作为 5 页 short note,缺少 bijection 破坏下的量化分析与 RL/list-wise 场景覆盖,深度有限。
semantic-id industrial transformer

AR-NTP 与 FV-MLE 在生成式推荐中的等价性:一篇简短的理论备忘

Authors: Yusheng Huang, Shuang Yang, Zhaojie Liu, Han Li (Kuaishou Technology)

ArXiv: 2604.15739 (2026-04-17)

1. 研究动机与背景

生成式推荐 (Generative Recommendation, GR) 已成为工业界顺序推荐的主流范式。一代代工业级系统——OneRec、OneLive、OneSug、OneMall、GPR、DOS、RecGPT 等——都聚合到了一套标准三段式管线:

  1. 分词 (Tokenization):用 Semantic-ID (SID) 把每个候选 item 映射为 $k$ 个离散 token 组成的序列;
  2. 训练目标:Next-Token Prediction (NTP),对目标 item 的 $k$-token 序列做自回归 teacher-forcing;
  3. 推理:beam search 在 $k$ 步自回归解码中生成 top-N 个 $k$-token 序列,再反查 token-item 映射回 item。

这一 AR-NTP 范式在工业 A/B 中几乎没有失败过。但一个长期悬而未决的理论问题是:为什么"逐 token 预测"能作为一种 item-level 的生成式建模?它到底在拟合什么样的概率分布? 已有工作更多集中在架构设计与实验提升,理论层面几乎空白。

最接近的理论进展来自 NLP 领域:Malach (2024) 证明自回归 next-token 预测器是"通用函数学习器";另一些并发工作 (Ding et al., 2026) 归因 GR 相对 ID-based 模型的泛化优势于"更好的压缩";Zhao et al. (2026) 进一步揭示 SID 相比 item-ID 在 scaling 上的潜力。然而这些都没有从推荐系统视角解释 AR-NTP 的本质。

本文的贡献非常聚焦:在 bijective mapping 前提下,严格证明 $k$-token AR-NTP 范式与全 item 词表上的 Maximum Likelihood Estimation (FV-MLE) 在数学上严格等价。 这一结果:

  • 为 GR 的主流范式提供第一个严格的理论依据——AR-NTP 不是某种近似,它就是 FV-MLE 本身;
  • 对级联 (cascaded,如 RQ-VAE、RQ-KMeans) 与并行 (parallel,如 OPQ + MTP) 两种主流 tokenization 均成立
  • 自然解释了 AR-NTP 的计算复杂度优势:把 $O(V)$ 的全词表 softmax 分解为 $k$ 次 $O(V_m)$ 的小 codebook softmax,对工业级 $V \sim 10^6 \text{–} 10^9$ 可行,而 FV-MLE 不可行。

2. 符号与定义

下文核心符号:

  • $h \in \mathbb{R}^d$:用户与上下文向量(由历史行为序列、用户静态特征、请求上下文编码而来);
  • $\mathcal{V}$:全 item 词表,$N = |\mathcal{V}|$;
  • $k$:表示单个 item 所用的 token 数;
  • $X$:每个 token 的 codebook 大小,为简化假设 $N = X^k$,且每个位置共用同一个 codebook(即 $|\mathcal{V}_m| = X, \forall m \in [1, k]$);
  • $\Phi = (t_1^i, t_2^i, \dots, t_k^i)$:item $i$ 的 $k$-token 序列;bijection $\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$——item 空间与合法 $k$-token 序列空间一一对应;
  • $\ell(t_m \mid h, t_1, \dots, t_{m-1})$:第 $m$ 步的 token-level 条件 logit(模型的 NTP 输出);
  • $\ell(h, i) = \sum_{m=1}^{k} \ell(t_m^i \mid h, t_1^i, \dots, t_{m-1}^i)$:item $i$ 的 item-level logit,定义为 $k$ 个 token 条件 logit 之和。

训练管线

本文聚焦 single-next-item 生成:给定编码得到的 $h$,模型以 step-by-step 自回归方式预测目标 item $i^+$ 的 $k$-token 序列(list-wise 生成不在本文讨论范围内)。每个训练样本把"下一个正样本 item" $i^+$(可能是曝光样本或用户交互样本)作为 positive。

Single-Next-Item $k$-Token Auto-Regressive NTP (Definition 1)

联合概率按 Bayesian chain rule 展开:

$$ p(i \mid h) = p(t_1^i, t_2^i, \dots, t_k^i \mid h) = \prod_{m=1}^{k} p(t_m^i \mid h, t_1^i, \dots, t_{m-1}^i) \tag{1} $$

每一步 token 条件概率由 token-level 全 codebook softmax 给出:

$$ p(t_m \mid h, t_1, \dots, t_{m-1}) = \frac{\exp\left(\ell(t_m \mid h, t_1, \dots, t_{m-1})\right)}{Z_m(h, t_1, \dots, t_{m-1})} \tag{2} $$

其中 token-level partition function 为:

$$ Z_m(h, t_1, \dots, t_{m-1}) = \sum_{t_m \in \mathcal{V}_m} \exp\left(\ell(t_m \mid h, t_1, \dots, t_{m-1})\right) \tag{3} $$

teacher forcing 下,预测第 $m$ 个 token 时前缀条件取 ground-truth 序列 $[t_1^{i^+}, \dots, t_{m-1}^{i^+}]$,而不是模型自回归采样。训练损失(单样本 NLL):

$$ \mathcal{L}_{\text{NTP}} = -\sum_{m=1}^{k} \log p\!\left(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+}\right) \tag{4} $$

Full-Item-Vocabulary MLE (Definition 2)

FV-MLE 直接在整个 item 词表上做 Softmax,并最大化正样本的对数似然:

$$ \mathcal{L}_{\text{Full\_MLE}} = -\log\!\left(\frac{\exp(\ell(h, i^+))}{Z_{\text{full}}(h)}\right) \tag{5} $$

其中全词表 partition function:

$$ Z_{\text{full}}(h) = \sum_{i \in \mathcal{V}} \exp(\ell(h, i)) \tag{6} $$

在统计学上,MLE 具有渐近一致性——样本量足够时,MLE 会收敛到真实的数据生成分布,因此是"分布拟合"的黄金标准。但对于工业级 $V$,全 softmax 计算不可行。

3. 核心等价定理

Theorem 1 (Equivalence of $k$-Token NTP and Full-Vocabulary MLE)

假设存在 bijection $\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$($\mathcal{S}$ 为合法 $k$-token 序列空间)。则:

$$\mathcal{L}_{\text{NTP}} \equiv \mathcal{L}_{\text{Full\_MLE}}$$

证明(四步)

Step 1:用 Bayesian 链式法则展开 item-level 联合概率。 把公式 (2) 的 token 条件 softmax 代入 (1):

$$ p(i^+ \mid h) = \prod_{m=1}^{k} \frac{\exp\!\left(\ell(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+})\right)}{Z_m(h, t_1^{i^+}, \dots, t_{m-1}^{i^+})} \tag{7} $$

Step 2:把 token logit 合并为 item logit。 分子是 $k$ 个指数相乘,利用指数乘法规则合成为单个指数:

$$ \prod_{m=1}^{k} \exp\!\left(\ell(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+})\right) = \exp\!\left(\sum_{m=1}^{k} \ell(t_m^{i^+} \mid h, t_1^{i^+}, \dots, t_{m-1}^{i^+})\right) = \exp(\ell(h, i^+)) \tag{8} $$

因此 item-level 条件概率改写为:

$$ p(i^+ \mid h) = \frac{\exp(\ell(h, i^+))}{\prod_{m=1}^{k} Z_m(h, t_1^{i^+}, \dots, t_{m-1}^{i^+})} \tag{9} $$

Step 3:证明 partition function 相等。 这是全证明最关键的一步。利用乘法对加法的分配律,把 $k$ 个 token 分区函数的乘积展开为嵌套求和:

$$ \prod_{m=1}^{k} Z_m(\cdot) = \sum_{t_1 \in \mathcal{V}_1} \exp(\ell(t_1 \mid h)) \cdot \sum_{t_2 \in \mathcal{V}_2} \exp(\ell(t_2 \mid h, t_1)) \cdots \tag{10} $$

进一步把嵌套 sum 合并为单重 sum(遍历所有合法 $k$-token 序列):

$$ \prod_{m=1}^{k} Z_m(\cdot) = \sum_{t_1 \in \mathcal{V}_1} \sum_{t_2 \in \mathcal{V}_2} \cdots \sum_{t_k \in \mathcal{V}_k} \exp\!\left(\sum_{m=1}^{k} \ell(t_m \mid h, t_1, \dots, t_{m-1})\right) \tag{11} $$

关键一步:由 bijection 前提,遍历"所有合法 $k$-token 序列"完全等价于遍历"整个 item 词表 $\mathcal{V}$"。代入 item-level logit 定义:

$$ \prod_{m=1}^{k} Z_m(\cdot) = \sum_{i \in \mathcal{V}} \exp(\ell(h, i)) = Z_{\text{full}}(h) \tag{12} $$

这严格证明了 $k$ 个 token 分区函数的乘积恰好等于 FV-MLE 中的全词表分区函数。

Step 4:回代得到损失函数等价。 把公式 (12) 代回 (9):

$$ p(i^+ \mid h) = \frac{\exp(\ell(h, i^+))}{Z_{\text{full}}(h)} \tag{13} $$

这正是 FV-MLE 中的条件概率定义。于是:

$$ \mathcal{L}_{\text{NTP}} = -\log p(i^+ \mid h) = -\log\!\left(\frac{\exp(\ell(h, i^+))}{Z_{\text{full}}(h)}\right) = \mathcal{L}_{\text{MLE}} \tag{14} $$

证毕。$\square$

直观理解

这个结果看似"显然"——毕竟 NTP 通过 chain rule 乘出来的就是 item 联合概率。但它不显然的地方在于 partition function 的等价:

  • NTP 每一步用的是 token-level Softmax 分母 $Z_m$(仅对当前 codebook 归一化);
  • FV-MLE 用的是 item-level Softmax 分母 $Z_{\text{full}}$(对全词表归一化);
  • 如果 token-item 映射不是 bijection(如 codebook 坍缩、碰撞),则 $\prod_m Z_m$ 会"多数出一些非法序列",从而严格大于 $Z_{\text{full}}$——此时 AR-NTP 就是 FV-MLE 的有偏逼近

计算复杂度优势

等价定理揭示了 AR-NTP 被工业界大规模采用的核心原因:在理论最优性(FV-MLE)下实现了计算可行性。

  • FV-MLE:$O(V)$ 全 Softmax,工业 $V \sim 10^6 \text{–} 10^9$ 不可行;
  • $k$-token NTP:$k$ 次 $O(V_m)$ token Softmax,$V_m$ 通常 $256 \text{–} 8192$;总复杂度 $O(k \cdot V_m) \ll O(V)$。

在 bijection 条件满足的前提下,AR-NTP 以极低计算成本达到了 FV-MLE 的最优性。

4. 推论:级联与并行分词的普适性

工业界的两种主流分词方式:

  • 级联分词 (Cascaded):RQ-VAE、RQ-KMeans,残差量化,第 $m$ 个 token 的 codebook $\mathcal{V}_m$ 依赖于前序所有 tokens $t_1, \dots, t_{m-1}$;
  • 并行分词 (Parallel):基于 OPQ 等 Product Quantization 的范式,第 $m$ 个 codebook 与其他 token 独立($t_m \perp t_j, \forall j \ne m$)。并行分词原生支持 Multi-Token Prediction (MTP) 快速解码,同时也兼容 AR 解码。

Corollary 1 (Applicability to Parallel & Cascaded Tokenization)

对以下两种分词:

  • Parallel:codebook $\mathcal{V}_m$ 独立于其他 token;
  • Cascaded:codebook $\mathcal{V}_m$ 依赖所有前序 token $t_1, \dots, t_{m-1}$;

$k$-token AR-NTP 与 FV-MLE 的数学等价性都成立——只要存在 bijection $\Phi: \mathcal{V} \to \mathcal{S}$,$\mathcal{S}$ 是对应分词方案生成的合法 $k$-token 序列空间。

两个充要条件

等价成立需要:

  1. Bijective Mapping Condition:$\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$;
  2. Probability Decomposition Condition:item-level 条件概率服从 Bayesian chain rule 展开。

Bijection 条件的满足依赖于分词质量:codebook collapse、高碰撞率的次优 GR 设计会破坏此条件。一些方法(如 RecGPT)采用 Finite Scalar Quantization (FSQ) 保证无碰撞的一一映射。下文证明中假设 bijection 始终成立。

级联分词的证明

级联分词天然满足 Condition (ii):$m$-th token 以所有前序 token 为条件,这正是自回归形式。item-level 联合概率的分解与主定理一致,所有推导原样成立,无需修改。

并行分词的证明

并行分词是自回归分解的特例——条件概率独立于前序 token:

$$ p(t_m^i \mid h, t_1^i, \dots, t_{m-1}^i) = p(t_m^i \mid h), \quad \forall m \in \{1, 2, \dots, k\} \tag{15} $$

这仍然符合 Bayesian chain rule(只是条件项省略)。推导:

(1) 代入条件独立形式:

$$ p(i \mid h) = \prod_{m=1}^{k} p(t_m^i \mid h) = \prod_{m=1}^{k} \frac{\exp(\ell(t_m^i \mid h))}{Z_m(h)} \tag{16} $$

其中 $Z_m(h) = \sum_{t_m \in \mathcal{V}_m} \exp(\ell(t_m \mid h))$。

(2) 合并分子为 item-level logit:

$$ \prod_{m=1}^{k} \exp(\ell(t_m^i \mid h)) = \exp\!\left(\sum_{m=1}^{k} \ell(t_m^i \mid h)\right) = \exp(\ell(h, i)) \tag{17} $$

(3) 展开 partition function 乘积:

$$ \prod_{m=1}^{k} Z_m(h) = \sum_{t_1 \in \mathcal{V}_1} \cdots \sum_{t_k \in \mathcal{V}_k} \exp\!\left(\sum_{m=1}^{k} \ell(t_m \mid h)\right) \tag{18} $$

(4) 由 bijection 条件,合法 $k$-token 序列与 item 一一对应:

$$ \prod_{m=1}^{k} Z_m(h) = \sum_{i \in \mathcal{V}} \exp(\ell(h, i)) = Z_{\text{full}}(h) \tag{19} $$

最终:

$$ p(i \mid h) = \frac{\exp(\ell(h, i))}{Z_{\text{full}}(h)} \tag{20} $$

与公式 (5) 的 FV-MLE 形式完全一致。证毕。$\square$

5. 讨论、核心洞察与局限性

核心洞察

等价定理揭示了 GR 泛化优势的本质:AR-NTP 范式在 bijective tokenization 下内在实现了对整个 item 分布的无偏拟合。 这和 ID-based 模型的对比学习/二元交叉熵损失有根本差异——后者只在负采样集合上拟合局部分布,而 AR-NTP 相当于对整个 item 词表做了 MLE。

这一结果回答了几个工业界长期困惑:

  1. "为什么 SID + NTP 比 item-ID + dot product 好?" —— 因为它在"用极小计算代价"下做 FV-MLE,而 ID-based 方法通常只做 BCE 或 sampled softmax 的有偏估计。
  2. "为什么 tokenization 质量对 GR 如此关键?" —— 因为 bijection 是等价性成立的必要条件,codebook collapse 会直接把 AR-NTP 从无偏估计器变成有偏估计器。
  3. "级联分词和并行分词谁更好?" —— 在满足 bijection 的前提下,两者在 loss 层面理论等价。选择应由 tokenization 质量、推理延迟、MTP 支持等工程因素决定。

工业部署启示

  • 优先保证 bijection 质量:FSQ 这类"天然无碰撞"的量化方案 > 启发式的 RQ 但带碰撞修复;
  • k 与 codebook 尺寸的 tradeoff:$k \cdot V_m$ 决定计算开销,$X^k \geq N$ 决定是否能覆盖全词表。两者共同影响 bijection 能否严格满足;
  • 并行 + MTP 的推理加速可以在不破坏理论等价性的前提下使用。

局限性与后续工作

  • Bijection 假设在真实系统中常常被破坏:RQ-VAE 的 codebook collapse、哈希碰撞、长尾 item 的稀疏码字分布都会让 $|\mathcal{S}| \gt |\mathcal{V}|$ 或多对一映射——此时 $\prod_m Z_m \gt Z_{\text{full}}$,AR-NTP 是 FV-MLE 的系统性有偏估计(下界)。论文明确把"量化这种偏差的性能边界"列为 future work。
  • 本文只证明 single-next-item 生成:list-wise 生成(如 OneRec 的 list-level reward、OneLive 的直播推荐多 item 联合建模)不在覆盖范围内。
  • 没有讨论 RL 阶段:工业 GR 通常有 pre-train (NTP) + RLHF/GRPO 两阶段,RL 阶段的理论刻画缺失。
  • 假设 $N = X^k$ 且共用 codebook:实际系统 codebook 大小、$k$ 的选择往往与 $N$ 不严格匹配,bijection 是否被严格满足常常是工程实现细节。

与已有工作的差异

  • 相对 Malach (2024) 的 NLP 通用性结果:本文是推荐领域首个把 AR-NTP 范式与 FV-MLE 做严格对应的工作;
  • 相对 Ding et al. (2026) / Zhao et al. (2026):那些工作侧重经验验证("SID 比 ID 好"、"scaling 比 ID 更陡"),本文补上了为什么 SID + NTP 是最优的分布拟合器这一缺失的理论骨架。

6. 对我们工作的启示

这篇短文对任何自研 GR 系统(OneRec、OneSug、OneMall 类)都有直接指导意义:

  1. 把"bijection 质量"作为 tokenization 模块的一级指标监控——collapse rate、collision rate 比 codebook utilization 更直接地指示理论最优性的损失;
  2. 评估 tokenization 设计的理论优劣应回到 bijection:RQ-VAE vs FSQ、k=3 vs k=4、codebook 共享 vs 独立——这些选择最终都可以通过"是否保持 $\Phi: \mathcal{V} \leftrightarrow \mathcal{S}$"来裁决;
  3. 并行分词 + MTP 在满足 bijection 下没有理论代价,只有工程收益,可以大胆采用;
  4. 未来扩展方向:量化 bijection 破坏下的偏差("codebook collapse 到什么程度会让 NLL 偏离 FV-MLE 到不可接受的程度?"),可以直接作为一个可落地的研究课题。

本文是一篇短而重要的理论 note——5 页的篇幅里把 GR 的核心理论根基钉死了,值得作为所有工业 GR 系统的基础参考文献。