← Back to list

Compute Optimal Tokenization

LLM Meta
Abstract 8 Reading 8 Rating —
2026-05-02
Tomasz Limisiewicz, Artidoro Pagnoni, Srini Iyer, Mike Lewis, Sachin Mehta, Alisa Liu, Margaret Li, Gargi Ghosh, Luke Zettlemoyer
FAIR at Meta, University of Washington
本文用 988 个 BLT + 320 个 subword 模型系统研究 tokenizer 压缩率对 scaling law 的影响,把 Chinchilla 的 '20 token/param' 推广为 '~60 byte/param 跨 tokenizer 不变',并发现最优压缩率随 compute budget 下降、随语言 parity 上升。
评分原因
摘要评分:训练近千个 BLT 模型系统研究 tokenizer 压缩率对 scaling law 的影响,指出参数应按字节而非 token 缩放,且最优压缩率随 compute 下降,对 LLM 设计有直接指导价值。
精读评分:训练 988+320 个模型系统扫描 (compute, compression rate, language) 三轴的 scaling law,结论清晰可行('60 byte/param 跨 tokenizer 不变'、'最优压缩率随 budget 下降'),实验严谨度极高;唯一的限制是只覆盖 plain text + dense Transformer。
parameter-scaling transformer academic

Compute Optimal Tokenization

研究动机与背景

Kaplan et al. (2020) 与 Hoffmann et al. (2022, "Chinchilla") 已经把 LM 训练的 compute-optimal 设计写成两条铁律:

  1. 给定 compute budget $C$,最优 model size $N^\star$ 和最优数据量 $D^\star$ 都是 $C$ 的幂律函数;
  2. Chinchilla 的"经验法则":每个参数大约配 20 个 token(即 $D/N \approx 20$)。

但这两条法则被一个被忽视的变量遮蔽:数据量到底用什么单位计量?Chinchilla 说"20 token / 参数"——这个 20 是相对 BPE tokenizer 测出来的,不同的 tokenizer 把同一段文本切成不同数量的 token。从信息论角度看,"信息量"的真正物理单位是 byte,而 token 只是 tokenizer 引入的人造单位。如果换一个压缩率不同的 tokenizer,"20 token / 参数"是会平移到"X byte / 参数",还是会维持"20 token / 参数"?这两种假设给出完全不同的工程指导。

Meta FAIR 的这篇工作把 tokenizer 的核心属性——压缩率 $T$(每个 token 平均代表的字节数)——显式纳入 scaling law。已有 BPE 的压缩率约为 $T \approx 4.57$;character-level tokenizer 的 $T \approx 1$;近期的 SuperBPE 把多个英文单词合并为一个 token,达到 $T \approx 6.16$。但 BPE 是一个"自由参数固定"的离散算法,无法平滑扫描压缩率;本文借助 Byte Latent Transformer (BLT, Pagnoni et al. 2025) 这个最近提出的潜在分块架构——它通过一个 entropy-based segmenter 把字节流切成 latent tokens,并允许通过 entropy 阈值精确地控制平均压缩率

作者在 BLT 上构建一个 5×10^18 至 2×10^21 FLOPs 跨度的实验网格(总计训练 988 个 latent tokenized 模型 + 320 个 subword tokenized 模型,参数从 50M 到 7B),系统回答四个研究问题:

  • R1:压缩率如何影响 compute-optimal 的 N/D 比例?应该用 token 还是 byte 作度量单位?
  • R2:是否存在最优压缩率?它如何随 compute 变化?
  • R3:上述结论对 latent 与 subword tokenizer 是否一致?
  • R4:最优压缩率是否取决于语言?

四条核心发现(Findings)将逐一对应回答这四个问题,整体结论是把 Chinchilla 的"20 token / param"推广为更稳健的"~60 byte / param",并揭示最优压缩率随训练 budget 缓慢下降——也就是说,更大的训练预算反而应当用 更细粒度 的 tokenizer。

Figure 1: 三大核心发现:(a) 最优 byte/parameter 比例近常数;(b) 每个 budget 都存在最优压缩率,且随 scale 下降;(c) 最优压缩率因语言而异,且与流行 BPE tokenizer 实测压缩率不同

实验方法

模型架构

所有模型都遵循 Llama 3 架构家族(Vaswani et al. 2017 的 Transformer)。两条架构线:

Latent Tokenized Models (BLT):分层架构,三个模块: 1. Encoder:把 byte-level 输入聚合成 latent tokens; 2. Global Module(latent module):在 latent token 上跑大 Transformer——这是论文里"主体参数"的归属; 3. Decoder:把 latent 表征映射回 byte-level 做 next-byte 预测。

BLT 通过 entropy spike 切割:训练一个独立的小 byte-level LM,当下一个 byte 的预测熵超过阈值就切一个新 latent token;调整阈值即可精确扫描 $T \in \{1, 2, 4, 6, 8, 12\}$。

作者对原始 BLT 做了两点改动:

  • 省略 hash n-gram embedding——n-gram 的跨度可能比 latent token 还宽,会干扰目标压缩率;
  • 修改 local module 的 scaling recipe——优先扩 width 而非 depth:local module 的 layer 数取 global layer 的 1/4(向上取整),head 数取 global head 的 1/4 + 8;hidden dim 是 head 数的 64 倍;feed-forward 用 4× upscaling。这套 recipe 让 local module 的 compute 开销与 isotropic 模型的 embedding 层相当。

Subword Tokenized Models(isotropic baseline):标准 Llama 3 架构,所有模块在同样粒度的 token 上工作。压缩率由 tokenizer 决定,不能直接控制:

  • Character-level:$T \approx 1.01$,$V = 148{,}000$;
  • BPE (Llama 3):$T \approx 4.57$,$V = 126{,}000$;
  • BPE 词表 mask 75%(但仍保留 $V = 126{,}000$ 用于 FLOP 计算):$T \approx 4.16$;
  • BPE 词表 mask 90%:$T \approx 3.71$;
  • SuperBPE (Liu et al. 2025):$T \approx 6.16$,$V = 200{,}000$。

为低压缩对应"character"基线(不是 byte),是为了让词表大小与 isotropic 家族其它配置同量级。

训练与评估

训练 budget $C \in [5\times 10^{18},\, 2\times 10^{21}]$ FLOPs,精确计算训练 FLOPs(不用 $6ND$ 近似)。988 个 BLT + 320 个 subword 模型;数据量 4B–1.1T bytes。每个 budget 在 (compression $T$, parameters $N$) 笛卡尔积上扫一组配置(Figure 2 展示 $C = 10^{20}$ 的扫格):

Figure 2: $C = 10^{20}$ 的实验网格——纵轴 model size $N$,横轴 compression rate $T$,颜色编码训练数据 bytes $B$,方块内数字是 byte/parameter 比例 $\rho = B/N$

固定 batch size = 2M bytes,learning rate $4 \times 10^{-4}$,AdamW + warmup-stable-decay schedule。训练默认在 DCLM 数据集(Li et al. 2024,纯英文经过过滤),评估在 C4 验证集 上。

评估指标:跨 tokenizer 公平比较的关键是放弃"token 损失"——用 bits-per-byte (BPB):把 cross-entropy loss 除以总 byte 数。每个评估样本固定 8192 byte(即 $T = 4$ 时是 2048 token,$T = 8$ 时是 1024 token)。

Power Law 拟合

Scaling law 拟合分两阶段,遵循 Li et al. (2025) 的 "two-stage fit" 经验:先估 optimal $(B^\star, N^\star)$,再估 optimal loss $L^\star$。核心拟合工具是 IsoFLOP 抛物线 / 抛物面——对每个 $(C, T)$ 网格,把 $\log(B)$ vs $L$ 做二次多项式拟合,最低点就是 $B^\star$;二维 IsoFLOP 把 $(C, T)$ 联合做曲面拟合。BFGS 优化,多 random seed 初始化,95% 置信区间用 Hessian 数值近似。

Scaling Law I:Optimal Data 与 Parameters

Law I 的形式

针对每个 $(C, T)$ 网格用 IsoFLOP 拟出 $B^\star(C, T)$,假设它是 $C$ 与 $T$ 的双幂律:

$$B^\star(C, T) \cong B_0 \cdot C^\alpha \cdot T^\beta \tag{1}$$

三个待拟合参数:$B_0$(基础常数),$\alpha$(compute scaling 指数),$\beta$(compression scaling 指数)。

为了让 fit 跨 tokenizer 一致,作者只把 latent module 的参数 $N$ 算进 fit(不包括 BLT 的 encoder/decoder,也不包括 subword 模型的 embedding)。在固定 scaling recipe 下,latent module 参数与总参数严格成比例。Latent module 的 compute 可近似为:

$$C \approx 6 \cdot N \cdot \frac{B}{T} \tag{2}$$

其中 $B/T$ 就是常规 scaling 文献中以 token 计的数据量 $D$。把 (1) 代入 (2) 解出 $N^\star$:

$$N^\star(C, T) \cong \frac{1}{6 B_0} \cdot C^{1-\alpha} \cdot T^{1-\beta} = N_0 \cdot C^{1-\alpha} \cdot T^{1-\beta} \tag{3}$$

进一步定义 byte-per-parameter 比 $\rho^\star \equiv B^\star / N^\star$:

$$\rho^\star(C, T) \cong \frac{B_0}{N_0} \cdot C^{2\alpha - 1} \cdot T^{2\beta - 1} \tag{4}$$

公式 (4) 把所有 hypothesis 都参数化进 $\alpha, \beta$ 的取值,给出几个 先验意义

  • $\alpha \approx 0.5$ → $\rho^\star$ 随 $C$ 不变(数据与参数 1:1 比例缩放,即 Hoffmann 等的 Chinchilla 等价物);
  • $\beta \approx 0.5$ → $\rho^\star$ 随 $T$ 不变(更高压缩省下来的 compute 应该平均分配给数据和参数);
  • $\beta \approx 1$ → 可以丢掉 compression 维度,直接用 $D = B/T$(token 量)做 scaling,这就是传统 scaling law 的隐含假设。

Law I 拟合结果

在 $C = 10^{20}$ 的 IsoFLOP 切片上(Figure 3),二维抛物线(每个 $T$ 一条曲线)和三维抛物面拟合都得到极小,最优 byte/parameter 比 $\rho^\star \approx 60$ 跨所有压缩率几乎不变

Figure 3: latent tokenized 模型在 $C=10^{20}$ 下的 IsoFLOP——左图为每个 $T$ 单独拟合的二维抛物线,右图为三维抛物面($\rho$ vs $T$)的等值线热图。所有最低点排成水平的红色虚线,即"$\rho^\star \approx 60$"

把 $B^\star, N^\star$ 跨所有 $(C, T)$ 画成 log-log 散点(Figure 4)后,能看到 (1)/(3) 形式确实贴合:

Figure 4: 跨 compute budget 与 compression rate 的 optimal $B^\star$(数据)与 $N^\star$(模型)配置

最终拟合参数:$B_0 = 17.5$,$N_0 = 9.5 \times 10^{-3}$,$\alpha = 0.465$,$\beta = 0.471$。关键观察:$\alpha, \beta$ 都非常接近 0.5,意味着 byte-per-parameter 比 $\rho^\star$ 在所有 $C$ 与 $T$ 下近似恒定(这就是 Finding 1)。

Finding 1:optimal byte-per-parameter 比 $\rho^\star$ 跨 compute budget 与 compression rate 都近似恒定。把 scaling recipe 推广到不同 tokenizer 时,应当匹配 byte/parameter 比,而不是 token/parameter 比

实际数值:$\rho^\star \approx 60$ bytes / parameter(英文 DCLM 数据上)。读者可对比一下:在 BPE($T \approx 4.57$)下这等价于约 $60 / 4.57 \approx 13$ tokens/parameter——略低于 Chinchilla 的 20,但同 order。Chinchilla 的 20 实质是"BPE 的副产品"。

Scaling Law II:Optimal Loss Dynamics

Law II 的形式

定义 $L^\star(C, T) \equiv L(B^\star(C, T), N^\star(C, T))$ 为给定 $(C, T)$ 下最优配置取得的 loss。作者假设:

$$L^\star(C, T) \cong L_0 \cdot C^\gamma + f(C, T) \tag{6}$$

主项 $L_0 \cdot C^\gamma$($\gamma \lt 0$)是 compute-only 的下降;剩余 $f(C, T)$ 包含 irreducible loss 与 compression-specific 残差。$f$ 不预设解析形式,先从经验拟合起。

Law II 拟合结果

把 latent BLT 的 $L^\star$ 画成 $C, T$ 的曲面(Figure 5):

Figure 5: latent tokenized 模型每个 $(C, T)$ 配置上取得的 optimal loss

画法 1:先固定 $C$ 看 $T$ → 得到一族 U 形曲线,最低点在 $T \approx 4$。$L^\star$ 是 $T$ 的非单调凸函数——压缩率太低或太高都不好。同时随 $C$ 增大,整条曲线下移,最低点往左滑(最优压缩率随 budget 下降)。

附录 B.3 比较了三种 $f$ 形式(mean residual、constant $T^\star$、compute-dependent $T^\star$),后者用 log-quadratic 形式取得 $R^2 = 0.997$、外推 RMSE = 0.0086(最优):

$$f(C, T) = F \cdot \log^2\!\left(\frac{C^\delta T}{T_0}\right) + E \tag{7}$$

可以看出最优压缩率 $T^\star = T_0 / C^\delta$ 随 $C$ 缓慢下降。Latent 拟合参数:$L_0 = 3342$,$\gamma = -0.206$,$F = 0.032$,$\delta = 0.035$,$T_0 = 18.2$,$E = 0.70$。

实际数值:$T^\star = 3.69$ for $C = 10^{20}$,$T^\star = 3.33$ for $C = 2 \times 10^{21}$——20 倍 compute 让最优压缩率下降约 10%。

Parameter Latent Subword 95% CI (Subword)
$\alpha$ 0.465 0.501 [0.471, 0.532]
$\beta$ 0.471 0.446 [0.387, 0.506]
$B_0$ 17.5 2.8 [0.7, 11.0]
$N_0$ 0.0095 0.059 [0.015, 0.229]
$\gamma$ -0.206 -0.181 [-0.226, -0.1352]
$L_0$ 3342 1087 [171, 6896]

Table 1:latent 与 subword tokenized 家族的拟合参数对比。

Finding 2:每个训练 budget 都有一个最优压缩率 $T^\star$;偏离它(无论更高还是更低)都增加 loss。$T^\star$ 随训练 budget 单调下降(更大的训练预算应该用更细粒度的 tokenizer)。

附录 B.4 给出 loss 对 $T$ 的 边际敏感度(Figure 16):偏离最优时,subword 模型最多可恶化 0.2 BPB,latent 模型最多 0.1 BPB——subword 对压缩率的选择比 latent 敏感得多,因为 subword 没法"用完整 byte stream"补偿粒度损失。

Optimal Tokenization at Inference

Section 3.5 把视角切到推理阶段。在 $C = 2 \times 10^{21}$ FLOPs 下,作者训练了不同 model size × 不同压缩率的 BLT 模型,用 FLOPs/byte 衡量推理代价:

Figure 7: $C = 2 \times 10^{21}$ FLOPs BLT 模型的推理评估。横轴是 inference cost / byte,纵轴是 BPB(左)与 HellaSwag 0-shot accuracy(右);点的大小代表 model size

两条规律: 1. 同 model size 下,更高压缩率降低单 byte 推理 cost(每 byte 走的 token 少); 2. 在等推理-cost 切片上看,压缩率接近最优 $T^\star$ 的模型 endtask 表现更好——例如 $T = 4$ 的 3.3B 模型在 $2.1 \times 10^9$ FLOPs/byte 时 HellaSwag 达 74.1%,而 $T = 8$ 的 6.7B 模型同 cost 只到 68.2%。

这给出一个重要的 deployment 直觉:当 inference 成本是关键约束时,应当选择压缩率高于训练-时-最优的 tokenizer 对应的 (smaller, higher-compression) 模型——这是 LM 设计中"为推理 over-train 较小模型"做法在 tokenizer 维度上的对应物。

Compute Optimal Subword Tokenization

Section 4 把分析迁移到 isotropic subword 模型(Llama 3 风格),用三种 tokenizer × 两种 vocab masking 扫压缩率:character ($T = 1.01$)、BPE 90% mask ($T = 3.71$)、BPE 75% mask ($T = 4.16$)、原始 BPE ($T = 4.57$)、SuperBPE ($T = 6.16$)。

Figure 8: 不同 subword tokenizer 在 $C = 10^{20}$ 下的 IsoFLOP

Figure 9: subword tokenizer 跨 $(C, T)$ 的 optimal loss

Subword 的拟合给出 $\alpha = 0.501$、$\beta = 0.446$,与 latent 的 $\alpha = 0.465$、$\beta = 0.471$ 在 95% CI 内重合。Scaling Law I 在 latent 与 subword 上几乎一致。Loss dynamics 也类似——存在最优压缩率,且随 budget 下降。

Compute (FLOPs) Character BPE V.mask=90% BPE V.mask=75% BPE Original SuperBPE
$1 \times 10^{19}$ 1.2678 1.0819 1.0709 1.0635 1.0682
$2 \times 10^{19}$ 1.1812 1.0381 1.0281 1.0214 1.0273
$5 \times 10^{19}$ 1.0989 0.9887 0.9819 0.9769 0.9840
$1 \times 10^{20}$ 1.0519 0.9554 0.9502 0.9461 0.9532
$2 \times 10^{20}$ 1.0126 0.9254 0.9220 0.9186 0.9272
$5 \times 10^{20}$ 0.9556 0.8942 0.8916 0.8891 0.8976
$1 \times 10^{21}$ 0.9253 0.8665 0.8658 0.8659 0.8763
$2 \times 10^{21}$ 0.9027 0.8466 0.8469 0.8479 0.8582

Table 2:固定 compute budget 下 subword 模型的最低 BPB。每个 budget 用粗体标的最佳 tokenizer 在 compute 较小时是 Original BPE ($T = 4.57$),但 budget 增大后 逐步切换到 BPE V.mask=75% ($T = 4.16$) 与 V.mask=90% ($T = 3.71$)——也就是更细粒度的 tokenizer。这与 latent 实验的结论吻合。

一个反直觉发现:把 BPE 词表 mask 90%(同一个 tokenizer,但 90% 词条无法被组合),其 FLOP 还按 $V = 126{,}000$ 算,性能依然好过 original BPE。作者推测这给出一个 "BPE-dropout 类似机制" 的暗示,即较低压缩允许模型在推理时对每个样本投入更多 compute,可能被 future work 利用。

Finding 3:在 latent (BLT) 上观察到的 scaling 规律对 subword 家族 (BPE / SuperBPE) 同样成立。

Compute Optimal Tokenization Beyond English

Section 5 把实验推广到 6 种语言。每种语言独立训练一组 BLT 模型于 FineWeb-2 单语数据集:French (Latin)、Vietnamese (Latin)、Russian (Cyrillic)、Arabic (Arabic)、Hindi (Devanagari)。此外,作者用 "在每对 UTF-8 byte 间插一个 dummy byte" 的方式人工构造一个 English ×2(信息密度减半)作 sanity check。

Figure 11: 跨 6 种语言的 3D IsoFLOP($C = 10^{20}$)——latent tokenizer 控制压缩率以做 fair grid,每个语言一个曲面。最低点(红三角)的位置表征该语言的 ($\rho^\star_l, T^\star_l$)

跨语言度量:作者用 parity 量化"语言信息密度"——FLORES-200 平行句子在 该语言英文 中的 byte 长度比。Hindi 的 parity = 2.6 表示同一句话用 Hindi 的 UTF-8 字节是英文的 2.6 倍。

Figure 12: 各语言最低 BPB 与 parity 的关系——BPB 与 parity 成反比

Language Parity $\rho^\star_l$ $T^\star_l$ BPB
English 1.0 62.1 3.71 0.960
French 1.2 57.8 4.16 0.795
Vietnamese 1.4 61.2 5.11 0.602
Arabic 1.6 75.8 4.58 0.564
Russian 2.0 96.3 5.67 0.461
English (×2) 2.0 91.1 6.97 0.492
Hindi 2.6 95.5 8.09 0.337

Table 3:单语模型在 $C = 10^{20}$ 下的 compute-optimal byte/parameter 比与压缩率。

观察:

  • BPB 与 parity 反比——信息密度低(高 parity)的语言 byte-level loss 更低,因为每个 byte 携带的信息少;
  • $T^\star_l$ 与 parity 几乎成 1:1 正比关系(Figure 14)——更稀疏编码的语言需要更高压缩率;
  • $\rho^\star_l$ 也随 parity 升高(Russian 96.3 vs English 62.1)——粗粒度编码语言更受益于扩数据而非扩参数;
  • 流行的多语 BPE tokenizer(Llama 3、Qwen 3、EuroLLM)实测压缩率与 $T^\star_l$ 偏离很大——对 high-resource 语言(英语、阿拉伯语)过度压缩,对 low-resource 语言(越南语、Hindi)压缩不足(Figure 15)。

Figure 14: 各语言最优压缩率 $T^\star_l$ 与 parity 接近 1:1 关系

Finding 4:optimal byte/parameter 比 $\rho^\star$ 与最优压缩率 $T^\star$ 都因语言而异,且都与该语言的 parity 正相关(即与该语言 byte 的平均信息密度负相关)。

附录 D 还做了 联合多语训练:6 种语言按 parity 加权混合,所有语言共训一个 BLT。多语联合训练下 $\rho^\star$ 收敛到所有语言的 中位数 附近(约 70),最优压缩率仍随 parity 变化但整体下移。这给 latent tokenizer "为每种语言定制压缩率" 提供了更强的论据——subword tokenizer 因为词表/算法绑定无法做到。

影响与讨论

对 LLM 设计的指导

  1. 替换 Chinchilla 法则:跨 tokenizer 设计 LLM 时,把 "20 token / param" 替换为 "≈60 byte / param"(英文);其他语言按 parity 调整。这条法则对从 byte-level 到 superword-level 的全谱 tokenizer 都成立。
  2. 训练-时-最优压缩率不是一个常数——较小的训练 budget 偏好高压缩,较大的训练 budget 偏好低压缩。原因:低压缩允许模型在每个样本上花更多 compute 处理。
  3. 推理-时-最优压缩率高于训练-时-最优——为了节省推理 cost,可以选 (smaller, higher-compression) 模型。这与 LM 社区"为推理 over-train"的工程惯例方向一致。
  4. 多语 tokenizer 应针对 low-resource 语言增加压缩率——已有 Llama 3 / Qwen 3 / EuroLLM 都对低资源语言压缩不足,而 latent tokenizer (BLT) 的"按语言调压缩"能力是理论与工程上对 subword 多语 tokenizer 的明显改进。

局限性

  • 超参未单独 tune:lr、batch size 等跨 budget 固定,可能造成系统偏差;
  • 未覆盖所有 tokenizer 算法:未实验 Unigram、其他 latent 切割策略(hash n-gram、token boundary predictor);这些差异预计影响有限;
  • 数据域限于 plain text:未覆盖 code、math、speech;
  • 架构限于 dense Transformer:MoE 架构下 compression 与 sparsity 的交互未知。

未来工作

  • 把 compression 维度推广到其他模态(vision、speech、code),各模态都有自己的 "tokenization"(VQ-VAE、ViT patch 等);
  • 把 compression 引入 MoE scaling law(与 Ludziejewski et al. 2024 的 MoE 扩参规律结合);
  • 探索 BPE-dropout 等"压缩 + 正则化"的混合方法。

与已归档相关工作的对比

Prescriptive Scaling Laws for Data Constrained Training Prescriptive Scaling Laws for Data Constrained Training (Cornell, 2026-05-02)

关系:独立并发(同一天 arXiv 投稿,本文未引用对方)· 已加载对方精读

  • 共同关注的问题:Chinchilla 形式 $L = E + A/N^\alpha + B/D^\beta$ 遗漏了一个关键变量,导致它在某个真实场景下给出错误的 compute-optimal 建议。本文揭示的"漏维"是 tokenization 压缩率 $T$;Cornell 揭示的"漏维"是 unique data 上限 $U_D$ 与重复轮数 $R_D$(即多 epoch 过拟合)。两条工作都在论证:Chinchilla 的"数据 + 参数双幂律"形式不充分,应当扩展。

  • 相近的技术骨架

  • 都用 IsoFLOP 网格 + 多种子 BFGS 拟合 + 95% CI Hessian 的标准 scaling law fitting recipe;
  • 都做"先拟合 baseline scaling,再分析残差,再加修正项"的两阶段策略——本文的 $f(C,T)$ 残差以 log-quadratic 形式拟合(公式 7);Cornell 的 overfitting penalty 残差以 power-law 形式拟合(其 1p/2p/4p 阶梯);
  • 都对原始 Chinchilla 的"约 20 token/param"建议进行 修正方向相反但精神一致 的覆盖:本文把它推广为"60 byte/param 跨 tokenizer 不变"(横向扩展);Cornell 给出"超过某 compute 阈值后应当扩 model 而非重复数据"(垂直深化)。

  • 本文的差异与推进

  • 正交的修正维度:本文加 $T$ 维(tokenizer 粒度),Cornell 加 $R_D$ 维(数据重复轮数);两条 law 在概念上完全 orthogonal,可以叠加使用——一个未来方向是建立"在 tokenizer 压缩 × 多 epoch"双约束下的统一 scaling law;
  • 样本量:本文 ~1300 个模型(latent + subword),Cornell ~300 个模型;
  • 跨语言:本文做了 6 语言扫描,Cornell 仅英文;
  • 深度的不同:Cornell 把 overfitting cost 单独凝聚到一个系数 $P$,使得不同正则化设置(如 $\lambda = 1.0$ vs $\lambda = 0.1$)能直接量化对比;本文把 $T^\star$ 表达为 $T_0 / C^\delta$ 形式,但没有把它绑到具体可调的训练超参(如 entropy 阈值的硬度)。

  • 可比的方法 / 实验差异

  • 数据:本文用 DCLM(plain English),Cornell 用 FineWeb(plain English),两者 corpus 接近;
  • 架构:本文用 BLT(latent)+ Llama 3 isotropic(subword),Cornell 用 Llama 2 dense;
  • Compute scope:本文 $5 \times 10^{18}$–$2 \times 10^{21}$ FLOPs(参数 50M–7B),Cornell 跨 15M–1B 参数 + 50M–6B unique tokens;
  • Loss form:本文模型 BPB(per-byte),Cornell 模型 cross-entropy per-token——这本身体现了两条工作的关注点差异。

读者价值:两篇都在 Chinchilla 之上加新维度,对设计 LLM 训练 recipe 都是必读组合。如果你只关心 plain English、单 epoch 训练,本文的 60 byte/param 法则与 $T^\star \approx T_0/C^\delta$ 修正完全够用;如果你要训练数据稀缺的专域(code、math、低资源语言)或必须重复数据,那么 Cornell 的 $P \cdot R_D^\delta \cdot (N/U_D)^\kappa$ penalty 是必要补丁。