← Back to list

InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition

LLM ByteDance
Abstract 8 Reading 9 Rating —
2026-05-04
Fengze Liu, Weidong Zhou, Binbin Liu, Ping Guo, Zijun Wang, Bingni Zhang, Yifan Zhang, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang
ByteDance, UC Santa Cruz
InfoLaw 把 LLM 训练重新刻画为信息累积过程,引入 quality density f_d=e^{-θd} 与 log(K) 归一化的指数衰减 1-e^{-λ(N)R/log(K)},把不同 mixture × scale × repetition 的 loss 坍缩到一条 L=α·info^{-β} 的统一幂律;从 252M-1.2B + 3 mixture 拟合,外推到 7B + 425B token mean error 0.15%/max 0.96%,并能在 100k 候选中选出 prescriptive 最优 recipe(小模型偏 quality、大模型偏 diversity)。
评分原因
摘要评分:提出 InfoLaw 信息 scaling 框架,统一建模数据规模、模型大小、混合权重和重复次数对 loss 的影响,在 7B/425B 上预测误差 mean 0.15%/max 0.96%,对数据配比与重复策略有强指导价值。
精读评分:把训练重新刻画为 information accumulation 是哲学层面的坐标变换创新而非对 Chinchilla 的小修补;27 次拟合实验外推到 7B + 425B token + 25× over-training 仅 0.15% mean error,外推稳健性远超 Cornell 同期工作;提供了 100k LayerMix 配置 → 最优 recipe 表的 prescriptive 工具,工业落地价值清晰;下游 5 任务 Spearman -0.996 验证了 loss 优化 = 下游优化。扣 1 分原因:log(K) 归一化的物理机制未给出理论解释、不能预测 Cornell 已观察到的 over-fit 区 loss 上升、quality classifier 仅在 web text 上验证。
transformer parameter-scaling industrial

InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition

研究动机与背景

LLM 预训练已经进入两个互相纠缠的现实:

  1. 高质量数据稀缺——在 state-of-the-art pipeline 中,激进的质量过滤(FineWeb, Penedo 2024;DCLM, Li 2025)已经把 Common Crawl 这样的"原始海量"语料压成有限的高质量子集,且这一比例还在被各种 mid-training/specialty corpus 抢占(Villalobos 2024 估计高质量人类文本将在 2026-2030 年区间被耗尽);
  2. 过训练(over-training)已成常态——为了部署侧的推理成本(Sardana 2024、Gadre 2024),实际训练 token 数已经远超 Chinchilla 最优点 $(D \approx 20 N)$,工业模型动辄 $D/N$ 在 100–500(如 Llama 3 的 15T tokens / 8B–70B 参数)。

把这两条放一起看,数据稀缺会被"过训练"放大:训练 token 不够时,被迫对高质量数据多次重复(high-quality upsampling),重复带来的边际增益却随 $D/N$ 增大而急剧衰减,并最终走向饱和甚至下降(Muennighoff 2023, Hernandez 2022)。

但既有 scaling law 对此力不从心

  • Chinchilla(Hoffmann 2022)假设每个 token 唯一,给不出"重复 epoch 数"和"质量分布"如何影响 loss;
  • Muennighoff 的 effective-data 形式虽然能描述 repetition 的递减回报,但 (a) 不显式包含数据质量分布,(b) 不能预测在不同 mixture recipe 间的相对差异(你必须为每个 recipe 重新跑 grid search 拟合);
  • 工业实践中常见的"对高质量子集 upsampling"无法事先评估增益,只能靠昂贵的网格搜索(Liu 2024 Regmix 用代理小模型,Kang 2025 Autoscale 用扰动法,Ye 2025 用 mixing-law 回归),这些方法都假设"recipe 之间 loss 差异是 model-scale-invariant",但 Liu 2024 自己指出该假设并不成立。

InfoLaw 的核心命题是:把训练过程重新刻画为一个信息累积过程——loss 是模型从语料中实际"提取"到的总信息量的幂律函数;这个"信息量"由两个组件决定:

  • 质量密度函数 $f_d$:每个 quality bucket 的"信息密度"是其 quality 等级的递减函数;
  • 指数衰减因子 $1 - e^{-\lambda(N) R_d / \log(K)}$:捕捉同一 token 重复学习的边际衰减,并显式让衰减速率随模型容量 $N$ 与训练 budget $K$ 变化。

最终把上述结构折叠到一个统一的 information–loss 幂律曲线上: $$L = \alpha \cdot \mathrm{info}^{-\beta}$$ 拟合参数仅来自 252M–1.2B 模型 + 3 种 LayerMix recipe(HQ/MQ/LQ)共 27 次训练,外推到 7B 和 425B token 的运行:mean abs error 0.15%,max 0.96%。在 25× 过训练度下也保持。InfoLaw 由此变成一个先验可计算的 data-recipe 选择器——给定 $(N, K, S)$ 直接预测最优 mixture 权重 $w^\star$,不需要再做 grid search。

作者:Fengze Liu, Weidong Zhou, Binbin Liu, Ping Guo, Zijun Wang 等(ByteDance;UC Santa Cruz)。Preprint, May 5, 2026 (arXiv 2605.02364)。

1. 问题刻画与传统 scaling law 的失效

1.1 LayerMix 采样函数

为了系统地扫描 quality × repetition 两个维度,作者构造了一个名为 LayerMix 的采样函数 $H(w, K, S, B)$:

  • 源语料:3.7T tokens 的 Common Crawl 英文部分(覆盖 CC-MAIN-2013-20 至 2024-18 共 96 个 snapshot),全局 fuzzy dedup(Bi et al. 2024 流程);
  • 质量打分:对每条文档用两个 quality classifier(Penedo 2024 FineWebEdu + Li 2025 DCLM)打分并取归一化平均;按百分位划分为 6 个 quality bucket:0–5%、5–20%、20–40%、40–60%、60–80%、80–100%(注意"低 d 表示更高质量",与日常直觉相反);
  • 源分布:$B = [0.05, 0.15, 0.20, 0.20, 0.20, 0.20]$,反映 quality classifier 的天然分布;
  • 目标 mixture:$w = [w_0, \dots, w_5]$,$\sum w_d = 1$,强制 $w_d \ge w_{d+1}$(高质量桶占比不低于低质量桶);
  • 预设 mixture:HQ / MHQ / MQ / MLQ / LQ 五档(Table 1),其中均设 $w_5 = 0$(最低质量桶完全丢弃):
Name $w_0$ $w_1$ $w_2$ $w_3$ $w_4$ $w_5$
HQ (High Quality) 0.80 0.10 0.03 0.03 0.02 0.0
MHQ 0.66 0.22 0.05 0.03 0.02 0.0
MQ 0.48 0.23 0.13 0.07 0.07 0.0
MLQ 0.38 0.21 0.20 0.11 0.08 0.0
LQ 0.24 0.20 0.19 0.18 0.17 0.0
Optimal Recipe (2.5B, m=3.6) 0.50 0.49 0.01 0.0 0.0 0.0

最后一行是 InfoLaw 优化求出的 2.5B 模型在 $m=3.6$ 过训练下的最优 recipe——明显比预设的 HQ 更激进地集中在前两档,几乎不用 $d \ge 2$ 的桶。

采样过程(Algorithm 1):对每个桶 $d$,源端有 $S_d = B_d S$ 个 token,目标端需 $K_d = w_d K$ 个 token;采样比 $\text{Ratio}_d = K_d / S_d$;先按 $\lfloor \text{Ratio}_d \rfloor$ 整数倍确定性复制每条文档,再按余数 $\text{Ratio}_d - \lfloor \text{Ratio}_d \rfloor$ 概率性补足。这给出实际 unique token 数 $M_d = \min(K_d, S_d)$ 与平均重复次数 $R_d = K_d / M_d$,当 $K_d \le S_d$ 时 $R_d = 1$(不重复),否则 $R_d \gt 1$。

关键工程细节:先把源语料按目标 scale 下采样使 unique token 数稳定,再做单 epoch 打包训练(避免 epoch-level 隐式重复)。除非另注,设 $K = S$(极限"刚好用完源语料",使 $w$ 与 $R_d$ 直接挂钩)。

1.2 传统 scaling law 失效

作者按 Gadre 2024 的"compute-optimal + overtraining factor $m$"约定,定义:

$$K_m = \sqrt{m} \cdot K_{\rm opt}, \quad N_m = \frac{1}{\sqrt{m}} \cdot N_{\rm opt}, \quad C_m = K_m \cdot N_m, \quad m=3.6$$

这把训练曲线压到一条等过训练度的轨迹上。然后在 252M–1.2B 模型上扫 LayerMix 的 HQ 和 MLQ 两种 recipe,画 $L$–$C_m$(Figure 1):

Figure 1: Validation loss 在 LayerMix 数据 + repetition 下的 L-C_m 视图。传统 scaling law 在外推时严重低估高 compute 下的 loss;InfoLaw 同时在 HQ 和 MLQ 上保持精度。

观察:

  • 传统幂律 $L = E + A \cdot C^{-\alpha}$ 用 252M–1.2B 拟合后外推到大模型时系统性地低估 loss(绿色虚线偏低于实测点);这一 bias 在两种 recipe 上同时出现,说明问题不是"recipe 选错了"而是"compute 单变量根本不足以刻画 quality-mixed + repeated 数据下的 scaling 行为"
  • 同样的 compute $C_m$ 下,HQ 与 MLQ 的 loss 差异显著,说明 mixture 的影响没有被吸收到 traditional law 的拟合常数里。

这一节的结论:需要一个明确包含质量分布与重复度的修正型 scaling law

2. Information Scaling Laws:核心方法

2.1 Information measurement

作者把训练视为模型从数据中累积信息的过程。直觉锚点:在 850M 参数的两次对比中,HQ recipe 把 top-5% 的 quality bucket 重复约 $16\times$;MQ 重复约 $10\times$。两次实验初期 loss 接近,但重复次数更高的 HQ 在后期改进更慢、最终 loss 更差——直接观察到了"重复带来的边际衰减"。

基于此,对单文档的"第 $t$ 次重复学习"建模为指数衰减:

$$I_{i,\text{part}}(t, \lambda(N)) = I_i \cdot \lambda(N) \cdot e^{-\lambda(N) \cdot t} \tag{1}$$

其中 $I_i$ 是文档 $i$ 的总信息量,$\lambda(N) \gt 0$ 是与模型非嵌入 FLOPs/token $N$ 相关的衰减率。积分得到学习 $T$ 次后获得的总信息:

$$I_{i,\text{total}}(T, \lambda(N)) = \int_0^T I_{i,\text{part}}(t, \lambda(N))\,dt = I_i \cdot \left(1 - e^{-\lambda(N) \cdot T}\right) \tag{2}$$

公式 (2) 的含义十分清晰:每多一次重复都按指数饱和,最终趋向 $I_i$(即文档全信息)。

但 (2) 还差一步:不同 $K$(总训练 token 数)下,empirically 边际衰减不仅与重复次数 $T$ 有关,还与总训练预算有关——所以引入 $\log(K)$ 作为归一化项:

$$I_{i,\text{part}}(t, \lambda(N), K) = I_i \cdot \lambda(N) \cdot e^{-\lambda(N) \cdot t / \log(K)} \tag{3}$$

$$I_{i,\text{total}}(t, \lambda(N), K) = I_i \cdot \log(K) \cdot \left(1 - e^{-\lambda(N) \cdot T / \log(K)}\right) \tag{4}$$

为什么要 $\log(K)$ 归一化? Appendix B 比较了三种归一化(常数、power-law、logarithmic),结论是只有 log 形式能让所有 $(w, K, S)$ 配置坍缩到一条统一曲线(见 Section 2.3):

  • 常数归一化:在大 budget 下系统性高估 information,导致过乐观的 loss 预测;
  • power-law $K^a$ 归一化:完全无法形成 power-law 的 info–loss 关系,data points 散乱;
  • log 归一化:唯一能把 information 与 loss 拟合成一条幂律的形式,且外推误差在 252M–7B 范围内最小。

把所有 quality bucket 累加,得到全语料的总信息量:

$$\mathrm{info}(w, K, S, f, \lambda(N)) = \sum_d I_d \cdot \log(K) \cdot \left(1 - e^{-\lambda(N) R_d / \log(K)}\right) = \sum_d f_d M_d \log(K) \cdot \left(1 - e^{-\lambda(N) R_d / \log(K)}\right) \tag{5}$$

其中:

  • $d \in \{0, \dots, 5\}$ 是 quality bucket 索引;
  • $I_d = f_d M_d \log(K)$ 是第 $d$ 桶的"原料信息量",$f_d$ 是质量密度函数(待拟合的标量序列),$M_d$ 是该桶 unique token 数;
  • $R_d = w_d K / M_d$ 是该桶的平均重复次数;
  • 第二项 $1 - e^{-\lambda(N) R_d / \log(K)}$ 表征模型在该重复次数下的"信息提取效率"。

公式 (5) 可拆为两部分:

  • 数据原料项 $I_d = f_d M_d \log(K)$:完全由数据 + budget 决定,不依赖训练;
  • 模型学习项 $1 - e^{-\lambda(N) R_d / \log(K)}$:单调递增于 $R_d$(学多次能提取更多)但有上界,递增速率由模型容量 $\lambda(N)$ 控制。

Figure 2: (a) 拟合得到的 quality density f_d 是 bucket index 的单调递减函数(高质量桶密度更高);(b) 衰减率 λ 与 N 的关系——当 N 增大时 λ 单调上升、并随之趋于对数曲线。

2.2 Information–Loss power law

代入 Figure 1 的同一组实验,把横轴从"compute $C_m$"换成"information",所有不同 recipe 的 data points 现在坍缩到一条单一的幂律曲线上:

$$L = \alpha \cdot \mathrm{info}^{-\beta} \tag{6}$$

实验拟合得 $\alpha = 3.7373$, $\beta = 0.0441$。在 log–log 图上是一条斜率 $-\beta$ 的直线(截距 $\log \alpha$)。

这就是 InfoLaw 的核心断言:一旦把 compute 换成"信息",loss 跨 mixture × scale × repetition 的关系是单一幂律

2.3 拟合 $f_d$ 与 $\lambda(N)$(Section 5.2)

参数空间是 $(\theta, \{\lambda_N\}_N)$,其中:

质量密度 $f_d$ 用单参数指数族保证单调递减:

$$f_d(\theta) = e^{-\theta \cdot d}, \quad \theta \gt 0 \tag{8}$$

随 bucket 编号增大(质量下降),$f_d$ 指数衰减;这与"高质量数据的 marginal information 更高"直觉一致。

衰减率 $\lambda(N)$ 用对数函数(Appendix G 中比较了 exp/power 等替代形式):

$$\lambda(N)(a, b) = a \cdot \ln(N) + b \tag{9}$$

优化目标:选 $(f, \lambda)$ 使 Spearman 相关 $\rho_s\bigl(L_N, \mathrm{info}(w, K_N, S_N, f, \lambda(N))\bigr)$ 在所有训练运行 $(N, w)$ 上最小。Spearman 而非 Pearson 是为了消除"info 与 L 之间可能的 scale shift"。

具体流程: 1. 在参数空间随机采样 100,000 组 $(\theta, \{\lambda_N\})$; 2. 选 Spearman 最小化的 $\theta^\star$ 和 per-N $\lambda_N^\star$(拟合得 $\theta^\star = 0.922$); 3. 用现有 $\lambda_N^\star$ 拟合 $\lambda(N) = a \ln(N) + b$,得 $a^\star = 0.140$, $b^\star = 0.018$; 4. 验证:在固定 $\theta^\star$ 下、用更大 $N$ 计算的 $\lambda_N^\star$ 是否落在 (9) 的预测线上——结果强吻合(Figure 2b 的红实线是 in-domain,红虚线是 extrapolation,散点是观测); 5. 完成后,对任意 $(w, K, S, N)$ 都能直接计算 $\mathrm{info}$ 并预测 $L = \alpha \cdot \mathrm{info}^{-\beta}$。

Appendix G 显示对数形式比指数形式 $\lambda(x; a, b, c) = a(1 - e^{-bx + c})$ 与幂律形式 $\lambda(x; a, b) = a \cdot x^b$ 都拟合更好(Figure 7),因此被选为最终参数化。

3. 实验验证

3.1 训练设置

  • 架构:Transformer(Vaswani et al. 2017)+ SwiGLU(Shazeer 2020)+ RoPE(Su et al. 2024);250k tokenizer;
  • 模型规格 (Appendix D Table 3):14 个 size 从 252M 到 7.7B,覆盖 hidden dim 1024–4096、layer 数 20–32、head 数 16–40;
  • 训练:max sequence length 2048,cosine decay LR schedule,初始 $\mathrm{lr} = \mathrm{round}(0.3118 \cdot C^{-0.1250}, 8)$,warmup 0.5%,AdamW $\beta_1=0.9, \beta_2=0.95$, weight decay 0.1;
  • 过训练度:$m = 3.6$ 为主,所有 9 个拟合模型(252M–1.2B)按此训练 27 次(3 recipe × 9 size);
  • 评测:5 个下游任务的 average perplexity——HellaSwag (Zellers 2019)、ARC-E/ARC-C (Clark 2018)、MMLU (Hendrycks 2021)、TriviaQA (Joshi 2017);按 Schaeffer 2023 的方法把 accuracy 转成 loss-like 的连续指标。

3.2 三大验证

Figure 3: (a-e) Information scaling law 跨 5 种 mixture(LQ/MQ/MHQ/MLQ/HQ)独立拟合都呈幂律;(f) 把所有 mixture 的点画到 info–loss 平面上,坍缩成一条统一曲线,验证 universality;(g) 在 1.2B 模型上预测 25 个未见 mixture 的 loss——预测值与实测值强相关;(h) 在 2.5B 上比较 InfoLaw 优化得到的 "Searched Optimal" recipe vs. 三个固定 baseline(HQ/MQ/LQ),最优 recipe 取得最低 loss。

Verification (a–e):每个 mixture 独立拟合 $L = \alpha \cdot \mathrm{info}^{-\beta}$ 都对,证明信息 scaling 在每种 quality 分布下都成立。

Unification (f):所有 mixture 的点(LQ/MQ/MHQ/MLQ/HQ × 252M–1.2B 共数十次实验)放到同一坐标系下完全坍缩到一条幂律曲线——这是 InfoLaw 的关键断言:信息量是预测 loss 的"通用坐标轴"。

Application (g, h)

  • (g) 用 252M–1.2B 拟合参数预测 1.2B 上 25 个随机采样 LayerMix 配置的 validation loss:interpolation 预测与实测的 Pearson 相关 0.76;extrapolation 部分(unseen mixture)也对齐良好;
  • (h) 用 InfoLaw 在 100k random LayerMix 候选中选最优 recipe,部署到 2.5B 模型上训练;得到的 "Searched Optimal" 取得最低 validation loss,明显优于 HQ/MQ/LQ 的固定 baseline——证明 InfoLaw 不仅能预测,还能指导设计

3.3 三轴外推(Section 6)

轴 1:未见 LayerMix 权重——在 1.2B 上随机 25 个 unseen $w$,预测点几乎完美贴在拟合曲线上(Figure 3)。

轴 2:更大模型——用 252M–1.2B + (MQ, LQ) 训练数据拟合,外推到 1.5B / 2.5B 上 (HQ, MQ, LQ),包括 2.5B + HQ 这种 mixture × scale 双外推条件,所有点都落在曲线上(Figure 3a-e 中空心点是 extrapolation)。

轴 3:组合外推(mixture × scale)——MHQ + MLQ × 1.5B–7B 共 25 组随机配置 + 7B 大模型,全部 overlay 到曲线(Figure 3f):

  • mean abs error 0.15%,max abs error 0.96%——这是论文最强的外推证据。

轴 4:更高过训练度——主实验 $m = 3.6$;额外用 1.2B 模型在 640B tokens($m' = 25$,~$7\times$ 主实验)上跑实验。把 $C_m$ 替换为 $C_{m'}$ 后,新数据点继续落在原 $C_m$ 拟合的曲线上(Figure 4):

Figure 4: 跨 overtrain 度的 scaling law 验证。蓝线(C_{m'}=25)是用 C_m=3.6 数据拟合参数生成的纯预测曲线;新点(C_{m'})落在曲线上,证明 InfoLaw 能跨过训练度外推。

关键观察:$L$–$C$ 视图下,$m$ 和 $m'$ 给出两条近似平行的曲线(截距不同、斜率相同);切换到 $L$–info 视图下,两条线坍缩到同一条——再次印证 information 是"正确的横坐标"。

3.4 InfoLaw 优化的最优 recipe(Section 6, Table 2)

利用预测能力,作者扫了 100k 个 LayerMix 配置,选预测 loss 最低的作为最优。Table 2 给出 1.2B / 1.8B / 7B 模型在 200B–1000B 训练 token、500B 源 token 下的最优 recipe(节选):

Model Train $w_0$ $w_1$ $w_2$ $w_3$ $w_4$ $w_5$
7B 300B 0.548 0.444 0.004 0.003 0.002 0.000
7B 500B 0.496 0.492 0.007 0.003 0.002 0.000
7B 800B 0.439 0.430 0.130 0.001 0.000 0.000
7B 1000B 0.395 0.387 0.214 0.003 0.001 0.000
1.8B 300B 0.619 0.376 0.004 0.001 0.000 0.000
1.2B 300B 0.758 0.229 0.012 0.001 0.000 0.000

两个清晰趋势: 1. 固定 train token 时,更大模型的最优 recipe 倾向于 更分散——大模型从多样性中获益,相应地降低 $w_0$、提高 $w_1$ 甚至 $w_2$; 2. 固定模型时,train token 越多,越应该转向多样性——300B 时 $w_0 \approx 0.55$+,1000B 时降到 $0.4$ 左右;多余 budget 应当用来"看更多类型"而不是"重复看高质量桶"。

InfoLaw 的工程口诀:小模型/小 budget → 偏 quality;大模型/大 budget → 偏 diversity。这与"小模型先跑出 baseline,大模型转去 mid-training/multi-domain"的经验法则一致。

3.5 Loss 与下游表现的关系

Figure 5: (a) 三种 repetition regime 的 L-C_m 视图——纯 random(S>>K, 无重复,蓝线)、HQ_IST(无重复,黄线)、HQ_LST(S=K, 强制重复,绿线);强 repetition 让 traditional law 偏离预测最显著。(b) HQ_LST 与 MQ_LST 在 850M 上的 training-time 评测 loss 曲线;MQ 后期改进更快,最终 loss 更低,与 "diminishing returns from repetition" 直接对应。

Figure 6: Validation loss 与 5 个下游 benchmark 的散点关系。

Spearman 相关系数(Table 4):

Benchmark Spearman $r_s$ $p$-value
ARC-C -0.979 $1.02 \times 10^{-16}$
ARC-E -0.982 $2.72 \times 10^{-17}$
HellaSwag -0.942 $6.13 \times 10^{-12}$
MMLU-LightEval -0.989 $1.26 \times 10^{-19}$
TriviaQA -0.970 $4.53 \times 10^{-15}$
Average (5) -0.996 $3.54 \times 10^{-24}$

下游任务表现与 validation loss 高度负相关($|r_s| \gt 0.94$,平均 $-0.996$),说明 InfoLaw 优化 validation loss 等价于优化下游表现。

3.6 RefinedWeb 跨 corpus 验证(Appendix K)

为了验证 InfoLaw 不依赖特定语料,作者在 RefinedWeb(Penedo 2023)上重复整套实验:

  • 三个 model size(302M、566M、1.2B),HQ 与 LQ 用于拟合,MLQ holdout 做外推
  • 拟合得 $\theta^\star = 0.93$(vs CC 上的 0.92,仅差 1%),说明 quality density function 几乎不依赖语料;
  • MLQ 外推:mean abs % error 0.24%,max 0.36%——再次验证 InfoLaw 是数据通用的。

4. 与已归档相关工作的对比

Prescriptive Scaling Laws for Data Constrained Training Prescriptive Scaling Laws for Data Constrained Training (Cornell, 2026-05-02)

关系:独立并发(本文未引用 Lovelace 等 2605.01640,两者发布相隔 2 天且 InfoLaw 参考文献中无 Cornell 工作)· 已加载对方精读

  • 共同关注的问题:传统 Chinchilla scaling law 在数据受限 + 多 epoch 重复场景下系统性失效;既有的 Muennighoff effective-data 形式只能描述递减回报,不能刻画"过训练 + 重复"区间的额外代价;都需要一个显式包含重复机制的 scaling law。
  • 相近的技术骨架:(1) 两者都是在 Chinchilla 基础上追加一个 model-size × repetition 交互项;(2) 都用大 grid(InfoLaw 252M–1.2B × 3 mixture × 9 size = 27 runs,Cornell 15M–1B × 8 budget × 6 epoch = 300+ runs)拟合参数;(3) 都做了 weight decay / 强正则的扩展验证;(4) 都给出"小模型/小 budget 偏 quality / less repetition、大模型/大 budget 偏 diversity / more fresh data"的 prescriptive 推论。
  • 本文的差异与推进
  • 抽象层级不同:Cornell 把 repetition 处理为"对 Chinchilla loss 的加性过拟合惩罚 $P \cdot R_D^\delta \cdot (N/U_D)^\kappa$"——仍然在"compute–loss"坐标系内,penalty 项让 loss 可以回升(捕捉 over-training 后的 loss 上升);InfoLaw 抛弃 compute 坐标,引入"information"作为新坐标,通过 $\log(K)$ 归一化让所有 $(w, K, S)$ 坍缩到单调递减的幂律曲线——loss 不会回升而是单调饱和。两种路线对应不同假设:Cornell 显式建模 catastrophic over-training;InfoLaw 假设其训练范围内只看到 monotonic saturating regime(因此其 grid 没覆盖 Cornell 那种 16 epoch + 50M tokens 的极端 over-fit 区)。
  • 质量维度的引入是 InfoLaw 的独有贡献:Cornell 的整个分析中没有 quality bucket / mixture weight 这一维——它把数据按 unique-token 数 $U_D$ 当一个均质池子处理;InfoLaw 显式拟合 quality density $f_d = e^{-\theta d}$,使 mixture weight $w$ 进入 loss 公式,从而把"质量分布对 loss 的影响"也纳入 scaling law。这是两者的最大不同——Cornell 的 law 不能被直接用来选 recipe,InfoLaw 可以。
  • 应用层面:Cornell 的核心结论是"超过某个阈值后继续重复弊大于利,compute 应转向扩 model",并验证强 weight decay 能把 penalty $P$ 削减 70%——是个正则化 + epoch 上限的 prescriptive 法则;InfoLaw 的核心结论是"给定 $(N, K, S)$ 直接搜出最优 mixture $w^\star$",并通过 Table 2 给出 model × budget 网格上的最优配方表——是个recipe selector
  • 外推规模不同:Cornell 训练范围 15M–1B,外推验证用 280M–720M held-out;InfoLaw 训练 252M–1.2B,外推到 7B 和 425B token,error 0.15%/0.96%——InfoLaw 的外推幅度远超 Cornell。

  • 可比的方法 / 实验差异:两者都做了 weight decay 灵敏性研究——Cornell 报告 $\lambda=1.0$ 把 over-fit penalty $P$ 削减 70%、$R^2_{\text{multi}}$ 从 0.58→0.99;InfoLaw 的 weight decay 固定为 0.1,没有报告 weight decay 对 $\lambda(N)$ 的影响——这是 InfoLaw 可以补的实验。两者都隐含承认"$\log(K)$ / weight decay 作用的物理机制"是未来工作。

价值:两者互相不可替代——Cornell 解决"什么时候停止重复"的问题,InfoLaw 解决"在重复约束下用什么混合配方"的问题;并联使用能形成完整的数据受限场景训练决策框架。从工业落地视角看,建议先用 Cornell 公式确定 epoch 上限,再用 InfoLaw 在该 budget 下搜最优 mixture。

Compute Optimal Tokenization Compute Optimal Tokenization (FAIR at Meta, 2026-05-02)

关系:弱关联(同样是数据受限/Chinchilla 推广路线,但研究维度正交:tokenizer 压缩率 vs. mixture 与 repetition)· 未加载对方精读

简要:FAIR 的 BLT 工作把 Chinchilla "20 token/param" 推广到"~60 byte/param",发现最优压缩率随 compute 缓慢下降——研究的是数据计量单位的 scaling 影响;InfoLaw 研究的是数据组成与重复的 scaling 影响。两者完全互补:BLT 的 byte-level 度量可以与 InfoLaw 的 information 度量结合,未来可能形成"byte × mixture × repetition"的三维 scaling law,但当前两篇工作没有交集。详细精读见 Compute Optimal Tokenization

5. 讨论与局限性

5.1 核心贡献

  1. 概念创新:把 LM 训练重新刻画为"信息累积"过程,引入 information 作为坐标,使 quality-mixed + repeated data 下不同 recipe 的 loss 坍缩到一条幂律——这是 坐标变换 而非追加 correction term,比 Cornell 的加性 penalty 在哲学上更激进;
  2. 质量密度函数 $f_d = e^{-\theta d}$:用单参数模型显式刻画 quality bucket 的边际信息密度,使 LayerMix mixture 选择问题可微;
  3. $\log(K)$ 归一化:经过 Appendix B 的对照实验论证,logarithmic 是唯一能让 information 与 loss 坍缩到幂律的归一化形式——这是个经验上的强约束,作者承认其物理机制尚未被完全解释;
  4. 外推稳健性:从 252M–1.2B 拟合,外推到 7B + 25× over-training,mean error 0.15%、max 0.96%;跨语料(Common Crawl → RefinedWeb)泛化时 $\theta^\star$ 仅差 1%;
  5. prescriptive 工具:100k LayerMix 配置预测 + 选最优,2.5B 实验上比固定 baseline 取得最低 loss——把 InfoLaw 从"事后解释"升级为"事前选择";
  6. 下游对齐:5 个 benchmark 上 Spearman $r_s = -0.996$,证明 InfoLaw 优化 validation loss 等价于优化下游表现。

5.2 工业落地价值

ByteDance 这种规模的预训练运行(动辄数千卡 × 月级训练时间),一次 grid search(25–100 个 recipe × 1B 模型)就要消耗数百万美元。InfoLaw 把这一搜索从"训练 grid 后选最优"压缩成"算 100k 个解析公式",直接节省至少一个数量级的预训练 budget。Table 2 中 1.2B / 1.8B / 7B 的最优 recipe 表可以直接拷贝到生产,对中小厂尤其友好。

5.3 局限性(论文 Section L 与作者承认的盲区)

  1. 质量分桶是固定经验启发式:6 个 bucket 的边界(0–5%/5–20%/...)没做 ablation,可能不是最优;不同语料、不同任务可能需要不同的 bucket 划分;
  2. $\theta$ 的语料适配性:CC vs. RefinedWeb 的 $\theta^\star$ 仅差 0.92 vs 0.93——但这两者都从 Common Crawl 派生;对非 web 语料(如 code、math、专业书籍)是否还成立,未验证;
  3. 过训练度 $m$ 的物理机制未解释:作者观察到 $m$ 在 $L$–$C$ 视图中只平移截距不改变斜率,但为什么会这样在文中没有理论解释;
  4. 不能预测 loss 上升区:InfoLaw 假设 information–loss 是单调幂律,但 Cornell 已经证明在极端 over-fit($D/N$ 极小 + 16 epoch)下 loss 会回升——InfoLaw 在该区域会过拟合曲线、低估真实 loss
  5. 缺 weight decay 维度:Cornell 显示 weight decay 对 over-fit penalty 影响巨大;InfoLaw 固定 weight decay 不变,未检验其稳定性;
  6. quality classifier 的可移植性:FineWebEdu + DCLM 都是 web text 领域的 classifier,对其他领域的"质量"定义(如 code 的可执行性、math 的推理深度)可能不可直接套用。

5.4 未来工作的方向

  • 把 weight decay $\lambda$、batch size、learning rate schedule 也纳入 InfoLaw 的 information measure,看坍缩是否仍然成立;
  • 与 Cornell 的加性 penalty 做形式上的统一——是否存在一个更通用的 form 同时覆盖 saturating regime 和 over-fitting regime?
  • 跨模态(vision、audio)、跨语言(low-resource)下是否还能找到类似的"信息坐标";
  • 工程层面:把 $f_d, \lambda(N)$ 做成 ByteDance 内部预训练 pipeline 的一个 module,每次发新数据时自动重新拟合并 update Table 2。

一句话评价:InfoLaw 是 2026 年 5 月初这一波"数据受限 scaling law"浪潮中的代表作之一(与 Cornell 的 Prescriptive Scaling Laws 几乎同期发表)。它的最大贡献不是某个数值结果,而是坐标变换的洞察——把训练 compute 替换为信息量后,跨 mixture × scale × repetition 的 loss 行为坍缩到一条统一幂律。这种"坐标重新发现"对工程落地意义重大,代价是必须信任作者拟合的 $\theta^\star, \lambda(N)$ 在自己的数据上仍然适用。