Prescriptive Scaling Laws for Data Constrained Training¶

研究动机与背景¶

训练算力的增长速度已经远远超过高质量数据的供给速度。在 state-of-the-art pipeline 中，激进的质量过滤（FineWeb 系列、Penedo 等 2024）、对精选子集的 upsampling（Olmo et al., 2025）以及在数学/代码/小语种等垂直语料上的 mid-training（Allal et al., 2025；Olmo et al., 2025）已经成为常态——这反映了一个新的现实：瓶颈不再是 compute，而是 data。在数学、代码、低资源语言这类专门领域里，约束更加严苛——专域数据集往往比 compute budget 能消耗的量小一两个数量级（Lewkowycz et al., 2022）。

这把 Chinchilla（Hoffmann et al., 2022）所建立的"如何在无限数据假设下最优分配 compute"问题，扭转成了"如何从一个固定的数据池里榨取最大价值"——此时 compute 实质上不再是瓶颈。

最简单的应对就是 多 epoch 重复训练。但 Chinchilla scaling law 假设每个 token 都是 unique 的；既有的扩展（Muennighoff et al., 2023 的 effective-data 公式）虽然能描述"重复带来的递减回报"，却无法表达 loss 因过拟合而回升的区间。在实际的多 epoch 训练里，更大的模型在同样的重复数据上过拟合得更快——这种 model size × repetition 的交互效应被既有 scaling law 完全错过。如果不把过拟合显式地建模进 scaling law，就无法准确刻画数据受限场景下的 LM 训练行为。

本文（Cornell 团队，Lovelace 等）针对这一空白：

在 15M–1B 参数、50M–6B unique tokens、最高 16 epochs 的网格上训练 300+ 模型；
提出一个简单的 加性过拟合惩罚项，以 1 / 2 / 4 自由参数的复杂度阶梯形成 Pareto 前沿；
证明该 law 能给出与既有方法 定性不同 的 compute-optimal 分配建议——超过某个阈值后，继续重复 弊大于利，compute 应当转去扩大 model；
把过拟合惩罚孤立成一个单一系数 $P$，使得训练配置之间可以直接量化对比；作为案例，证明 强 weight decay（$\lambda=1.0$）能把 $P$ 削减约 70%，为 Kim et al. (2026) 关于"数据受限场景最优 weight decay 比标准做法大一个数量级"的经验发现给出了 scaling-law 层面的解释。

既有 scaling law 与其失效¶

Chinchilla 形式¶

Hoffmann et al. (2022) 把训练完一个 LM 后的最终 loss 写成三项之和：

$$L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta} \tag{1}$$

其中 $N$ 是参数量，$D$ 是训练 token 数。三项含义清晰：

$E$：自然语言固有不可预测性的下界（"地板"），无论 compute 怎么增长都无法跌破；
$A/N^\alpha$："模型太小"代价——参数不够无法表达全部语言模式，随 $N$ 增大而衰减；
$B/D^\beta$："数据太少"代价——见过的数据不够，随 $D$ 增大而衰减；指数 $\beta$ 控制衰减速率。

Chinchilla 的实际推论：训练 FLOPs 大约 $C \approx 6ND$，所以给定 $C$ 就能解出最优 $(N, D)$ pair。但 Chinchilla 假设每个 token 见且仅见一次——这在数据稀缺场景里被频繁违反。

Muennighoff 的 effective-data 扩展¶

Muennighoff et al. (2023) 把 Chinchilla 中的 raw token 数 $D$ 替换为一个 effective 数据量 $\hat{D}$，思想是 "重复 token 的边际贡献按指数衰减"——第一次重复几乎和新数据一样有用，第二次差点意思，再后面几乎不增加任何信号。设 $U_D$ 为 unique token 数、$R_D$ 为额外 epoch 数（$R_D=0$ 表示只过一次），

$$\hat{D}(U_D, R_D) = U_D \cdot \left(1 + R_D^* \cdot \left(1 - e^{-R_D/R_D^*}\right)\right) \tag{2}$$

其中 $R_D^*$ 是控制衰减快慢的拟合常数。$R_D$ 很小时近似线性 $\hat{D} \approx U_D \cdot (1+R_D)$；$R_D$ 很大时饱和到 $U_D \cdot (1+R_D^*)$。代入 Chinchilla 即得：

$$L(N, U_D, R_D) = E + \frac{A}{N^\alpha} + \frac{B}{\hat{D}(U_D, R_D)^\beta} \tag{3}$$

但这个形式 完全把 repetition 看成 data-side 现象，没有 model-size 依赖。经验上更大的模型在重复数据上过拟合更快，所以 repetition cost 应该同时取决于 $N$ 和 $D$。Muennighoff 等再为参数加同样的饱和项：定义 over-parameterization 比率 $R_N = (N/U_N) - 1$（$U_N \equiv \min\{N_{\rm opt}, N\}$），

$$\hat{N}(U_N, R_N) = U_N + U_N \cdot R_N^* \cdot \left(1 - e^{-R_N/R_N^*}\right) \tag{4}$$

把两个 effective 量都代回 Chinchilla：

$$L(U_N, R_N, U_D, R_D) = E + \frac{A}{\hat{N}(U_N, R_N)^\alpha} + \frac{B}{\hat{D}(U_D, R_D)^\beta} \tag{5}$$

这引入了 model size × repetition 的交互——over-parameterized 模型的 effective capacity $\hat{N}$ 会饱和，从而抬高 loss。但形式上仍然是间接的：把 over-parameterization 表达为"effective model size 的递减回报"，而不是显式过拟合代价；并且没有理由说"参数过多"应当遵循和"数据重复"一样的指数饱和形式。

既有形式在哪里崩坏¶

Figure 1: Existing scaling laws fail to model overfitting

作者把上述两种形式拟合到他们的 $U_D = 200$M 数据上（Figure 1）。两种 baseline 在重复轮数较高时都 系统性低估 loss——它们能描述 loss 的下降和饱和，但描述不出"loss 在某点之后开始上升"的过拟合阶段。两个规律性现象浮出水面：

预测-观测差距 随 repetition count 增长而扩大，说明 effective-data 形式系统性地低估高 epoch 处 loss；
这个差距 随 model capacity 与 unique data 比值的增大而扩大，证实存在 effective-data 形式无法捕捉的 model size × repetition 交互。

加性过拟合惩罚¶

残差揭示超线性¶

作者用一个残差分析来寻找正确的函数形式。先把 Chinchilla 单 epoch 数据拟合出 $(E, A, B, \alpha, \beta)$；然后用 $D = U_D \cdot (1 + R_D)$（当作"全部 token 都新鲜"）来预测多 epoch loss；观测 loss 减去这个预测得到残差——这就是 repetition 引入的额外代价。

Figure 2: The cost of repeating data grows superlinearly

把残差作为 $R_D$ 的函数画出来（Figure 2，三种 model sizes × 三种 unique data budgets），共享指数 $\delta$ 的 power-law 拟合给出 $\delta = 1.84$，$R^2 = 0.996$。$\delta \gt 1$ 直接证明 repetition damage 是超线性的——每多一个 epoch 造成的损害比上一个 epoch 更大。每个 (model, budget) cell 的系数 $P_i$ 还呈现出明显规律：模型越大、unique data 越小，slope 越陡。

复杂度阶梯：1p / 2p / 4p¶

基于以上观察，作者构造一个加性 penalty 的复杂度阶梯，每一级在自由参数数与拟合质量之间形成 Pareto 前沿：

单参数（1p）形式——只用一个自由参数 $P$ 配合 $N/U_D$ 比值：

$$L(N, U_D, R_D) = E + \frac{A}{N^\alpha} + \frac{B}{(U_D \cdot (1 + R_D))^\beta} + P \cdot R_D \cdot \frac{N}{U_D} \tag{6}$$

注意第三项里 $D = U_D \cdot (1 + R_D)$，这是 naive 把所有重复 token 当 fresh 计入数据项。

两参数（2p）形式——给 capacity 比值加一个非线性指数 $\kappa$：

$$L(N, U_D, R_D) = E + \frac{A}{N^\alpha} + \frac{B}{(U_D \cdot (1 + R_D))^\beta} + P \cdot R_D \cdot \left(\frac{N}{U_D}\right)^\kappa \tag{7}$$

跨配置发现 $\kappa \gt 1$，说明过拟合惩罚 随 model capacity 与 unique data 比值超线性增长。

四参数（4p）形式——再为 $R_D$ 加上超线性指数 $\delta$、为数据预算解耦出指数 $\gamma$：

$$L(N, U_D, R_D) = E + \frac{A}{N^\alpha} + \frac{B}{(U_D \cdot (1 + R_D))^\beta} + P \cdot R_D^\delta \cdot \left(\frac{N}{U_D^\gamma}\right)^\kappa \tag{8}$$

关键观察：$R_D = 0$ 时（单 epoch），三种形式 精确地退化到 Chinchilla——penalty 项消失。与 effective-data 方法的关键概念差异是：重复 token 被赋予了双重角色——它们继续降低 data-sufficiency 项 $B/D^\beta$（不被浪费），同时在 penalty 项中累积过拟合代价。

实验设置¶

架构：Llama 2 解码器（MHA + RoPE + SwiGLU + RMSNorm），Flash Attention 2 + torch.compile，词表 32k。
数据：FineWeb sample-10BT（Penedo et al., 2024），文档打包为 512 token 定长块，EOS 分隔。
scaling 网格：9 个 model size（15M、25M、35M、50M、125M、250M、500M、750M、1B），8 个 unique data budget（50M、100M、200M、400M、800M、1.5B、3B、6B），repetition $R_D \in \{0, 1, 3, 7, 11, 15\}$。
两种 weight decay：标准 $\lambda = 0.1$ 与 strong $\lambda = 1.0$；其他超参（lr、warmup、batch size 等）跨条件保持一致以单独隔离正则化效应。
超参：AdamW，peak lr $2 \times 10^{-4}$（cosine 衰减到 10% peak，1% 步线性 warmup），$\beta_1, \beta_2 = (0.9, 0.95)$，gradient clipping 1.0，sequence length 512，batch size 128，bf16 mixed precision。
评测：CLM validation loss（6400 个 validation 文档，无 early stopping）；下游用 OLMES（Gu et al., 2025），报告 19 个语言理解任务的平均 BPB。

模型配置见 Table 5（scaling 用 9 size）和 Table 6（held-out 验证用 4 个额外 size：280M、350M、390M、720M）。

scaling law 拟合质量¶

跨模型大小的预测吻合¶

Figure 3: Our additive overfitting law adapts to model size

Figure 3 横向对比 Chinchilla（蓝实线）、Exp. Decay $\hat{D}, \hat{N}$（绿点划线）和本文 Add. Penalty（紫红实线）在 $U_D = 200$M、四个 model size 下的预测。Add. Penalty 同时捕捉到了"loss 先降后升"的过拟合行为——这是 baseline 们做不到的，尤其在 $N=500$M 时观测点出现明显回升，只有本文的 law 能跟上。

Huber loss 与 $R^2$¶

Figure 4: Scaling law fit quality

Figure 4 给出五种 form 在两个独立 scaling sweep（本文 FineWeb sweep + Muennighoff 公开 C4 sweep）上的 Huber loss 与 multi-epoch $R^2$。即便最简单的 1p 加性 penalty（Eq. 6）也已 实质性地优于 两种 baseline；4p 形式（Eq. 8）在本文数据上达到近完美拟合。改进同样泛化到 Muennighoff 数据——其 model size 范围和 repetition 范围都更广。

具体数值（Appendix D）：

标准 weight decay 研究 ($\lambda=0.1$, n=157)：

Form	$R^2$	$R^2_{\text{multi}}$	Huber
Exp. Decay ($\hat{D}$)	0.8866	0.5825	0.003469
Eff. Param. ($\hat{D}, \hat{N}$)	0.8868	0.5832	0.003468
Add. Penalty (1p)	0.9852	0.9503	0.001739
Add. Penalty (2p)	0.9860	0.9533	0.001722
Add. Penalty (4p)	0.9971	0.9945	0.000992

即使是 1p 加性 penalty，multi-epoch $R^2$ 也从 0.58 跃升到 0.95——结构性差距而非边际改进。

强 weight decay 研究 ($\lambda=1.0$, n=126)：

Form	$R^2$	$R^2_{\text{multi}}$	Huber
Exp. Decay ($\hat{D}$)	0.9741	0.9476	0.001463
Eff. Param. ($\hat{D}, \hat{N}$)	0.9737	0.9466	0.001463
Add. Penalty (1p)	0.9921	0.9875	0.000925
Add. Penalty (2p)	0.9948	0.9936	0.000860
Add. Penalty (4p)	0.9958	0.9958	0.000759

值得注意：Exp. Decay 在 strong WD 下的 $R^2_{\text{multi}}$ 跳到 0.95，反映 repetition 在强正则下行为更"温和"——这给后续的 weight decay 研究埋下伏笔。

Muennighoff C4 数据外推（n=158, 至 64 epochs）：

Form	$R^2$	$R^2_{\text{multi}}$	$R^2_{\text{single}}$	Huber
Exp. Decay ($\hat{D}$)	0.8953	0.8442	0.9763	0.008239
Eff. Param. ($\hat{D}, \hat{N}$)	0.9119	0.8670	0.9832	0.007987
Add. Penalty (1p)	0.9557	0.9426	0.9763	0.005910
Add. Penalty (2p)	0.9633	0.9549	0.9763	0.005528
Add. Penalty (4p)	0.9675	0.9617	0.9763	0.004256

所有加性 penalty form 在单 epoch 上 $R^2_{\text{single}} = 0.9763$ 完全一致——这是因为 penalty 项在 $R_D = 0$ 处自动消失，construction 上保证了 Chinchilla 单 epoch 拟合不被破坏。$\hat{D}, \hat{N}$ 的 $R^2_{\text{single}} = 0.9832$ 略高，是因为 $\hat{N}$ 饱和会修改 over-parameterized 单 epoch 预测。多 epoch 行为上加性 penalty 全面胜出。

Compute-optimal 分配建议¶

与 Chinchilla / effective-data 的定性差异¶

Figure 5: Compute-optimal allocation frontiers

Figure 5 (Right) 在 $C = 2 \times 10^{19}$ FLOPs、$U_D = 500$M 下对比三种 law 给出的最优 $(N, D)$ 前沿。质的差异：

Chinchilla（黑虚线）忽略过拟合，永远建议加 epoch——optimal $D$ 随 $C$ 线性增长（$U_D$ 固定），即 epoch 越多越好；
Muennighoff effective-data（橙线）描述 repetition 的递减回报，但 从不建议停止重复——最多趋于平台；
本文 4p law（蓝粗实线）预测一个 compute budget 阈值，超过后继续重复反而 counterproductive；前沿回弯，建议在高 compute 区段 放大 model 而减少 epoch。

这是一个明确可操作的工程指导：给定固定数据预算，存在一个 compute level，超过它后训练更大模型 + 更少 epoch 比训练较小模型 + 更多 epoch 更优。

表 1：prescriptive validation¶

作者用每个 law 推荐的最优配置实际训出来，看哪个配置在 perplexity 和下游 BPB 上最好（Table 1）：

$U_D$	$C$	Scaling law	Params	Epochs	Perplexity ↓	OLMES BPB ↓
250M	$5 \times 10^{18}$	Chinchilla	280M	12	25.31	1.52
250M	$5 \times 10^{18}$	Eff. Param.	500M	7	23.91	1.50
250M	$5 \times 10^{18}$	Ours	700M	5	22.90	1.45
500M	$1 \times 10^{19}$	Chinchilla	390M	8	18.95	1.35
500M	$1 \times 10^{19}$	Eff. Param.	550M	6	18.65	1.35
500M	$1 \times 10^{19}$	Ours	700M	5	18.48	1.30
500M	$2 \times 10^{19}$	Chinchilla	670M	10	18.90	1.37
500M	$2 \times 10^{19}$	Eff. Param.	950M	7	19.34	1.40
500M	$2 \times 10^{19}$	Ours	2.2B	3	17.73	1.34

Ours 一致地推荐更大的模型 + 更少 epoch，并且在所有设定下取得最好 perplexity 与 BPB。$C = 2 \times 10^{19}$ 行特别戏剧化：本文推荐的 2.2B × 3ep 配置 perplexity 17.73 vs. Chinchilla 推荐 670M × 10ep 的 18.90，差距相当显著。

表 17：下游每任务 BPB¶

Appendix E 给出 $U_D = 250$M, $C = 5 \times 10^{18}$ 三个推荐配置在 19 个 OLMES 任务上的 per-task BPB（节选）：

Task	Add. Penalty (700M)	Chinchilla (280M)	Eff. Param. (500M)
arc_easy	1.3871	1.4751	1.4091
hellaswag	1.0503	1.0817	1.0591
sciq	1.4761	1.6006	1.5211
sciriff_yesno	0.6709	0.8108	1.0329
lambada	0.9948	1.0356	1.0209
Average	1.4469	1.5201	1.4979

本文配置在 19 个任务里赢下绝大多数（Average 1.4469 vs. baseline 1.49–1.52）。

与 Muennighoff 的"建议反向"如何调和（Appendix A）¶

Muennighoff et al. (2023) 当年得出的结论 看似与本文相反——他们建议 data-constrained compute 应该投向 更小的模型 * 更多 epoch。作者把分歧追溯到一个方法论选择：Muennighoff 使用的是 Hoffmann et al. (2022) 在 C4 上 scrape 的 isoFLOP 点拟合的 已发布 Chinchilla 参数，而不是用他们自己 scaling sweep 重新拟合 baseline。

Table 3 显示，已发布的 Chinchilla 参数在 Muennighoff 的 29 个 single-epoch run 上只解释 71.1% 的方差（$R^2 = 0.711$）；用 Muennighoff 自己的数据 重新拟合 Chinchilla baseline 后 $R^2 = 0.989$，Huber loss 下降 3 倍。也就是说 published Chinchilla baseline 本身在 Muennighoff 数据上是 misspecified。

Table 4 进一步显示：在 published base 之上加 $\hat{D}, \hat{N}$ 机制能把 $R^2$ 从 0.445 拉到 0.791（$+0.346$，看上去机制贡献巨大）；但在 refit base 上，同样机制只能把 $R^2$ 从 0.861 拉到 0.931（$+0.070$）——绝大部分"机制贡献"其实是在补偿 baseline 本身的拟合误差。

机制层面也可解：在 published base 下拟合的 effective-parameter rate constant $R_N^* = 5.31$，意味着 $\hat{N}$ 很快饱和，把 optimal allocation 推向小模型；在 refit base 下 $R_N^* = 3294$，effectively 无穷大——optimizer 把 $\hat{N}$ 机制 关掉了，allocation 反向倒回大模型 + 少 epoch，与本文一致。

Figure 9: Compute-optimal allocation reverses under refit Chinchilla base

Figure 9 在 $U_D = 25$B、$10^{22}$ FLOPs 下直观展示这个反转：published $\hat{D}, \hat{N}$（黄）推荐 7B × 9ep（向小模型偏移）；refit $\hat{D}, \hat{N}$（红）推荐 6.3B × 11ep——但 refit Chinchilla（黑虚线）已经推荐 5.7B × 12ep，refit $\hat{D}, \hat{N}$ 只比 Chinchilla 多了一点扩大模型的偏向。结论：表面分歧来自 baseline misspecification 被 $\hat{N}$ 机制吸收。当 baseline 修正后，分配建议与本文一致。

案例研究：weight decay 改善对重复的鲁棒性¶

系数 $P$ 是配置鲁棒性的直接刻画¶

由于 4p 加性 penalty 把过拟合代价孤立成单一系数 $P$（且单 epoch 行为完全由 Chinchilla 部分决定），$P$ 就成了"训练配置对 repetition 的脆弱程度"的直接量化指标。这把 跨配置 的对比从需要扫整个 (N, D, R_D) 网格简化成只比较 1 个数。

单 epoch 的代价¶

Figure 6: Strong weight decay incurs a single-epoch loss premium

先把单 epoch 行为拟合出 $(E, A, B, \alpha, \beta)$（Table 12）：strong WD 把 entropy floor $E$ 抬高了约 0.2 nats，同时把 $B$ 从 4964 提到 29370、$\beta$ 从 0.43 提到 0.53（更陡的数据 exponent，与 strong regularization 降低 effective model capacity 的解释一致）。结果是 strong WD 在 每个 compute budget 上 的 single-epoch compute-optimal loss 都比 standard 略高（Figure 6 Left）；compute-optimal allocation 也偏向更大的模型 + 更少数据（Figure 6 Right）。这是 strong WD 的"单 epoch 税"。

多 epoch 的红利¶

Figure 7: Strong weight decay improves robustness to data repetition

在 single-epoch 参数固定后，分别为两种 WD 拟合 penalty（Eq. 8）。Figure 7 (Left) 给出 1p form 下的 $P$：standard $P = 0.022 \pm 0.001$，strong $P = 0.0068 \pm 0.0007$，strong WD 把 $P$ 削减 ≈ 70%。Figure 7 (Center, Right) 把 $N=250$M, $U_D=100$M 的 loss 分解为"Chinchilla 部分 + overfitting penalty"——strong WD 下两条紫红实线和数据点几乎贴合到 16 epochs 都没明显回升，而 standard 在 ~7 epochs 后开始回升。

具体的 Phase 2 拟合参数（Table 14, 4p form, strong WD）：

$P = 0.00257$, $\delta = 1.563$, $\kappa = 1.391$, $\gamma = 1.024$
对照 standard WD 的 $\delta = 1.674$, $\gamma = 0.635$, $\kappa = 1.345$
关键观察 1：strong WD 的 $\gamma \approx 1.02$ vs. standard 的 0.64——data-budget exponent 本身被 regularization 调高，意味着大量数据预算的"稀释效应"在 strong WD 下更接近线性；
关键观察 2：Exp. Decay form 的 $R^* = 12.73$ (strong) vs. $7.76$ (standard)——effective-data 形式自己的拟合常数也证实 strong WD 下 repetition 大约 多 60% 可容忍。

Crossover：什么时候 strong WD 反超¶

Figure 8: Strong weight decay outperforms in high-compute regimes

虽然 strong WD 有 single-epoch loss premium，但其 70% 更低的 overfitting cost 创造了一个 crossover 点（Figure 8）：

$U_D = 250$M 下，standard WD 在 modest compute 占优；
$C \approx 3.2 \times 10^{18}$ FLOPs 处 strong WD 反超——本文 scaling law 预测这个 crossover：strong WD 的 lower penalty 在足够多 compute 处补偿了它的 single-epoch tax。

Table 2 在 held-out 配置上验证这个 prescriptive 预测：

$U_D$	$C$	WD	Params	Epochs	Perplexity ↓	BPB ↓
250M ($C^\times \approx 3 \times 10^{18}$)	$3 \times 10^{18}$	0.1	350M	6	23.38	1.46
250M	$3 \times 10^{18}$	1.0	350M	6	22.93	1.47
250M	$5 \times 10^{18}$	0.1	700M	5	22.91	1.47
250M	$5 \times 10^{18}$	1.0	550M	6	21.66	1.41
250M	$1 \times 10^{19}$	0.1	3B	2	23.13	1.52
250M	$1 \times 10^{19}$	1.0	1B	6	20.34	1.36
500M ($C^\times \approx 1 \times 10^{19}$)	$1 \times 10^{19}$	0.1	700M	5	18.52	1.36
500M	$1 \times 10^{19}$	1.0	830M	4	18.75	1.32
500M	$3 \times 10^{19}$	0.1	5B	2	18.16	1.35
500M	$3 \times 10^{19}$	1.0	2.5B	4	16.65	1.30

模式很清晰：在 $C^\times$ 附近两种 WD 表现相当；超过 $C^\times$ 越远，strong WD 优势越大。$U_D = 500$M, $C = 3 \times 10^{19}$ 一行 strong WD 把 perplexity 从 18.16 降到 16.65（−1.5）。

与 Kim et al. (2026) 的呼应：他们经验地发现"数据受限场景下最优 weight decay 比标准做法大一个数量级"。本文给出的 $P$ 70% 削减 + 预测 crossover 给出了 scaling-law 层面的解释——这不是孤立的 hyperparameter trick，而是 strong WD 通过修改 (single-epoch base, repetition penalty) 二者的 trade-off 取得"不同 compute 区段的不同最优"。

实践含义¶

数据受限实践者有两个互补的工具：把 regularization 加强（降低 $P$ 70%），以及选择正确的 model size–epoch trade-off（compute-optimal 前沿）；
不要不加思考地照搬 Chinchilla，因为它建议 epoch 越多越好；当 $C$ 超过某阈值，它的建议会显著差于本文；
把训练配置之间的对比简化为单数 $P$ 之比，可以替代昂贵的 per-config hyperparameter sweep。

局限与讨论¶

已知局限： 1. scaling sweep 只到 1B 参数 + 16 epochs，无法证实 fitted exponents 在前沿规模（10B+ 参数、几十到上百 epoch）保持不变。 2. 当前 form 没有捕捉 double descent（Nakkiran et al., 2020）等现象——loss 在过拟合后是否还会再次下降，本文 law 不预言。 3. 只测了两个 weight decay 值（$\lambda \in \{0.1, 1.0\}$），用独立 sweep 给出 prescriptive 结论；把正则化强度 直接进入 scaling law 是一个开放方向。 4. 实验都在 FineWeb 一个语料 + Llama 2 一种架构上做的；扩展到 Muennighoff 的 C4 数据验证了 generalization，但不同 tokenization、pre-processing 是否影响 fitted constants 仍未完全厘清（参考 Li et al., 2025 关于 scaling-law fitting 的稳定性问题）。

核心贡献评价：

形式简洁、可解释、向后兼容（$R_D = 0$ 退化到 Chinchilla），1p form 已经能达到 multi-epoch $R^2 \approx 0.95$，是一个非常 frugal 的扩展；
真正的实践价值在于 prescriptive：给出明确的 "epoch 阈值" 和 "model–epoch trade-off 反弯点"，从此 data-constrained 训练有了具体可操作的指导，而不是"epoch 越多越好"的模糊建议；
把过拟合表达为单一系数 $P$ 是漂亮的设计：它既是 scaling law 的拟合参数，也是 配置鲁棒性的度量，让正则化、optimizer 选择、batch size 等设定可以被定量比较。

值得借鉴的设计：

"重复 token 的双重角色"——同时贡献于 data-sufficiency 项与 overfitting 项——是一种比 effective-data 替换更物理的建模视角；
1p / 2p / 4p Pareto 阶梯让读者看到"加多少自由参数能换多少拟合质量"，这种 complexity ladder 在 scaling-law 类工作里值得推广；
Appendix A 关于 Muennighoff baseline misspecification 的反思——scaling law 拟合常数不能跨数据集移植，这是 Li et al. (2025) 的发现在另一个具体场景下的再次确认；
prescriptive 验证而非仅 descriptive 拟合：作者训出每个 law 推荐的 config 并对比，这是对 scaling-law 工作"被信赖"的高 bar 验证标准。

与已有工作的差异：

Muennighoff et al. (2023)：本文显式把 repetition 拆成"data 项 + overfitting 项"，给出与 Muennighoff 相反的 allocation 建议，并通过 reanalysis 解释分歧根源；
Hoffmann et al. (2022) Chinchilla：本文是 Chinchilla 的 严格扩展——单 epoch 退化即得；
Kim et al. (2026)：本文给 Kim 的"data-constrained 下最优 WD 大一个数量级"经验发现提供了 scaling-law 形式化的解释。

工业落地价值：在 LLM pretraining 的实际操作里，本文最直接可用的两个建议： 1. 当 unique data 给定且 compute 充裕时，考虑放大模型 + 减少 epoch 而不是相反——按 Table 1 数据，$U_D = 500$M, $C = 2 \times 10^{19}$ 下作者推荐 2.2B × 3ep（perplexity 17.73）显著优于 Chinchilla 推荐的 670M × 10ep（18.90）； 2. 当数据受限时，把 weight decay 调到 1.0 量级——会损失 single-epoch 上的少量 loss，但在 $C \gg C^\times$ 区段反超，且 70% 减少 overfitting 系数。