← Back to list

Scaling Properties of Continuous Diffusion Spoken Language Models

other Apple
Abstract 7 Reading 7 Rating —
2026-04-27
Jason Ramapuram, Eeshan Gunesh Dhekane, Amitis Shidani, Dan Busbridge, Bogdan Mazoure, Zijin Gu, Russ Webb, Tatiana Likhomanenko, Navdeep Jaitly
Apple
Apple 首次给出连续扩散语音语言模型(CD SLM)的完整 scaling law,提出 pJSD 评估扩散模型的语言性,通过 fused two-stage 拟合分析 isoFLOP 曲率与下游指标,并将模型 scale 到 16B 参数
评分原因
摘要评分:Apple团队的连续扩散语音语言模型scaling law研究,扩展到16B参数,scaling规律对生成式推荐有迁移价值,工业背景但偏语音。
精读评分:Apple 给出连续扩散 SLM 的首个完整 scaling law,提出 pJSD 度量、fused two-stage 拟合方法、isoFLOP 曲率分析,并把模型 scale 到 16B。方法论(联合拟合、curvature analysis)对推荐 scaling 研究有迁移价值,但话题本身离推荐较远,故 7 分。
diffusion transformer parameter-scaling

Scaling Properties of Continuous Diffusion Spoken Language Models

Apple. arXiv: 2604.24416 (2026-04-27).

作者:Jason Ramapuram, Eeshan Gunesh Dhekane, Amitis Shidani, Dan Busbridge, Bogdan Mazoure, Zijin Gu, Russ Webb, Tatiana Likhomanenko, Navdeep Jaitly。

一、研究动机与背景

Spoken Language Models (SLMs) — 即直接在语音上做语言建模、不依赖任何文本监督的"纯语音 LLM" — 当前的语言能力大约停留在 3-4 岁儿童水平,远落后于 SOTA 的文本 LLM 与文本-语音多模态模型。已有工作 [Cuervo & Marxer, 2024] 把 SLM 的 scaling law 推到离散自回归 (AR) 框架下,结论是:要让 SLM 达到文本 LLM 的语言流利度,可能需要"几个数量级以上"的算力。

这种 AR-on-discrete-tokens 路线之所以耗算力,根本症结有两条: 1. 离散化瓶颈:把连续语音用 SSL(如 wav2vec2、Spirit)压成离散 token,必然引入压缩失真和重建误差,限制了模型表达上限; 2. 数据稀疏:原始语音的语义密度远低于文本,没有 Wikipedia 这样高度结构化的语料,从声音中抽取通用知识本身就资源密集。

本文沿着另一条思路:既然语音信号本身是连续的(即使其承载的语言是离散的),那么用连续扩散 (continuous diffusion, CD) 模型在 log-mel 上直接建模,是否比 AR-on-discrete 更高效?

为系统性回答这个问题,作者做了两件以前没做过的事:

  1. 提出 phoneme JSD (pJSD) 作为可与扩散模型兼容的 "languageness" 度量。AR 模型可以直接算序列对数似然,扩散模型不行;而 sWUGGY/sBLIMP/sStoryCloze 这类辨别式指标只能比较成对的"正确 vs 错误"句子,无法广义评估生成语料的语言性。pJSD 通过比较真实语料与生成语料在音素 n-gram 分布上的散度,提供了一个采样型、可扩展的语言性指标。
  2. 首次给出连续扩散 SLM 的完整 scaling law 分析:在 7 个数量级的 compute 区间(10^18–10^21 FLOPs)和 0.6M–11.5B 参数区间扫 isoFLOP,拟合 (N, D) → 验证 loss 以及 (N, D) → 下游度量的 scaling fit;并将基础架构外推到 16B 参数、数千万小时对话语音,验证最大规模下能否生成富有情感、韵律和多语种的连续语音。

研究结论既有"沿用文本 LLM trend 的部分",也有几条新趋势:

趋势 类型 说明
Validation loss 服从 scaling law 沿用 与 AR LM、扩散 transformer、离散扩散 LM 一致
最优 token-per-parameter 比 r* 随 compute 减小 沿用 与 [Hoffmann et al. (Chinchilla)] 趋势一致
高 compute 下 loss 对 (N,D) 分配更不敏感 isoFLOP 曲线变扁平,给"小模型/小数据低成本部署"留出空间
pJSD 服从 scaling law,n 越大 fit 越好 5-gram pJSD 的 test MRE 仅 ~1%
标准感知质量 metric (DNSMOS、NISQA) 服从 scaling law 与已知的 MOS↔人工评分相关性差吻合
部分指标无论多大算力都达不到真实数据基线 content understanding 等指标外推后仍未触达 baseline ±σ 区间

最后的结论非常坦率:在当前可获得的 compute 和语音数据下,纯 SLM 路线进一步 scale 不切实际——除非出现新的语音表示或建模范式,或者干脆转向 text-speech 模型。

二、核心方法:Continuous Diffusion SLM

2.1 数据:SpeechCrawl

  • 来源:公开渠道收集的大规模对话语音("SpeechCrawl");
  • 音频特性:平均 ~30 分钟/段,约 60% 英语;
  • 过滤:用 WhisperX + Whisper-large-v3 估算每段英语占比,仅保留时长 > 5 分钟、英语占比 ≥ 99% 的样本;
  • 过滤后规模7M 小时(700 万小时)。

2.2 语音表示:log-mel filterbanks

不走主流的 SSL discrete token 路线,而是直接用 log-mel filterbanks,理由有四:

  1. 物理可解释、保留语义和声学信息、信息损失小;
  2. 与具体 encoder/decoder 解耦,可直接通过任意 vocoder 重建 waveform;
  3. 在多种声学环境下表现稳健;
  4. 是连续生成模型的"原生"输入。

参数:24 kHz 重采样、80 维 mel、50 ms 窗、12.5 ms hop → 80 Hz 帧率

值得注意的语义密度对比:

文本 LLM ≈ 4 token / 3 词,对话语速 ≈ 3 词/秒 → 4 文本 token/s; 而 80 Hz 的 mel 是 80 帧/s → CD SLM 的 token 数比文本 LLM 高 20×

这是 CD SLM 在 sequence-length-per-second 上的固有劣势,需要靠后续 architectural choice(如 temporal patching k)部分缓解。

2.3 Continuous Diffusion (CD) 模型

前向过程与 velocity 参数化

给定数据 $x_0 \sim p_{\text{data}}$,前向加噪:

$$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar\alpha_t}\, x_0, (1-\bar\alpha_t)\mathbf{I}) \tag{1}$$

其中 $\bar\alpha_t = \prod_{s=1}^t \alpha_s$,$\alpha_t = 1 - \beta_t$。$t \to T$ 时 $q(x_T) \to \mathcal{N}(0, \mathbf{I})$。

不直接预测噪声 $\epsilon$,而是参数化网络 $v_\theta(x_t, t)$ 预测 velocity

$$v_t = \sqrt{\bar\alpha_t}\,\epsilon - \sqrt{1 - \bar\alpha_t}\, x_0$$

在预测 noise 与预测 signal 之间插值。训练目标采用 min-SNR 加权的 denoising loss:

$$\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t}\left[ \min(\text{SNR}(t), \psi)\cdot \|v_\theta(x_t, t) - v_t\|^2 \right] \tag{2}$$

其中 $\text{SNR}(t) = \bar\alpha_t / (1 - \bar\alpha_t)$,$\psi$ 为截断常数。这种重加权抑制了不同 timestep 上 loss 贡献的不均衡,提升训练效率。

MM-DiT 骨干

借用 SD3 / Stable Diffusion 体系的 Multimodal Diffusion Transformer (MM-DiT) [Esser et al., ICML 2024],但针对纯语音改造:原 MM-DiT 的"文本流 + 图像流"被替换为"音频上下文流 ($m_\text{ctx}$) + 待生成音频流 ($m_\text{gen}$)"两个 log-mel filterbank stream。

Figure 2: Continuous diffusion SLM architecture.

具体流程: 1. 把单声道 waveform 转 80×S' 的 log-mel; 2. 切成 $m_\text{ctx} \in \mathbb{R}^{T \times 80}$(context)和 $m_\text{gen} \in \mathbb{R}^{T' \times 80}$(待生成 continuation); 3. 给 $m_\text{gen}$ 加 Gaussian 噪声; 4. 两个 stream 各自经独立 Linear → MM-DiT block (×L):每层都有独立的 AdaLN-zero、MLP、projection; 5. 唯一的跨流交互发生在 attention 层 — 两 stream 的 Q/K/V 拼接后做完整的 bidirectional self-attention; 6. 重复 L 层后从 continuation stream 抽出去噪结果计算 loss; 7. RoPE 用于位置编码,timestep 通过 AdaLN-zero 调制。

Section 4 中 $m_\text{ctx} = 10$s、$m_\text{gen} = 30$s;模型尺寸通过保持 $d_\text{emb} / L = 128$ 来缩放(典型的 isotropic transformer scaling)。

Classifier-Free Guidance (CFG)

不在训练中显式 drop conditioning(即不学无条件分布),而是把 conditioning 全部 FLOPs 投到学习有条件分布上。在推理时,把 $\mathbf{0}$ 信号当作 unconditional 输入:

$$\bar v_\theta(x_t, t, c) = v_\theta(x_t, t, \emptyset) + w\cdot \big(v_\theta(x_t, t, c) - v_\theta(x_t, t, \emptyset)\big) \tag{3}$$

由于 $w=1$(无引导)样本质量太差,论文实际只对比 weak (w=2)strong (w=4) 两档。

2.4 Languageness 指标:Phoneme Jensen-Shannon Divergence (pJSD)

动机

  • AR 离散 token 模型:可以用 sWUGGY (lexical)、sBLIMP (syntactic)、sStoryCloze (semantic) 等 forced-choice 任务评估,本质上是对比"语法正确句子"vs "语法错误句子"的对数似然;
  • 扩散模型:算样本的精确 likelihood 在算力上不可行,且这些 forced-choice 数据集本身依赖精心策划的成对样本,不是分布层面的度量。

定义

给定生成集 $\mathcal{G}$ 和真实集 $\mathcal{R}$ 的 waveform,使用 Allosaurus 通用音素识别器抽音素序列 $\pi(x) = (p_1, \dots, p_L)$,定义第 $i$ 个 $n$-gram:

$$g_i^{(n)}(x) := (p_i, p_{i+1}, \dots, p_{i+n-1}), \quad i = 1, \dots, L-n+1 \tag{4}$$

记 $C_\mathcal{S}^{(n)}(g)$ 为 $n$-gram $g$ 在语料 $\mathcal{S}$ 中出现总次数,$\Omega^{(n)}$ 为生成 + 真实集观察到的 $n$-gram 全集,则经验分布

$$p_\mathcal{S}^{(n)}(g) := \frac{C_\mathcal{S}^{(n)}(g)}{Z_\mathcal{S}^{(n)}}, \qquad Z_\mathcal{S}^{(n)} := \sum_{g \in \Omega^{(n)}} C_\mathcal{S}^{(n)}(g) \tag{5}$$

令 $m^{(n)} := \tfrac{1}{2}(p_\mathcal{G}^{(n)} + p_\mathcal{R}^{(n)})$,最终的 pJSD:

$$\text{pJSD}_n(\mathcal{G}, \mathcal{R}) := \tfrac{1}{2}\text{KLD}\!\left(p_\mathcal{G}^{(n)} \| m^{(n)}\right) + \tfrac{1}{2}\text{KLD}\!\left(p_\mathcal{R}^{(n)} \| m^{(n)}\right) \tag{6}$$

值越低代表生成与真实在音素 $n$-gram 分布上越接近。在论文中报告 1-gram 与 5-gram 两档。

与 ASR-perplexity 的取舍

理想做法是用 ASR 把生成音频转写后跑文本 LM 算 perplexity;但当前 SLM 输出语言能力仍处于幼儿水平,ASR 转写本身就充满错误,方差过大。pJSD 是当下可行的折衷,等 SLM 长大后应迁移回 ASR-perplexity 路径。

2.5 感知质量度量

除语言性,作者还系统评估生成语音的"听感",使用:

  • DNSMOS P.808 / DNSMOS overall (P.835) / NISQA MOS — 三个主流的非侵入式 MOS 预测器;
  • Meta Audiobox Aesthetics — 4 维 no-reference predictor:content enjoyment (CE)、content understanding (CU)、production quality (PQ)、production complexity;report mean。

这些 metric 是否随 compute 提升、是否能达到 real-data baseline,是 Section 4.3 的核心研究问题。

三、Scaling Law 实验设计

3.1 总体框架

采用 [Kaplan; Hoffmann (Chinchilla)] 风格的 isoFLOP 拟合:

$$L(N, D) = E + \left( \frac{A}{N^\alpha} + \frac{B}{D^\beta} \right)^\gamma \tag{7}$$

  • 保留 outer exponent $\gamma$(不像许多工作把它固定为 1),原因是论文实证 $\gamma$ 对 CD SLM 的 fit 稳定性有显著贡献 [Busbridge 2025 蒸馏 scaling 也发现类似];
  • basin-hopping + L-BFGS-B,2k iter,Huber loss 拟合 $E, A, B, \alpha, \beta, \gamma$;
  • IsoFLOP 估计 $C \approx 6ND$。

3.2 扫的 (N, D) 空间

  • compute budget $C \in \{10^{18}, 3\cdot 10^{18}, 6\cdot 10^{18}, 10^{19}, 3\cdot 10^{19}, 6\cdot 10^{19}, 10^{20}, 3\cdot 10^{20}, 6\cdot 10^{20}, 10^{21}\}$;
  • 模型尺寸 ~0.6M (1 layer) 到 ~11.5B (27 layer);
  • 每个组合 ≥3 seed,report mean ± std;
  • 超参数用 muP + completeP 跨规模迁移;先在 ~36M 4-layer base 上 sweep lr ∈ {1e-4 .. 2e-3} 和 wd ∈ {0.001 .. 0.2},最优 (lr=0.001, wd=0.03) 用 muP/completeP 推广到所有尺寸;
  • 推理步数和 noise scheduler 保持固定。

3.3 isoFLOP 行为定性观察

Figure 3: IsoFLOP curves at weak CFG. (a) val loss; (b)1-gram pJSD; (c)5-gram pJSD; (d) CU; (e) PQ; (f) P808-MOS.

定义 expected isoFLOP behavior = 同一 compute level 下 metric vs N 呈清晰的 U 型(loss)或 ∩ 型(quality),且最优值随 compute 单调改善。

  • Validation loss / 1-gram pJSD / 5-gram pJSD:满足 expected isoFLOP behavior(图 3 a-c);
  • CU、CE(4 个 Audiobox 中的两个):满足;
  • PQ、production complexity、所有 DNSMOS/NISQA MOS不满足 —— 曲线在 ±σ 实数据 baseline 范围内迅速饱和,模型很快学会"听上去合理"的低成本输出,但更高 compute 无法继续推高。

这与 MOS 类 metric 与人工 mean opinion score 相关性较差的既有结论一致。

四、主要实验结果

4.1 Validation loss scaling law

最佳 fit(test MRE 0.80%,train MRE 0.49%):

$$L(N, D) = 0.0055 + \left( \frac{0.0638}{N^{0.3995}} + \frac{29.7667}{D^{0.5644}} \right)^{0.7051} \tag{8}$$

Figure 1: (Left) val loss isoFLOP fit + compute-optimal points. (Right) ΔD, ΔN, κ vs compute.

由该 fit 可推导出最优 (N*, D*)(C):

Figure 4: Optimal tokens-per-parameter ratio r* = D*/N* vs compute C.

关键观察

  1. r*(C) = D*/N* 随 compute 减小(图 4,斜率为负);这与 AR SLM 趋势一致,与 Chinchilla 文本 LM 的趋势相反——在 CD SLM 里,compute 越大越应当往大模型方向倾斜,而不是往大数据方向倾斜
  2. 在 $C = 10^{21}$ FLOPs 处,$r^* \approx 245$;考虑文本 token 与语音 token 的 20× 密度差,等效文本 tokens-per-parameter ratio $r^*_{\text{text}} \approx r^*/20 \approx 12.25$。这低于文本 LM 的 chinchilla optimal $r^* \approx 20$,意味着 CD SLM 在 $10^{21}$ FLOPs 时已经比 text AR LM 用 compute 更高效
  3. isoFLOP 曲线随 compute 变扁平。把 isoFLOP 在最优点的曲率记为 $\kappa$,并定义"容忍精度" $\epsilon = 10^{-3}$ 内可接受的 (N', D') 范围,则随 compute 增加:
  4. $\kappa$ 单调下降(图 1 右上);
  5. $\Delta N$ 和 $\Delta D$ 随 compute 跨数个数量级扩大(图 1 右中/右下);
  6. 工程含义:高 compute 下,可以用显著更小的模型 / 显著更少的数据,达到与最优点等价的 loss——为 inference-friendly 配置打开空间。

4.2 下游 metric 的 scaling law fit (fused two-stage)

单阶段 vs 两阶段的取舍

直接拟合 (N, D) → metric (one-stage) 在 MRE 上很差;先拟 (N, D) → loss、再拟 loss → metric (vanilla two-stage) 误差累计也不行。

本文提出 fused two-stage approach:先观察到 metric vs validation loss 自然呈 sigmoid 形(饱和到 random performance 与 well-trained optimum 之间):

$$M = \text{sigmoid}(L) = \ell + \frac{h - \ell}{1 + \exp(-k (L - L_0))} \tag{9}$$

把式 (7) 代入:

$$M = \ell + \frac{h - \ell}{1 + \exp\!\left(-k\left(E + \left(\dfrac{A}{N^\alpha} + \dfrac{B}{D^\beta}\right)^\gamma - L_0\right)\right)} \tag{10}$$

所有 8 个参数 $(\ell, h, L_0, k, E, A, B, \alpha, \beta, \gamma)$ 联合优化,避免 vanilla two-stage 的误差累计。

Figure 5: Fused two-stage scaling law fits. (a) 1-gram pJSD; (b) 5-gram pJSD; (c) CU; (d) M* extrapolation vs compute for CU.

各 metric fit 质量

Metric Train MRE Test MRE
Validation loss (vanilla) 0.49% 0.80%
1-gram pJSD 4.22% 8.21%
5-gram pJSD 0.71% 1.04%
Content Understanding (CU) 1.15% 0.47%

结论: 1. n 越大,pJSD fit 越好:5-gram MRE ~1% vs 1-gram ~4.5%;高阶 n-gram 捕捉了更结构化的音节学模式,与 training loss 相关性更强; 2. CE / CU 也呈现 scaling law,但 CE/CU 拟合系数与 loss 拟合系数不完全一致,说明 sigmoid mapping / 联合优化引入了一定 bias; 3. 对 Audiobox CE/CU 这类有真实数据 baseline (mean ± σ) 的 metric,可外推 $M^*(C)$ 与 baseline 区间对比。

关键的负面发现:CU 外推无法触达真实 baseline

Figure 5(d): Content Understanding M* 外推 — saturates below ±σ baseline region.

  • CU 的 baseline = 6.266 ± 0.752;
  • fit 外推到 $C \to \infty$ 时 $M^*$ saturate 在 baseline ±σ 区间下方
  • 含义:在当前 architecture / data representation / vocoder 设定下,单纯 scale compute 不能让 CD SLM 达到真实数据 CU 水平——某些 perceptual feature 受制于模型表征上限或 vocoder 重建误差,无法仅靠 scaling 突破。

两条 caveat:

  • (i) 取决于 functional form 与优化是否充分;
  • (ii) 若 fit 正确,则提示 CD SLM 有内在的 representational limitation,必须通过更强 inductive bias、更丰富数据表示,或文本 conditioning 才能弥合。

五、消融实验

模型 fix 为 $d_\text{emb}=1024$, 8 layer,训练 512k 小时音频、100 NFE。所有 ablation 单变量扫描,并报告 weak/strong CFG。

Figure 6: Cross-ablation comparison across all studies — distributions per metric per ablation type.

5.1 训练时长 (Duration)

  • 0.25M – 1.5M hours,0.25M 步进;
  • 对 languageness (pJSD) 和 CU/CE 影响最大;与 Section 4 的 scaling 结论一致——data scale 直接驱动 linguistic 学习。

5.2 Temporal patch size $k$

  • 类似 ViT 的 spatial patching,把 80×T 沿时间方向折叠 $k$ 倍,channel 同步扩 $k$;
  • k 从 1 到 6;
  • 观察:k 越大、时间分辨率越低,所有 metric 单调退化;
  • 结论:高保真生成需要高时间分辨率;patch 虽然能省 sequence length 和 FLOPs,但牺牲了韵律和精细时序细节,对追求自然语音的应用代价过高。

5.3 Noise schedule

  • 三种 (linear / cosine / exponential) × {with / without zero terminal SNR};
  • 对感知质量影响最大(合理:noise schedule 直接决定信号保真);
  • cosine 一直跑不过其他两条
  • linear + zero terminal SNR 最好 —— 显式训练 "完全信号被破坏" 的极端有助于 high-noise 端鲁棒性。

5.4 Diffusion timesteps $T$

  • T ∈ {100, 500, 1000, 2000, 4000},sample 100 steps;
  • 更细的 noise level 离散化(更大 T)提供更精确的 noise level target 但提升学习复杂度;
  • 论文未给单一最优值,列入 cross-ablation distribution 比较。

5.5 总体观察

  • noise schedule 是 perceptual quality 的最大杠杆;
  • duration 是 languageness 的最大杠杆;
  • 这两条耦合 Section 4 的结论:data scale 驱动语言学习,而 model design choice 决定听感上限。

六、Scaling 到 16B 参数

Figure 7: Whisper-conditioned CD SLM architecture.

6.1 修改架构:注入 Whisper conditioning

Section 4 的 scaling law 给出"不可约误差"$E$(式 (7))。该 $E$ 既受架构限制,也受数据表示限制:基础 MM-DiT 用有限上下文 log-mel filterbank 直接 condition,可能存在结构性下界。最近 [Liu et al. 2025] 表明"信息更密集、具有 superposition 性质的表示"能让 scaling 更陡峭。假设:注入信息密度更高的 conditioning 能压低 empirical $E$。

实现: 1. 用 frozen pretrained Whisper-large-v3 encoder 抽 context 的高阶 speech feature(虽然 Whisper 在 speech-text 对上训练,作者只把它当作冻结 feature extractor,不做 text supervision); 2. 输入扩为 300s context、生成 60s continuation; 3. 用 Perceiver [Jaegle et al.] 把 Whisper 特征下采样为 4096 deterministic token; 4. MM-DiT 部分 scale 至 16B parameters; 5. 数据:tens of millions of hours unfiltered conversational speech from SpeechCrawl。

6.2 16B 结果

Table 1: 16B CD SLM vs. scaling law trial 中最佳 run。

Metric C = 10²¹ CFG=2 C = 10²¹ CFG=4 16B CFG=2 16B CFG=4
loss 0.0061 0.0061 0.0047 0.0047
CE 4.5767 4.5545 5.4809 5.2965
CU 5.1093 5.0746 5.4809 5.2965
PQ 5.6893 5.6356 5.9278 5.7659
col 3.5597 3.5511 3.5674 3.5349
dis 3.9680 3.9571 4.1632 3.9617
loud 3.5468 3.5312 3.8542 3.4789
pJSD 0.2253 0.2096 0.1811 0.1770

注:表中 CE 和 CU 列在原文 Table 1 中数值出现重合(同为 5.4809 和 5.2965),可能是排版错误,但其他指标都呈一致提升。

关键观察: 1. 16B 模型的 validation loss 0.0047 严格低于 base scaling law 的不可约误差 $E = 0.0055$; 2. 这证明 $E$ 不是数据分布的硬下界,而是 architecture + representation 决定的相对下界; 3. 16B 模型生成的语音具有: * 多语种(SpeechCrawl 含约 40% 非英语); * 多说话人; * rich emotion & prosody; * 较短 word n-gram 上的合理 lexical 表现。 4. 但 long-form linguistic coherence 仍然不行 —— 尽管 emotive/prosodic 维度有改进,长篇叙事的逻辑一致性仍有显著差距。

6.3 论文最终立场

引用原文(Section 7 Conclusion):

在当前 compute 和语音数据下,进一步 scale SLM 不切实际,除非出现新的语音表示或建模范式,或我们转向 text-speech 模型。

这是一篇罕见地"用 scaling law 论证自身路线 ceiling"的论文。

七、核心贡献总结

  1. 首个 continuous diffusion SLM 的完整 scaling law:覆盖 7 个数量级 compute、4 个数量级 model size、含多种下游 metric。
  2. pJSD metric:第一个能用于扩散语音模型的、可采样的、可扩展的 languageness metric;并证明 pJSD 自身也服从 scaling law。
  3. Fused two-stage scaling law fit:把 $L(N,D)$ 与 $L \to M$ sigmoid mapping 联合优化,避免 vanilla two-stage 的误差累计。
  4. isoFLOP curvature analysis:定量化 "compute 越多越能用 smaller 模型 / 更少 data 达到等价 loss" 的 inference 友好趋势。
  5. 新的负面发现:标准 MOS metric 不服从 scaling law;某些 perceptual metric (CU) 外推后无法达到 real-data baseline,提示 representational ceiling。
  6. Whisper-conditioned 16B 模型:证明压低 base architecture 的不可约误差 $E$ 是可行的工程方向,而单纯 scale base architecture 不够。
  7. 路线判定:基于 quantitative 证据推断,pure-speech SLM 路线在当前条件下不可持续,应转向更丰富表征或 text-speech joint modeling。

八、讨论与局限性

与已有 SLM scaling 工作的对比

  • [Cuervo & Marxer 2024] 给出第一个 AR-on-discrete SLM scaling law,但 fix hyperparameter 跨规模(已知次优 [Bjorck 2024]),可能高估了所需 compute;
  • [Maimon 2025] 把 scaling 分析扩展到 interleaved text-speech;
  • 本文是 continuous + diffusion 路线的首个 scaling law,与上述两条工作互补,三者拼出 SLM 设计空间的整体 scaling 轮廓。

工程价值

  1. isoFLOP curvature 工程价值最大:实践者可在高 compute 下选 smaller model 而不损失 loss——这对推理成本敏感的语音助手等下游产品意义重大;
  2. fused two-stage 拟合方法学:可迁移到任何"loss → 下游 metric"的 scaling law 研究,未必局限于语音;
  3. pJSD 可作为 evaluation harness,被任何在做 generative speech / audio 的实验室复用;
  4. Whisper conditioning 的成功强化了 frozen pretrained encoder 作为 prior 注入器的价值(无需 text supervision 的形式仍可享受 text-speech pretraining 的红利)。

局限性

  1. fit 范围限制:覆盖的 compute 上限 $10^{21}$ FLOPs,外推到 $10^{30}$ 时函数形式与最优化可能均失效;
  2. fused two-stage 拟合的系数偏差:作者承认 sigmoid mapping 的引入或联合优化引入 bias,base scaling law 系数与单独 loss fit 系数不完全一致;
  3. CU 不可达 baseline 是结论而非证明:文中明确这是依赖 functional form 正确的推断;
  4. vocoder 依赖:所有生成必须经过 HiFi-GAN vocoder,pJSD 等 metric 部分误差被归因于 vocoder reconstruction,但论文没把 vocoder error 单独 quantify;
  5. 域窄:训练/评估数据 ≥99% 英语,结论是否在多语言或非英语 dominant 数据上成立仍未知(虽然 16B 模型本身用了 unfiltered multilingual 数据,但 scaling law 部分用的是 filtered 英语);
  6. "languageness 离 ASR perplexity 还差很远":作者也承认 pJSD 是当下的妥协,长期应迁回 ASR-LM cascade。

对推荐系统研究者的迁移启示

虽然本文话题是语音,但 scaling law 的方法论部分对个人文档库中的工业推荐 scaling 研究(如 OneRec / OneTrans / TokenMixer-Large / HSTU 等)具有直接参考价值: 1. fused two-stage approach 可用于推荐场景的 "validation NCE → online metric (CTR、GMV、AB lift)" 拟合,避免直接拟合稀疏在线指标; 2. isoFLOP curvature 分析为"高 compute 下能否用更小模型节省线上 inference 成本"提供量化框架; 3. 保留 outer exponent γ 这一拟合细节对 fit 稳定性的贡献,对推荐 scaling fit 同样适用; 4. "指标无法被 scale 突破"的负面发现对推荐场景同样可能存在——某些用户体验维度(多样性、惊喜度)也许不是单纯 scale 数据/参数能解决的。