Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims¶

研究动机与背景¶

真实世界数据（Real-World Data, RWD）已成为补充随机对照试验的关键证据来源，覆盖监管评估、临床决策与卫生政策制定等场景。RWD 的两大主源——电子健康档案（EHR）和管理性医保理赔（administrative claims）——结构互补：

EHR：含丰富临床信息（化验、影像、临床叙事），但常因患者跨多个医疗系统就诊而不完整；缺乏明确观察窗，"未记录" 与 "未发生" 难以区分，引入假阴性偏差。
Claims（理赔）：缺细粒度临床细节，但能在大规模人群与给付方系统内提供完整、标准化、纵向的 utilization / expenditure 记录；以 enrollment 期限为锚定，观察窗清晰。

围绕 RWD 的 healthcare foundation model 研究路线已初具规模：

早期 EHR 上的 BERT 风格模型：BEHRT（2020）、Med-BERT（2021）证明了将临床事件序列化用 Transformer 预训练能改善疾病预测。
生成式 EHR 模型：Foresight（Lancet Digital Health, 2024）、ETHOS（npj Digital Medicine, 2024）、Motor（2023）、CEHR-GPT（2024）将 EHR 序列建模扩展到时间到事件预测、零/少样本适配。
大规模疾病通用模型：Delphi（Nature 2025, [16]）训练单个 transformer 同时预测 1000+ 种疾病的发生时间，性能逼近单病专门模型；Curiosity（arXiv 2508.12104, [17]）展示 EHR 上的可扩展性能随数据/模型规模单调改善。

但论文指出现有工作有 四点局限：

数据规模和覆盖有限：多数模型基于单一医院系统或中等规模队列，无法捕获大规模异质轨迹。
EHR-centric：模型主要在 EHR 上开发，claims-based 建模和跨数据源验证仍稀少。
任务范围窄：评估集中在疾病预测 benchmark，缺乏更广义的 healthcare dynamics（财务、医疗资源、因果推断）。
post-training 探索不足：缺少专门的任务适配阶段，限制了模型在复杂下游任务上的泛化能力。

为此本文提出 ReClaim：基于 Merative MarketScan 全美理赔数据库（2008-2022，43.8B 事件，118M+ 入组人）从零训练的 decoder-only transformer 基础模型，规模扩到 1.7B 参数，并通过任务专属 post-training 适配 disease onset prediction。三个下游任务：(1) 1208 种 ICD-10 疾病发生预测；(2) 下年度医疗支出预测；(3) RWE（real-world evidence）因果推断中的倾向得分建模。

核心方法/模型架构¶

ReClaim 总体设计¶

Figure 1: ReClaim framework and evaluation workflow

ReClaim 把每位入组人的纵向理赔记录转换为按时间排序的 token 序列，序列联合编码：

enrollment 历史（开始/结束、保险类型、地理位置）
临床事件（diagnoses、procedures、medications）
健康支出（gross payment）
时间锚点（出生年、年龄、月份间隔、新年标记）

模型采用 Qwen3 dense decoder-only 架构家族（[32]），但所有权重 从零训练（不复用任何 Qwen3 checkpoint）。提供三个规模：

规模	hidden size	layers	attn heads	KV heads	FFN dim	词表	max pos
ReClaim-S	140M / 1024	8	16	8	2048	20865	4096
ReClaim-M	700M / 2048	16	24	12	4096	20865	4096
ReClaim-L	1.7B / 2048	32	32	16	4096	20865	4096

三档共享相同分词器和词表，性能差异主要来自模型容量（depth × width）。

训练目标 1：大规模 next-token 预训练¶

给定 token 序列 $x_{1:T}$，最大化对数似然：

$$\sum_{t=1}^{T} \log p_\theta(x_t \mid x_{\lt t}) \tag{1}$$

实现为带因果 mask 的交叉熵。除标准 CE 外，还添加 z-loss 正则项 抑制 logit 漂移：

$$Z_t = \sum_{v \in \mathcal{V}} \exp(s_{t,v}) \tag{2}$$

$$\mathcal{L}_z = \lambda \cdot \mathbb{E}\bigl[(\log Z_t)^2\bigr], \quad \lambda = 10^{-4} \tag{3}$$

总预训练损失：

$$\mathcal{L} = \mathcal{L}_\text{CE} + \mathcal{L}_z \tag{4}$$

z-loss 通过惩罚 log-partition 的平方期望，限制 logit 量级和全局漂移，显著改善大规模训练稳定性——减少 loss 尖峰、缩小 logit scale 振荡。

训练目标 2：disease-onset post-training¶

由于预训练优化的是通用序列建模而非 endpoint-specific 风险预测，作者增加 task-specific post-training 阶段。从预训练数据中随机抽样 100K 入组人（要求 ≥2 个月历史），将每条序列改写为 prompt-response 对：

在序列中随机插入 <INSTRUCT-DX> instruct token（约束此前至少 2 个月历史）；
instruct token 之前的所有 token 作为 prompt；
instruct token 之后仅保留新发疾病的 diagnosis token（其他无关 token 被剔除），作为 response。

监督只施加在 response 区域：

$$\sum_{k=1}^{K} \log p_\theta(y_k \mid p, y_{\lt k}) \tag{5}$$

这种"prompt 段不计 loss、response 段计 loss" 的设计避免预训练词表 / 分词器变化，把模型对齐到"从历史预测下一年新发疾病"的目标。推理时，只需在历史末尾追加 <NY> <INSTRUCT-DX> prompt，最后位置 logit 中疾病 token $k$ 的值即为该疾病的风险得分——避免 Monte Carlo 抽样多条完整序列的高昂代价（这是 Delphi 等先前生成式工作的标准做法）。

关键技术细节：分词器与序列设计¶

ReClaim 的核心创新之一是面向理赔数据特性设计的 tokenizer。

词表与 token 类型¶

词表共 20,865 个 token，分两大类（详见 Table A8）：

Static 静态 token：与时间无关，定位独立于事件流。包括 <SEX-1> / <SEX-2>（生物性别）、<INSTRUCT-DX>（post-training 指令标记）。
Temporal 时间 token：以月为粒度聚合，按时间戳排序。包括：
Time anchor：<DOBYR-1974>（出生年）、<AGE-44>（首次事件年龄）、<NY>（新年）、<ATT-N>（N 个月间隔，N ∈ 0..12）。
Enrollment：<ERLST-CCAE> / <PLANTYP-5> / <CAP-0> / <EGEOLOC-04> / <ERLED-...> 编码计划类型、自付/包付状态、地理位置等。
Clinical codes：<DX-MAJOR_E11> (ICD-10 三位主码) / <DX-MINOR_9> (细分码)，共 5474 个 DX；<PROC-...>（SNOMED CT / CPT-4）共 12,473 个；<RX-...>（RxNorm 成分）2473 个。
Cost token：100 个 <COST-XX> 表示费用（见下）。
Encounter-specific：<VT-outpatient>、<VT-pharmacy>、<VT-inpatient>、<DS-X>（出院状态）、<LS-1>（长住院 ≥7 天）。

时间分辨率：月聚合¶

理赔虽以"日"为粒度上传，但因报销延迟、批量上传，日级真实顺序失真。作者在 Day / Week / Month 三种聚合粒度做 ablation：

Figure A1: Coarser temporal-resolution encoding favors the Month variant

粒度	mean AUC	中位数
Day	59.73%	58.99%
Week	60.26%	58.82%
Month	61.61%	60.30%

Month 在 1043 个共有疾病上压倒 Day（59.9% endpoints）和 Week（60.9% endpoints），且生成最短序列、最低算力开销。结论：理赔数据的最佳粒度受数据噪声特性主导，比 EHR 更粗是合理选择。

临床代码标准化¶

朴素拼接 ICD-9-CM、ICD-10、NDC、CPT 会得到 180,000+ token——对自回归建模而言代价过高。作者通过两步压缩词表：

跨版本映射：ICD-9-CM → ICD-10-CM（CMS GEM）；CPT-4 / ICD-9-Proc / ICD-10-PCS → SNOMED CT（OHDSI Athena v20250827）；NDC → RxNorm 成分。
层级分解：ICD-10-CM 拆成 MAJOR（前 3 位，类目）、MINOR（细分）、SUFFIX（修饰），细到 DX-MAJOR_E11 + DX-MINOR_9 表达 "Type 2 diabetes mellitus, with unspecified complications"。同一编码可能出现一次 MAJOR + 0..2 次 MINOR，保证完整可追溯。

未匹配标准词表的代码记 NOMAP；多对多映射（如组合药物）用 <PROC-COMBSTART> / <PROC-COMBEND> 包裹原子分组。

费用 token：科学计数法离散化¶

费用跨 8+ 个数量级（pharmacy 几美元 → inpatient 几万美元）。作者将每个月内同 claim type 的 gross payment 求和，再四舍五入到一位有效数字，编码为两位"科学计数法风格"：

例：$2,400 → $2 × 10^3$ → token <COST-23>（首位 2 + 阶 3）； $859 → $9 × 10^2$ → token <COST-92>； $0 / 负值 → <COST-0>。

得到 100 个 cost token 覆盖到 $9 × 10^9$，对低值高分辨率、高值粗分辨率（信息密度匹配）。这种 log-discretization 让模型直接以 token 形式 ingest 费用，并在 expenditure 预测时通过抽样还原数值。

同月多事件确定性排序¶

理赔在同一月内可能有多事件。Table A7 定义两级排序：

事件级：anchor → enrollment-start → outpatient → pharmacy → inpatient → enrollment-end
事件内：<VT-...> → <DX-PRINCIPAL> → DX-MAJOR / DX-MINOR → <DX-SECONDARY> → secondary DX → <PROC-PRINCIPAL> → primary procedures → <PROC-SECONDARY> → secondary procedures → <DS-...> / <LS-...> → <COST-...>

这套规则确保同月数据有唯一可复现的 token 顺序，避免训练时同一病人因排序不同被当作多个样本。

数据规模¶

预训练语料：MarketScan 2008-2022，118,064,940 入组人；平均序列长 517 token、纵向跨度 45 个月（约 60.6B 训练 token，43.8B 临床事件）。
post-training：100K 入组人 prompt-response 对。
三大评估队列：1M MarketScan 内部 hold-out（追溯 + 前瞻），EHRShot 5,845 人，Yale New Haven 113,590 人。
一个独立 1M RWE 队列：用于因果推断研究。

实验设置¶

三大下游任务¶

Disease onset prediction：1,208 个 ICD-10-CM 疾病 endpoint。每个疾病构造 case-control 队列（按 age / sex 分层），prediction time = 案例首次出现 token 前 ∆ 天的最近事件位置；控制者匹配同一 age/sex 子群。在 ∆ ∈ {1, 6, 12, 60} 月四档评估，AUC 用 DeLong 方差。
Healthcare expenditure forecasting：预测下一历年总 gross payment，三种设定——连续回归（R²、MAE）、三类分层（$1500/$15000 阈值，44 / 91 percentile）、HNHC 二分类（$30000，95.6 percentile）。推理时抽样 20 条未来轨迹平均 cost token 反解 dollar 值。
RWE / propensity score 修正：在 1M RWE 队列内做 GLP-1 RA vs SGLT-2i vs DPP-4i 三药类的 target trial emulation；用 LASSO logistic 回归估倾向得分，对比"无 embedding / Delphi embedding / ReClaim-L embedding"的 1:1 匹配残余偏差。残差以 EASE（expected absolute systematic error）于负控结果（NCO，34 个 ICD-10 outcome 与治疗无因果关系）上度量。

Baseline¶

LightGBM（[23]）：每病一个 GBDT，输入是观察窗口内 demographic + 词袋频次（DX/PROC/RX）。监督式 supervised baseline。
Delphi（Nature 2025, [16]）：基于 transformer 的全 1000+ 病生成模型，按其公开实现 + 默认设置在完整 MarketScan 上训练。

主要实验结果¶

5.1 Disease onset prediction：在 1208 病上压倒所有 baseline¶

Figure 2: ReClaim outperforms LightGBM and Delphi across disease endpoints

追溯评估（2008-2022 hold-out, N=1208 endpoints）：

模型	mean AUC	rare disease (N=437)	显著性（Holm-adj 配对 Wilcoxon）
LightGBM	66.34%	LightGBM 基线	—
Delphi	69.36%	+Δ 不详	—
ReClaim-L	75.57%	+16.87pp vs LightGBM, +7.07pp vs Delphi	$P_\text{Holm}=1.9 \times 10^{-70}$（vs LGB） / $1.4 \times 10^{-61}$（vs Delphi）

按疾病配对：ReClaim 在 79.9% endpoints 击败 LightGBM（Δ +9.23pp，95% CI 8.56-9.91，$P=9.5 \times 10^{-126}$），在 92.0% endpoints 击败 Delphi（Δ +6.21pp，$P=1.1 \times 10^{-161}$）。

前瞻评估（2023+，N=1131）：

模型	mean AUC	rare disease
LightGBM	50.44%	—
Delphi	62.97%	—
ReClaim-L	67.89%	+19.42pp vs LGB, +5.34pp vs Delphi

时间漂移下 LightGBM 严重退化（66.34→50.44，跌 16pp）而 ReClaim 仅下降 7pp（75.57→67.89），说明序列预训练学到的是不依赖训练集时段的健康轨迹规律。

罕见病（prevalence < 5/10000）：ReClaim 在 437 个罕见疾病上把 LightGBM 拉开 16.87pp / Delphi 7.07pp——这是论文最显著的卖点之一，因 LightGBM 在罕见病上明显退化（数据稀疏 + 词袋失真）。

5.2 外部验证：跨数据源迁移¶

Figure 3: External validation on EHR-based datasets

ReClaim 完全在 claims 上训练，但作者把 EHRShot（OMOP CDM 标准格式）和 YNHH 转换到与 MarketScan 相同的 trajectory schema（unmapped 字段填 MISSING，cost 全部 MISSING），评估迁移：

数据集	LightGBM	Delphi	ReClaim-L
EHRShot (1024 共享病)	64.72%	69.03%	72.64%
YNHH (1149 共享病)	63.83%	67.69%	69.70%

ReClaim 在 EHRShot 上击败 LGB 64.7% endpoints（Δ +7.92pp）、击败 Delphi 72.9% endpoints（Δ +3.61pp）。绝对性能比内域略低（EHRShot 平均 -2.78pp，YNHH -5.87pp），原因是 hospital-based 招募使疾病平均流行率比 MarketScan 高 2.95×（EHRShot）/ 1.49×（YNHH），加上 EHR 编码 / 时机不同。

5.3 跨临床域、人口学、预测期分层¶

Figure 4: Discrimination performance across disease prevalence, clinical domain, demographic, and temporal strata

ICD-10 章节级：最强 V. Mental Disorders 82.03%，IX. Circulatory 77.40%，VI. Nervous 77.23%；最弱 VII. Eye 72.41%，XI. Digestive 72.68%，VIII. Ear 72.74%。慢性病、需长期监测的诊疗 pattern 在理赔中可见性高；急诊或依赖影像/病理的疾病可见性低。

年龄层：50 岁段 mean AUC 77.62% 最高，80 岁 72.67%、90 岁 66.25% 下滑——多病共存使 incident label 难与背景 utilization 区分。

性别：女性 75.96%、男性 74.72%，差异微小。

预测期：1 月 80.99% → 6 月 77.30% → 12 月 75.57% → 60 月 61.08%，单调下降但 5 年仍在 random 之上，说明轨迹表征同时支持近期风险分层和长期负担预测。

5.4 医疗支出预测¶

Figure 6: ReClaim improves next-year healthcare expenditure forecasting

追溯（2008-2022）：

任务	指标	LightGBM	ReClaim-S	ReClaim-L
Total expenditure regression	MAE	5,871	5,115	4,982 (15.1%↓)
	R²	0.2835	0.342	0.365 (+28.6%)
Three-class stratification	accuracy	0.529	—	0.660
	macro-F1	0.514	—	0.624
	macro-precision	0.606	—	0.654
	macro-recall	0.550	—	0.632
HNHC ($30K binary)	F1	0.422	—	0.462
	precision	0.564	—	0.636
	recall	0.338	—	0.363

前瞻（2023+）：MAE 7,881→7,293（-7.5%），R² 0.335→0.451（+34.6%）；HNHC F1 0.470→0.543（precision 0.627→0.670，recall 0.376→0.455）。

分层稳定性：跨支付方（CCAE / MDCR / MDCD）一致改善，MDCD（Medicaid）增益最大——商业保险与 Medicare 上 ReClaim 也都赢，但 Medicaid 群体的 utilization pattern 显然更受益于 large-scale 预训练；按 claim type，pharmacy 改善强，inpatient 改善弱（住院在 monthly 粒度内分布更不规则）。

5.5 Real-World Evidence：因果推断中的偏差控制¶

Figure 7: EASE across pairwise treatment comparisons

在 7,246 例 GLP-1 RA / SGLT-2i / DPP-4i 比较中，EASE（expected absolute systematic error，越低越好）：

配对	No embedding	Delphi	ReClaim-L
GLP-1 vs DPP-4i	0.16	0.15	0.04
GLP-1 vs SGLT-2i	0.10	0.09	0.01
SGLT-2i vs DPP-4i	0.16	0.19	0.08

ReClaim-L 把残余系统偏差降低 72%（vs Delphi，GLP-1 vs DPP-4i 配对从 0.16 → 0.04 = 75% 降幅；摘要里给的 72% 是平均）。Equipoise 在 GLP-1 vs DPP-4i 上从 No-embed 68.8% / Delphi 73.6% → ReClaim-L 89.7%，匹配后两组协变量分布重合度提升。

关键洞察：手工定义的临床协变量（age / sex / 用药史 / 共病）只能捕获有限的 confounding；foundation model 的 embedding 把潜在的 longitudinal confounding structure 编码进去，使倾向得分对未观测协变量也更鲁棒——把因果推断和 representation learning 在医疗领域桥接起来。

消融与分析¶

6.1 模型规模 scaling¶

Figure 5: Scaling and post-training improve disease onset prediction

Pre-training only（next-token loss 训练，没有 post-training）：

模型	mean disease-level AUC
ReClaim-S (140M)	60.50%
ReClaim-M (700M)	60.99%
ReClaim-L (1.7B)	61.81%

scaling 单调改善，但绝对增益相对温和（+1.31pp，10× 参数）。增益分布在多数 endpoints而非少数高频疾病——容量改善是系统性的。

6.2 post-training 的巨大贡献¶

ReClaim-L 在 disease onset 上的核心提升来自 post-training：

阶段	mean AUC
Pre-training only	61.81%
+ Post-training	75.57%
Δ	+13.76pp（95% CI 13.41-14.11，$P=7.1 \times 10^{-195}$）

post-training 在 97.9% endpoints 上改善，仅 25 个 endpoints 退化（Table A15 显示退化集中在 post-training 数据中代表性低的疾病：B81 hookworm、P13 birth injury、E68 等，prevalence < 0.01%）。

关键效率论点：

数据效率：100K 样本 + 1 个 epoch 即获得 +13.76pp；
推理效率：免去 Monte Carlo 多条完整序列采样，instruct token 直接读 logits；
范式转移：以前的 healthcare FM（Delphi、Curiosity）只靠 pretraining，论文证明类 LLM 的 SFT 范式同样适用于 healthcare claims。

6.3 Temporal resolution ablation（前文 Table 已述）¶

Day / Week / Month 比较中 Month 胜出，但最优粒度是 data- 与 task-specific 的——不能盲目套到 EHR 或更高分辨率源。

6.4 学到的疾病嵌入：UMAP 可视化¶

Figure 8: UMAP of learned disease embeddings (Delphi vs ReClaim)

将 ICD-10 疾病 token 的预训练 embedding 投影到二维：

Delphi：分布弥漫，章节边界模糊。
ReClaim：major ICD-10 章节占据明确区域，临床相关疾病（神经退行性、肥胖相关、女性生殖肿瘤、肾实质病等）形成紧凑邻域；同时在 metabolic-cardiovascular、respiratory-infectious 间保留跨章节连续性。

定性表明 claim-scale 预训练同时编码语义相似性和共现纵向上下文，胜过纯疾病-incidence 建模。

与已归档相关工作的对比¶

文档库内未找到与 ReClaim 在"healthcare claims foundation model + 大规模预训练 + 任务后训练"问题与解法双同构的论文（archive 主要为推荐系统方向；scaling-laws 类论文虽与 §6.1 中的 scaling discussion 有共性，但问题域与解法骨架均不同构）。本步骤跳过。

讨论与局限性¶

核心贡献¶

首次证明 administrative claims 是 healthcare foundation model 的可扩展基质——尽管缺 EHR 的临床细节，但人群规模 + 标准化 + 时间锚清晰给出更稳定的纵向轨迹。
统一表征：单个 1.7B 模型同时支持 1208 病预测、支出预测、RWE 因果——多任务通用性比单一 task-specific GBDT / transformer 更广。
Post-training 范式引入 healthcare：与 Delphi / Curiosity 等纯 pretraining 工作不同，instruct token + response-region 监督在 1 epoch + 100K 样本下贡献 +13.76pp，把 LLM 的 SFT 范式有效迁移过来。
representation-based RWE：把 foundation model 的 embedding 直接喂给倾向得分模型，使 EASE 大幅下降——为 representation learning 与 causal inference 在医疗领域的融合提供了可扩展路径。

设计上的精妙之处¶

Tokenizer 三选（temporal resolution、hierarchical code decomposition、cost discretization）都体现"不要直接套 LLM 范式，要根据数据本质做"的实证主义：月聚合让噪声降低、ICD-10 三级分解把 18 万 token 降到 5 千、scientific-notation cost 把跨 9 数量级数值压成 100 个 token。
Anchor token 的相对/绝对时间双重编码：<DOBYR-1974> + <AGE-44> + <NY> + <ATT-N> 同时给模型相对（间隔）和绝对（出生年、年份）时间信号，比纯位置嵌入更准。
z-loss 正则化：稳定大规模训练，无需复杂 loss curve 调参。

局限性¶

临床细节缺失：claims 没有 lab、影像、临床记录，对依赖这些信号的 endpoint（眼科、消化科、影像确诊）效果较差（章节 AUC 显示）。
编码与报销激励偏差：claims 编码受 billing 实践驱动，可能引入系统偏差（如多记并发症提高报销）。
MarketScan 队列偏差：仅商业、Medicare、Medicaid 入组人，未投保人群被排除；按入组期切片而非人生周期，不能跨多个保险窗连接同一个人。
支出与给付方耦合：cost token 受合同价、共付率、福利结构影响，跨支付方系统迁移性受限。
endpoint 定义粒度：用 ICD-10 三位主码做 broad benchmarking，与 PheCode（[25]）等 phenotype 系统相比临床一致性不足；后续可换更精细 phenotype。
评估覆盖：尚未评估 fairness、interpretability，临床/研究部署仍需更多公平性 / 安全性研究。

未来方向¶

与 EHR、影像、基因组数据融合的多模态 healthcare FM。
foundation model representation 进入 causal inference 框架的系统化研究。
模型 interpretability + 公平性（不同人群子群）。
将 1.7B 推到更大规模 / 更长上下文（max pos 4096 在长病史情况下可能受限）。

工业落地价值¶

虽然论文背景偏学术（Yale Medical / Trieste / NIH），但应用场景极具产业意义：

保险公司：risk adjustment、HNHC 识别（论文 F1 0.422→0.543）、产品定价。
药企：target trial emulation、市场准入证据（RWE）。
医院系统：长期风险分层、资源规划。
1.7B 在合理硬件上 inference 友好，post-training 数据效率高（100K 样本足够），具备真实部署条件。

核心贡献总结¶

ReClaim 把 healthcare foundation model 的边界从"主要在 EHR 上做疾病预测"扩展到"在全美 200M 人理赔上做疾病 + 支出 + 因果推断的统一表征"。三个最值得借鉴的设计点：

数据本质驱动的 tokenizer：月聚合 + 层级 ICD 分解 + 科学计数费用，把 180K 词表压到 21K 同时保留全部信息。
Pretraining + post-training 两阶段：61.81% → 75.57% 跳跃式改善（post-training 仅 100K 样本），证明 LLM SFT 范式在 healthcare claim FM 上同样高效，且通过 instruct token 免去 MC 抽样推理成本。
Foundation model embedding 用于因果推断：EASE 0.16 → 0.04，把 representation learning 嵌入 RWE 流水线。