One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving¶

Wenjun Yu (HKBU)、Shuguang Han (Alibaba)、Amelie Chi Zhou (HKBU)。arXiv 2605.04450, 2026-05-06。

研究动机与背景¶

生成式推荐（GR）serving 的双缓存矛盾¶

生成式推荐（Generative Recommender, GR）以 Meta HSTU [53] 为代表，已在工业级推荐系统中广泛落地（参考 [18,20,26]）。HSTU 在线推理由两阶段组成，且对 GPU 内存系统提出截然不同的需求：

Embedding Table Lookup：从分片于 CPU DRAM 的大型 embedding 表（生产规模 96TB Model-F、200TB+ Persia [25,31]）取出与 item ID、类别、上下文等对应的稠密向量；表规模远超单节点 GPU HBM 容量，因此 EMB 表只能 sharded 到 CPU memory，命中失败时通过 PCIe / RDMA 拉取，是端到端延迟的主要构成。
Transformer Block 计算：堆叠多头自注意力对长用户行为序列（10K+ items）执行 forward pass，工业部署中 KV 状态需要 保留在 HBM 中作为 KV cache 以避免对历史序列重复重算 attention。

GR serving 与 LLM serving 的关键差异在于：LLM 自回归解码时 KV 移动可与 decode 计算 overlap，而 GR 仅有一次 forward pass，KV CPU offloading（如 [13,36]）不可行，KV state 只能驻留 GPU HBM。结果是同一块有限的 GPU HBM 上，EMB 热缓存（减少 CPU→GPU PCIe 传输）和 KV 缓存（避免 attention 重算）形成直接资源争抢。

Figure 1: HSTU inference latency under different settings — (a) sequence 长度从 2048 增到 20480 时 EMB Lookup 占比线性增长，长序列下 EMB 阶段单独贡献超过 40% 总延迟；(b) embedding table 数从 1 增到 25 时 EMB Lookup 同样线性增长。

Fig. 1 的 production trace 揭示了两点关键事实：

EMB lookup 在长序列、多表场景下成为主导瓶颈。在 sequence length=20480 时它单独占总推理时间 40% 以上；当 embedding table 数从 1 表增到 25 表，EMB 时间近似线性增长。生产部署常见数十至数百张 embedding 表 [1,2,11,52]，问题被放大。
KV 计算同时是显著开销。长序列 attention 重算成本随 (L^2/F_{\text{gpu}}) 增长。

因此 EMB Cache 与 KV Cache 都对端到端延迟有关键贡献，两者共抢一块 HBM，必须联合而非独立优化。

HSTU 模型结构与 serving 架构¶

Figure 2: HSTU Model Structure — Item ID / Item Feature / Context EMB Tables 走 1 item × N×K parallel EMB lookups 拼接 + Position Encoding + Stack T tokens（100MB+/req）后送入 ×N 层 Multi-Head Self-Attention + Feed-Forward Network。

HSTU 把推荐问题重构为序列转换：以历史 user-item interaction 序列为输入，预测下一个 item / item ranking。其层叠 self-attention 在长行为历史（modern GR 通常 10K+ items）上工作，必然带来高计算和高内存成本。

Figure 3: HSTU Online Inference Serving Architecture — Request Router 通过 KV/EMB cache info、负载状态和 node states 选择目标 serving node；每个 Node 含 CPU DDR Memory（EMB Table Shard 1/N，PCIe 与 GPU 互联）和 GPU HBM Memory（EMB Cache + KV Cache + HSTU Transformer Blocks），集群间通过 RDMA 共享 EMB shard。

生产 GR serving 集群（如图所示）通常采用双层内存层级：

Request Router：根据 KV cache 命中、EMB cache 命中、节点负载等信息把每个请求路由到一个 serving node。
Serving Node：每节点持有 1) EMB cache（GPU HBM 上的 hot embeddings），未命中时从本地 CPU shard 或远端节点 RDMA 拉取；2) KV cache（GPU HBM 上的 attention KV 状态）。

请求处理 4 阶段：(1) Route：路由器选 node；(2) EMB lookup：缺失时从本地 / 远端取；(3) Compute：GPU 跑 HSTU forward，复用本地 KV 与已缓存 embeddings；(4) State sync：完成后异步把 cache residency 与 load 上报路由器。

静态分配的损失：实测 20–30% 的潜力被埋没¶

Figure 3 (重号 Fig.4): Normalized latency vs. EMB–KV allocation ratio — (a) 同 workload 下三种序列长度（Short 2048 / Medium 10240 / Long 20480）的最优 α 分别约为 0.25 / 0.40 / 0.55；(b) 同序列长度下三种 workload 场景（Steady / Trend / Burst）最优 α 分别约 0.20 / 0.40 / 0.55，所有曲线呈"U"型且最低点出现在中段而非两端。

作者把 GPU HBM 中 EMB cache 占比记作 (\alpha)，扫描 (\alpha \in [0,1]) 测端到端延迟（Fig. 4），发现：

端到端延迟在中间某个 (\alpha) 取最小，而不是任一极端：把 HBM 全给 EMB 会让 KV 失去复用并迫使重算 attention；全给 KV 则 EMB miss 飙升，PCIe 传输堵塞。
最优 (\alpha^) 随 sequence length（短→长 0.20→0.55）和 workload（Steady→Burst 0.20→0.55）剧烈漂移*，幅度可达 0.35。
跨 workload 的最优分配差异留下了 20–30% 的延迟优化空间；任何静态 (\alpha) 都不可能在所有 regime 下都接近最优。

Figure 4 (重号 Fig.5): Rapid production fluctuations in hot-user request share and mean sequence length — 在 100 个 5s window 内 hot req ratio 与 mean seq length 都频繁剧烈震荡（hot req 范围 ~0%~80%，mean seq length 8~14）。

Fig. 5 用 5s 窗口刷新生产 trace 显示，工作负载组成（hot user 比例、mean seq length）会在数十秒内发生剧烈变化，意味着 EMB-KV 管理需要在线快速适应而不能依赖固定分配。

三大核心挑战¶

作者把诉求归纳为三类：

Multi-factor workload modeling：最优 (\alpha^*) 由 hot-user 比例、KV 命中率、EMB 命中率共同决定（合计 >60% 决策重要性），简单启发式不够。
Fast and non-intrusive adjustment：哪怕 10% 的 (\alpha) 调整都可能触发 (\sim)8 GB H2D 数据移动；该流量与延迟敏感的 prefill embedding 传输共享 host-to-device PCIe 路径。一次 burst 还能触发 (\sim)10 GB/s H2D 流量，在 30–50 ms P99 SLO 下足以打爆 SLO。
Joint-aware scheduling：内存分配跨节点异质后，EMB transfer 成本因节点而异，KV-only 路由 [44] 不再够，必须联合 EMB-KV-aware 调度。

核心方法 / HLEM 系统架构¶

HLEM (HBM-level EMB-KV Latency Manager) 由三个紧耦合组件构成，对应 (IV)-A 至 (IV)-C 三节：

Figure 5 (重号 Fig.7): Overall architecture of HLEM — Request Router 持有 KV+EMB Cache State，沿 KV/EMB 命中信号动态路由；每个 Serving Node 内部 Smart Allocator 用 metrics + α 信号驱动 Memory Manager 调整 KV/EMB 比例（图示 KV(35%)/EMB(65%) 与 KV(65%)/EMB(35%) 两个节点形成异质分配）。

IV-A SmartAllocator: 自适应 EMB–KV 内存分配¶

MDP 公式¶

记 GPU 显存预算为 (M)，EMB 占比 (\alpha \in [0,1])，则 (M_{\text{Emb}} = \alpha M)，(M_{\text{KV}} = (1-\alpha)M)。在每个决策 epoch (t) 选择最优 (\alpha_t^*) 最小化端到端 P99 延迟：

$$\alpha_t^* = \arg\min_{\alpha\in[0,1]} \ell(\alpha, s_t) \tag{1}$$

把动态 EMB-KV 内存分配建模为 MDP ((\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma))，目标是学习策略 (\pi(a_t | s_t)) 最大化期望折扣回报：

$$J(\pi) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t\right] \tag{2}$$

由于内存分配会通过 cache refill / eviction / 之后请求复用产生延迟反馈，单步即时指标无法刻画其影响，所以必须用 RL 而非纯启发式。

状态、动作、奖励空间¶

状态：决策 epoch (t) 上观察 7 维向量 (s_t = (h_t, k_t, e_t, L_t, v_t, \alpha_t, p_t) \in \mathbb{R}^7)，分别表示 hot-user 请求比例、KV 命中率、EMB 命中率、平均序列长度、SLO violation 比例、当前 EMB 占比、归一化 P99 延迟，所有特征归一化到 [0,1]。

动作：增量更新 (a_t \equiv \Delta\alpha_t)，使用小动作集合：

$$\mathcal{A} = \{\pm 0.06, \pm 0.04, \pm 0.02, 0\} \tag{3}$$

下一时刻分配为：

$$\alpha_{t+1} = \text{clip}(\alpha_t + \Delta\alpha_t, \alpha_{\min}, \alpha_{\max}) \tag{4}$$

(\alpha_{\min}=0.1,\alpha_{\max}=0.9) 防止某一缓存被完全饿死，小步增量减弱瞬态 cache imbalance。

奖励：决策窗口结束后

$$r_t = \mathbb{E}_{\tau \sim \mathcal{T}_t}\left[\mathbb{1}[d_\tau \le \tau_{\text{SLO}}]\right] - \lambda \cdot \max(0, \ell_t - \tau_{\text{SLO}}) \tag{5}$$

第一项是窗口内请求的 SLO 满足率（QoS），第二项以 (\lambda = 1/\tau_{\text{SLO}}) 量级惩罚 P99 超出。两者的平衡解决了"只优化 SLO 率会忽视 tail spike，只优化 P99 会忽视整体服务质量"的双重病态。

三层控制器：Decision Loop + Learning Loop¶

Figure 6 (重号 Fig.8): Two-loop controller architecture in SmartAllocator — System State (s_t) 进入 Decision Loop（Online Adapter + PPO Agent + Recovery Controller，输出 α_t），Inference System 报回 KV/EMB hit 与 P99 / QoS / α 至 Replay Buffer / Reward 进入 Learning Loop。

SmartAllocator 把问题拆成 Decision Loop（serving 路径，低开销）和 Learning Loop（后台维护，更新 online adapter）。每 5s 决策一次，三种信号合成新动作：

$$\alpha_{t+1} = \text{clip}(\alpha_t + \Delta\alpha_{\text{ppo}} + \Delta\alpha_{\text{adapt}}, \alpha_{\min}, \alpha_{\max}) \tag{6}$$

或在 burst 触发时由 Recovery Controller 覆盖。三个组件功能如下：

(1) PPO Agent — Base Frozen Policy

用 PPO [40] 离线在历史 trace 上训 100 episodes 收敛。Actor-Critic 结构，64/128 隐层的两层 MLP，参数量 <25K。
选择 PPO 而非简单 DQN：分配的延迟反馈是延迟的，需通过 cache refill / eviction / reuse 才会显现，单步目标会失真。
部署后冻结避免线上不稳定，仅作 dominant control signal (\Delta\alpha_{\text{ppo}})。

(2) Online Adapter — Residual Correction

解决离线-在线分布差。3 层 MLP（5 → 16 → 1），输入维度 5（与 PPO 输入子集），输出残差 (\Delta\alpha_{\text{adapt}})，零初始化。
维护 P99 延迟的 EMA (\ell_{\text{EMA}})，自适应学习率：

$$\eta_t = \eta_0 \cdot \frac{|\ell_t - \ell_{\text{EMA}}|}{\tau_{\text{SLO}}} \tag{7}$$

(\eta_0 = 10^{-3})。每个 decision window 把 ((s_t, \Delta\alpha_{\text{adapt}}, r_t, \ell_t)) 推进一个大小 1K 的 FIFO replay buffer，bounded memory 同时缓解 catastrophic forgetting。

(3) Recovery Controller — Burst Handling

维护近 10 个 epoch 的 P99 延迟 EMA (\ell_{\text{EMA}}) 与标准差 (\sigma_{\text{EMA}})。当：

$$\ell_t \gt \ell_{\text{EMA}} + 3\sigma_{\text{EMA}} \tag{8}$$

判定 burst 事件。此时绕过正常更新，直接采用保守策略：把 hot-user 比例超过 (\rho^* = 0.2) 时往 KV 偏移，避免 H2D 路径上的 burst 拥塞。

IV-B Memory Manager: 非干扰式分配落地¶

Memory Manager 处理 SmartAllocator 输出的新 (\alpha) 时面对一个根本张力：5s 一次的频繁调整会引入 H2D refill 流量，与延迟关键的 EMB-miss 传输竞争同一条 PCIe 路径。一次 4% 调整对 80GB GPU 大约产生 3.2GB H2D refill；这是真正的瓶颈。

HLEM 把"分配变更"分成逻辑变更（页表/元数据）和物理 refill（PCIe）两步，分别处理两个 PCIe 相关挑战：

(C1) Embedding-only boundary adjustment（zero-copy 分配）¶

为避免移动驻留 KV state，HLEM 强制只调整 EMB cache 边界，KV 物理上不动。具体做法：

KV cache 组织为 paged block pool（vLLM [23] 风格），每块由显式 free list + page-table metadata 管理。
EMB cache 实现为 contiguous LRU-managed slab，由 page 粒度反向 backed。
当 (\alpha) 增大：EMB 调用 alloc_page() 从 KV 池抓 free pages，不触碰驻留 KV entries。
当 (\alpha) 减小：调用 evict_lru_entries() 回收 EMB pages，通过 free_page() 还回 KV free list。

由于全部是 metadata-only 操作，page tables 在 1 µs 内更新，调整本身不引起任何 cudaMemcpy / pipeline stall。

(C2) Background refill with bandwidth throttling¶

新分配的 EMB 容量需要被有用 cache content 填满，这是 H2D 流量。要避免这股流量挤压 inference path：

HLEM 通过 cudaMemcpyAsync 在专用高优先级 CUDA stream (cudaStreamCreateWithPriority) 上发起 refill，与默认 compute stream 解耦。
进一步根据当前 EMB-miss H2D 流量throttle background refill bandwidth。

Figure 7 (重号 Fig.9): HLEM overlaps EMB-miss HTOD and throttles background reallocation traffic — 一段 PCIe 带宽时间序列上前景 EMB-miss HTOD（深色）和后台 Background Reallocate（浅色）共享通道；HLEM 监测到前景流量增大时把 background traffic suppress 到接近零。

实测：3.2 GB 的 H2D refill 在 ~1 s 内完成，allocator 决策间隔 5 s，因此 refill 成本能完全被摊销而不影响端到端延迟。

IV-C KV-EMB-Aware Request Routing¶

动态分配让节点不再可互换：相同请求在不同 node 上因 KV 驻留 / EMB 命中 / load 不同而经历不同延迟。仅 KV-aware（如 [44]）忽视 EMB miss → recomputation 风险；仅 EMB-aware（如 [24]）则牺牲 KV 复用。HLEM 用 cost-based routing 显式估两种 miss cost。

Algorithm 1 — KV-EMB Aware GR Request Routing¶

Input: request R from user u; candidate nodes N;
       miss costs C_kv, C_emb, C_ld; overload threshold τ; affinity bonus ε
Output: target node n*

Router maintains per-node:
  Aff[u]: previous routed node per user
  KVM[n]: KV cache HashMap  u → {0,1}
  EMBM[n]: EMB cache state HashMap
  Prof[u]: top-K hot shards for u; l(n): load pressure

1: n_aff ← Aff[u]
2: for each node n ∈ N do
3:   h_kv  ← KVM[n].get(u)                    ▷ KV hit rate
4:   h_emb ← |Prof[u] ∩ EMBM[n]| / |Prof[u]|  ▷ EMB hit rate
5:   score(n) ← w_kv h_kv + w_emb h_emb + w_ld(1 - l(n)) + b(n)
6: n* ← argmax_n score(n)                     ▷ Best node
7: if l(n*) > τ then
8:   n* ← argmin_n l(n)                       ▷ Overloaded: fall back to least-loaded
9: Dispatch R to n*; Update Aff[u] ← n*; Async update KVM[n*]

每节点打分：

$$\text{score}(n) = w_{\text{kv}} h_{\text{kv}} + w_{\text{emb}} h_{\text{emb}} + w_{\text{ld}}(1 - l(n)) + b(n) \tag{9}$$

亲和性 bonus：

$$b(n) = \epsilon \cdot \mathbb{1}[n = n_{\text{aff}}]$$

软偏向上次路由的 node。三个权重 (w_{\text{kv}}, w_{\text{emb}}, w_{\text{ld}}) 由 offline-profiled miss cost (C_{\text{kv}}, C_{\text{emb}}, C_{\text{ld}}) 自动归一化得到（(w_i = C_i / Z, Z = C_{\text{kv}} + C_{\text{emb}} + C_{\text{ld}})），不需手调。实现取 (\tau = 0.85)，(\epsilon = 0.05)，shard-profile size (K = 20)（对 K=10..50 不敏感，覆盖至少 95% 单用户 EMB 访问）。

Residency Tracking：路由器维护轻量 metadata。KV residency 按用户级跟踪（user ID → presence bit hashmap）；EMB residency 按 shard 级跟踪（resident embedding-shard identifiers 集合）。每请求 (h_{\text{emb}}) 通过 user 预算的 top-K 与 node 的 EMB-residency set 求交集（(O(K))）。结构异步、off 关键路径更新；KV-residency table 在 32-node 下 <24 KB / node，(\alpha = 0.5) 时单节点 typically 持有 3K–6K KV 项。

Figure 8 (重号 Fig.10): Routing score breakdown across three routing methods — EMB-Aware 0.29, KV-Aware 0.38, GR-Aware 0.47；分数分解为 Load Score / KV Hit Score / EMB Hit Score 三部分。

GR-Aware（HLEM）联合得分 0.47 高于 EMB-Aware 0.29 和 KV-Aware 0.38，证明同时纳入两侧成本能避免单维 routing 的 myopic。

实验设置¶

硬件 & 系统栈¶

集群：32 节点，每节点 8× NVIDIA A100 80GB (HBM2e)，AMD EPYC 9684X 双路（共 2TB DDR5），200 Gbps InfiniBand HDR。共 5TB EMB tables。
软件：基于 open-source HSTU 框架 [53] 实现，user-request 粒度的连续 batching（参考 Orca [49]）；FBGEMM [21] 优化 embedding kernel，NCCL [33] 集合通信。

模型配置¶

HSTU 3-layer（ranking 阶段轻量级）
HSTU 6-layer（retrieval 阶段重量级）
两者均 512-dim item embedding。

数据与负载¶

数据集	用户数	Top 5% 用户请求占比
Taobao [4]	0.98 M	18%
Amazon Video-Games [19]	2.76 M	24%
Amazon Books [19]	10.3 M	38%

按真实 access frequency 重放，user profile 拉伸到 5K–15K tokens，每请求检索 100 candidate items。Embedding 表用 NVIDIA DLRM scripts [3] 扩到 5TB，保留 Zipfian frequency 分布——这点对 HBM miss 与 EMB-KV 敏感性至关重要。

三种 workload regime：

Steady：均匀到达 + 稳定 hot-user 占比
Trend：hot-user 比例随时间渐变，测 SmartAllocator 跟踪漂移最优
Burst：Poisson hot-user 突增持续 3–5 个 decision window，测尾延迟鲁棒性与 Recovery Controller

Baselines¶

第一组（serving system 端）：在固定 (\alpha^*) 下隔离测分配控制器外的系统优化。

KV-Opt：KV-centric serving（如 [37,42,44]），(\alpha = 0)（HBM 全给 KV）。
KV-EMB-Opt：在 KV-Opt 上加 ML-guided EMB prefetching [38]，固定 (\alpha^) 由 grid search ({0.0, 0.1, ..., 1.0}) 离线选最低 P99——最强静态配置*。

第二组（动态分配控制器）：固定 serving infra 比较控制器。

经典：PID [5]，Bayesian Optimization (BO) [41]，MILP [17]。
预测式 ML：XGBoost [9]，LSTM [51] (含 OFT/RC 增强变体)。
PPO-only：HLEM 把 OnlineAdapter 与 RecoveryController 关掉。

指标¶

End-to-end serving：P99 latency (ms) 与 QoS（30 ms SLO 满足率）。
Allocation quality：oracle ratio gap (|\alpha_t - \alpha_t^|)，(\alpha_t^) 由 epoch 内全 workload trace 在 ({0,0.01,...,1.0}) 网格穷搜得到。

主要实验结果¶

端到端 P99 与 SLO 满足率¶

Figure 9 (重号 Fig.12): SLO satisfaction rate of three methods across three production-scale datasets under 30 ms latency SLO — Steady 三个数据集上 HLEM ≥ 99.6%，Trend 仍 ≥98.9%，Burst 93.5–95.3%；KV-EMB-Opt 在 Trend 降到 83–91%，Burst 仅 56–78%；RACER 进一步降低。

P99 latency（Fig. 11，正文表）：

Setting	KV-Opt	KV-EMB-Opt	RACER (HLEM)
HSTU 3-layer / TaoBao	33	28	19
HSTU 3-layer / Games	38	32	21
HSTU 3-layer / Books	38	35	23
HSTU 6-layer / TaoBao	44	38	25
HSTU 6-layer / Games	51	44	27
HSTU 6-layer / Books	46	46	29

（数据均为 ms。HLEM 在 30 ms SLO 下全部满足；KV-EMB-Opt 在 6-layer 上全数据集超出。3-layer 上 HLEM 比 KV-EMB-Opt 降低 P99 25–34%，6-layer 上 28–38%；Amazon Books 上提升尤为明显，因为 hot-user 比例 38% 让 EMB-KV 争抢更剧烈。）

SLO 满足率：HLEM 在 Steady 与 KV-EMB-Opt 差距小（HLEM ≥99.6%，KV-EMB-Opt 92.8–99.4%）。在 Trend 下后者降到 83–91%，HLEM 维持 ≥98.9%。Burst 下静态法降至 56–78%，HLEM 仍 93.5–95.3%。HLEM 的 run-to-run variance 仅 1.2 ms，说明它是稳定降低尾延迟而非简单平移均值。

系统级消融¶

Figure 10 (重号 Fig.13): System-level ablation of HLEM — KV-EMB-Opt vs +Allocator vs +Allocator+Router vs RACER 在三种 workload × 三个数据集上的 P99 柱状图，每加一层组件 P99 持续下降。

+SmartAllocator 单独相对 KV-EMB-Opt（固定 (\alpha^*)）已降低 P99 ~20%，证明自适应分配本身解决双瓶颈问题的主要部分；提升在 Burst 下最大，因为 fixed allocation 在 active cache 切换时 under-provisions。
+Router 进一步降 10–25%：通过把 KV residency 集中到回访用户同时保留 embedding locality，每节点 cache 更友好。

Allocator 内部消融¶

Figure 11 (重号 Fig.14): Allocator-internal ablation under a representative burst — PPO only 稳态 ~33 ms 但 burst 峰 ~46 ms；+OnlineAdapter 稳态降到 ~23 ms 但 burst 仍 ~34 ms；完整 SmartAllocator 维持稳态并把峰压到 ~31 ms 后快速收尾。

PPO-only：steady ~33 ms，burst 反应慢，峰值 ~46 ms。
+OnlineAdapter：稳态降到 ~23 ms，但 burst 不灵敏。
+RecoveryController（完整）：稳态保留，burst 峰被压到 ~31 ms 并快速回落。

与 α 控制策略的对比¶

Method	Dec. Time	Steady gap	Trend gap	Burst gap
Static-α=0.1	0 s	0.292	0.341	0.331
Static-α=0.3	0 s	0.092	0.141	0.131
Static-α=0.5	0 s	0.108	0.061	0.072
Static-α=0.7	0 s	0.308	0.259	0.269
Static-α=0.9	0 s	0.508	0.459	0.469
PID	~1.2 s	0.094	0.108	0.167
XGBoost	~3 ms	0.053	0.083	0.156
BO	~7 s	0.061	0.089	0.174
MILP	~36 s	0.044	0.068	0.161
LSTM	~5 ms	0.051	0.083	0.156
LSTM+OFT	~6 ms	0.043	0.067	0.128
LSTM+OFT+RC	~6 ms	0.041	0.069	0.051
PPO-only	28 µs	0.043	0.051	0.042
SmartAllocator	32 µs	0.019	0.023	0.031

关键观察：

静态 (\alpha) 全 regime 都不行——确认固定分配根本不足。
经典法（PID/BO/MILP/XGBoost）目标错配：它们优化单步指标，可分配的延迟反馈跨多个 epoch 才显现，反应过慢或过激。BO 7 s、MILP 36 s 的决策延迟使其在线不可用。
LSTM 系预测用时序模型部分缓解，加 OFT (Online Fine-Tuning) 与 RC (Recovery Control) 在 Burst 上把 gap 降到 0.041–0.069，但仍不能完全打破响应性 / 长 horizon 控制的权衡。
PPO-only 已显著好（28 µs），SmartAllocator 把 gap 进一步压到 Steady 0.019 / Trend 0.023 / Burst 0.031；决策时间 32 µs，控制开销最低。

Control Overhead：OnlineAdapter 训练把峰值 CPU 利用率从 20% 推到 46%，平均 32%，全部跑后台不影响 serving。Router 端 affinity table + KV residency 32 节点共 <100 KB / node，metadata cost 可忽略。

Tracking offline-optimal α*¶

Figure (Fig.15): RL-controlled α_RL versus offline optimal α* over a four-hour window (Amazon-Books) — 散点为 hot-user 请求 regime（Steady=绿/Trend=蓝/Burst=红），Warmup 后 α_RL 紧跟 α*；Steady 下 hot ~0.20 时 α_RL 上升到 0.51；Trend t≈130，hot ~0.32 时降到 0.38；Burst t≈175 hot ~0.50 进一步降到 0.26。

Warmup 区域过后，(\alpha_{\text{RL}}) 紧跟 (\alpha^)，平均绝对误差 0.023——没有任何未来 workload 知识*。学到的 policy 对 regime 表现非对称：

Steady（hot ratio ≈0.20）：(\alpha_{\text{RL}}) 升到 0.51 偏向 EMB 局部性（EMB/KV hit 55%/21%）。
Trend（hot ratio ≈0.32）：降到 0.38 平衡两侧（50%/18%）。
Burst（hot ratio ≈0.50）：进一步压到 0.26，付 9% EMB-hit 减少换取 25% KV-hit gain 防 SLO violation。

这反映 KV 和 EMB 退化的非对称特征：KV 一旦低于 working set 就断崖式下降，而 EMB 是渐进退化；hot-user 比例升高时 KV working set 超线性扩张，每个 KV miss 成本被放大。

Sensitivity to user hotness & cluster scale¶

Figure (Fig.16): Average α_RL under varying cluster scale (2–32 nodes) and hot-request share (0.05–0.60) — 颜色三档：All-EMB（左上）→ Split（中央）→ All-KV（右下）；2 节点低 hot 时 α_RL=1（all-EMB），32 节点高 hot 时 α_RL≈0.23（all-KV）。

热占比上升 → α_RL 下降以保 KV；集群规模上升 → embedding 表 sharded 到更多节点，单节点 EMB working set 缩小，α_RL 进一步降。Heatmap 跨越从 EMB-dominated regime（2 节点 hot 0.05，α_RL=1）到 KV-dominated regime（32 节点 hot 0.60，α_RL≈0.23），证实没有静态 α 在所有 regime 都合适。

Weak-scaling Throughput¶

Figure 12 (重号 Fig.17): Weak-scaling throughput (QPS) on three datasets as node count scales from 2 to 32 — RACER（橙）、KV-EMB-Opt Static Best-α（蓝）、Ideal linear（虚线）；32 节点 RACER 比 KV-EMB-Opt 在 TaoBao +27%，Games +36%，Books +23%。

固定每节点 embedding data，集群从 2 扩到 32 节点，HLEM 维持近 linear scaling。32 节点 throughput 优于 KV-EMB-Opt 27%/36%/23%（TaoBao/Games/Books）。差距随集群规模放大，因为静态法跨节点协同代价升高，HLEM workload-aware 分配 + 路由减少跨节点 embedding 流量。

硬件普适性讨论¶

GR serving 双瓶颈本质由比值 (F_{\text{gpu}} / B_{\text{pcie}}) 决定。A100 yields 12.5，H100/H200 15.5，仅 24% 提升——bandwidth 仍是 first-order constraint。即便 H200 有更大 HBM (141 GB)，仍无法消除 EMB-KV 零和 trade-off：hot embeddings 仍超 HBM 一个量级以上，序列 8K-15K 的 KV (60–184 MB / 用户) 仍把 8-GPU 节点限制到 ~3K-6K 活跃用户。HLEM 设计在未来 GPU 世代仍 relevant。

讨论与局限性¶

核心贡献¶

Dual-bottleneck characterization：首次系统刻画 GR serving 中 EMB cache 与 KV cache 共抢 HBM 的张力，证明 (\alpha^*) 跨 workload 漂移高达 0.35，留下 20–30% 优化空间。
Adaptive EMB–KV allocation：3 层 PPO + Online Adapter + Recovery Controller，决策开销仅 32 µs，offline-optimal gap 仅 0.019–0.031（vs 静态最优 0.061+，PID 0.094+）。
Non-disruptive memory adjustment：用 paged KV pool + contiguous EMB slab 结构把分配变更分成 zero-copy 边界更新与 throttled background refill，避免 H2D PCIe 干扰关键路径。
EMB-KV-aware routing：基于 offline miss cost 自动归一化权重的 cost-based scoring，比 KV-only / EMB-only routing 多 15–20% 延迟节省。

值得借鉴的设计¶

三层控制器分工：base policy（稳定）+ residual adapter（在线对齐）+ recovery controller（rare-event 保护）的范式可推广到任何"多目标 + delayed reward + 偶发 burst"的工业控制问题。
Page-pool + contiguous slab 混合内存抽象：用 KV pool 解耦逻辑分配与物理 refill，是 vLLM PagedAttention 思想在 GR serving 双 cache 场景的有效适配。
决策周期 5s + refill ~1s 的时间常数选择有意思：决策频率与 refill 完成时间的比例确保不会出现 update 拥塞。
Hot-user 比例作为 burst 检测信号：相对 raw latency (3\sigma) 检测多了一个语义维度。

局限性 / 争议点¶

离线 PPO 训练依赖 100 episodes 历史 trace：跨业务、跨地区迁移时如何 cold-start 没讨论。
(\alpha_{\min}=0.1, \alpha_{\max}=0.9) 是 hand-set，跨场景可能需要重调。
Routing 权重 (w_{\text{kv}}, w_{\text{emb}}, w_{\text{ld}}) 由 offline-profiled cost 推得——profile 失效时 routing 可能 myopic，需要在线重 calibrate。
Burst Recovery 用 ρ* = 0.2 与 (3\sigma) 阈值全部 hard-coded，对 dataset 较敏感。
单 metric 优化（P99 latency）忽视 throughput cost trade-off 的 explicit 表达；reward 中只用 SLO + tail penalty 没显式包含 cost。
未与 ULTRA-HSTU [62] 等 attention sparsity / 混合精度方案 stack——属正交工作但缺 stack 后联合效果。

工业落地价值¶

针对的是真实工业部署中"30–50 ms P99 SLO + 5TB EMB + 32-node A100 集群"的具体场景，5TB embedding tables、200 Gbps InfiniBand、双路 EPYC 9684X 等参数明显参考 Alibaba（注意第二作者 Alibaba 隶属）等大厂生产基线。
"Company X" 匿名 trace 来自 production，符合 double-blind 政策；从评估中 32 节点 weak-scaling 与 5TB 表大小看，体量与 Taobao 商品搜推一致。
32 µs 决策开销与 100 KB metadata 的低占用让方案可立即部署到现有 HSTU serving stack 上，无需重构。
24–38% P99 减少与 23–36% throughput 提升对推荐系统直接对应硬件成本节省，每台 8×A100 节点价值数十万人民币，集群规模收益可观。