← Back to list
HLEM

One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

other Alibaba
Abstract 8 Reading 8 Rating —
2026-05-06
Wenjun Yu, Shuguang Han, Amelie Chi Zhou
Hong Kong Baptist University, Alibaba Inc
HLEM 把 GR serving 中 EMB cache 与 KV cache 争抢同一块 HBM 的零和问题建模为 MDP,用 PPO+OnlineAdapter+RecoveryController 三层控制器以 32μs 决策开销追踪在线最优分配,配 paged KV pool/contiguous EMB slab 实现非干扰式调整和 EMB-KV-aware 路由,在 32 节点 A100 集群上比最强静态基线降低 P99 24-38%,达成 93.5-99.6% SLO 满足率
评分原因
摘要评分:生成式推荐serving系统侧创新,提出HBM上EMB cache和KV cache的自适应分配+调度策略,32节点A100集群上工业规模评测,P99延迟降低24-38%,工业部署价值高。
精读评分:工业级 GR serving 系统设计扎实:定量刻画 EMB-KV 双缓存争抢,3 层 PPO 控制器(32μs 决策开销)+ paged 内存抽象 + cost-based routing 三组件分工清晰,32 节点 A100 集群上 P99 -24~38%、SLO ≥93.5%。扣分点:RL 训练依赖 100 episodes 历史 trace、几个超参数(α 边界、burst 阈值)硬编码、未与 ULTRA-HSTU 等正交方案 stack 评估。
industrial transformer rl

One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

Wenjun Yu (HKBU)、Shuguang Han (Alibaba)、Amelie Chi Zhou (HKBU)。arXiv 2605.04450, 2026-05-06。

研究动机与背景

生成式推荐(GR)serving 的双缓存矛盾

生成式推荐(Generative Recommender, GR)以 Meta HSTU [53] 为代表,已在工业级推荐系统中广泛落地(参考 [18,20,26])。HSTU 在线推理由两阶段组成,且对 GPU 内存系统提出截然不同的需求:

  • Embedding Table Lookup:从分片于 CPU DRAM 的大型 embedding 表(生产规模 96TB Model-F、200TB+ Persia [25,31])取出与 item ID、类别、上下文等对应的稠密向量;表规模远超单节点 GPU HBM 容量,因此 EMB 表只能 sharded 到 CPU memory,命中失败时通过 PCIe / RDMA 拉取,是端到端延迟的主要构成。
  • Transformer Block 计算:堆叠多头自注意力对长用户行为序列(10K+ items)执行 forward pass,工业部署中 KV 状态需要 保留在 HBM 中作为 KV cache 以避免对历史序列重复重算 attention。

GR serving 与 LLM serving 的关键差异在于:LLM 自回归解码时 KV 移动可与 decode 计算 overlap,而 GR 仅有一次 forward pass,KV CPU offloading(如 [13,36])不可行,KV state 只能驻留 GPU HBM。结果是同一块有限的 GPU HBM 上,EMB 热缓存(减少 CPU→GPU PCIe 传输)和 KV 缓存(避免 attention 重算)形成直接资源争抢。

Figure 1: HSTU inference latency under different settings — (a) sequence 长度从 2048 增到 20480 时 EMB Lookup 占比线性增长,长序列下 EMB 阶段单独贡献超过 40% 总延迟;(b) embedding table 数从 1 增到 25 时 EMB Lookup 同样线性增长。

Fig. 1 的 production trace 揭示了两点关键事实:

  1. EMB lookup 在长序列、多表场景下成为主导瓶颈。在 sequence length=20480 时它单独占总推理时间 40% 以上;当 embedding table 数从 1 表增到 25 表,EMB 时间近似线性增长。生产部署常见数十至数百张 embedding 表 [1,2,11,52],问题被放大。
  2. KV 计算同时是显著开销。长序列 attention 重算成本随 (L^2/F_{\text{gpu}}) 增长。

因此 EMB CacheKV Cache 都对端到端延迟有关键贡献,两者共抢一块 HBM,必须联合而非独立优化。

HSTU 模型结构与 serving 架构

Figure 2: HSTU Model Structure — Item ID / Item Feature / Context EMB Tables 走 1 item × N×K parallel EMB lookups 拼接 + Position Encoding + Stack T tokens(100MB+/req)后送入 ×N 层 Multi-Head Self-Attention + Feed-Forward Network。

HSTU 把推荐问题重构为序列转换:以历史 user-item interaction 序列为输入,预测下一个 item / item ranking。其层叠 self-attention 在长行为历史(modern GR 通常 10K+ items)上工作,必然带来高计算和高内存成本。

Figure 3: HSTU Online Inference Serving Architecture — Request Router 通过 KV/EMB cache info、负载状态和 node states 选择目标 serving node;每个 Node 含 CPU DDR Memory(EMB Table Shard 1/N,PCIe 与 GPU 互联)和 GPU HBM Memory(EMB Cache + KV Cache + HSTU Transformer Blocks),集群间通过 RDMA 共享 EMB shard。

生产 GR serving 集群(如图所示)通常采用双层内存层级

  • Request Router:根据 KV cache 命中、EMB cache 命中、节点负载等信息把每个请求路由到一个 serving node。
  • Serving Node:每节点持有 1) EMB cache(GPU HBM 上的 hot embeddings),未命中时从本地 CPU shard 或远端节点 RDMA 拉取;2) KV cache(GPU HBM 上的 attention KV 状态)。

请求处理 4 阶段:(1) Route:路由器选 node;(2) EMB lookup:缺失时从本地 / 远端取;(3) Compute:GPU 跑 HSTU forward,复用本地 KV 与已缓存 embeddings;(4) State sync:完成后异步把 cache residency 与 load 上报路由器。

静态分配的损失:实测 20–30% 的潜力被埋没

Figure 3 (重号 Fig.4): Normalized latency vs. EMB–KV allocation ratio — (a) 同 workload 下三种序列长度(Short 2048 / Medium 10240 / Long 20480)的最优 α 分别约为 0.25 / 0.40 / 0.55;(b) 同序列长度下三种 workload 场景(Steady / Trend / Burst)最优 α 分别约 0.20 / 0.40 / 0.55,所有曲线呈"U"型且最低点出现在中段而非两端。

作者把 GPU HBM 中 EMB cache 占比记作 (\alpha),扫描 (\alpha \in [0,1]) 测端到端延迟(Fig. 4),发现:

  • 端到端延迟在中间某个 (\alpha) 取最小,而不是任一极端:把 HBM 全给 EMB 会让 KV 失去复用并迫使重算 attention;全给 KV 则 EMB miss 飙升,PCIe 传输堵塞。
  • 最优 (\alpha^) 随 sequence length(短→长 0.20→0.55)和 workload(Steady→Burst 0.20→0.55)剧烈漂移*,幅度可达 0.35。
  • 跨 workload 的最优分配差异留下了 20–30% 的延迟优化空间;任何静态 (\alpha) 都不可能在所有 regime 下都接近最优。

Figure 4 (重号 Fig.5): Rapid production fluctuations in hot-user request share and mean sequence length — 在 100 个 5s window 内 hot req ratio 与 mean seq length 都频繁剧烈震荡(hot req 范围 ~0%~80%,mean seq length 8~14)。

Fig. 5 用 5s 窗口刷新生产 trace 显示,工作负载组成(hot user 比例、mean seq length)会在数十秒内发生剧烈变化,意味着 EMB-KV 管理需要在线快速适应而不能依赖固定分配。

三大核心挑战

作者把诉求归纳为三类:

  1. Multi-factor workload modeling:最优 (\alpha^*) 由 hot-user 比例、KV 命中率、EMB 命中率共同决定(合计 >60% 决策重要性),简单启发式不够。
  2. Fast and non-intrusive adjustment:哪怕 10% 的 (\alpha) 调整都可能触发 (\sim)8 GB H2D 数据移动;该流量与延迟敏感的 prefill embedding 传输共享 host-to-device PCIe 路径。一次 burst 还能触发 (\sim)10 GB/s H2D 流量,在 30–50 ms P99 SLO 下足以打爆 SLO。
  3. Joint-aware scheduling:内存分配跨节点异质后,EMB transfer 成本因节点而异,KV-only 路由 [44] 不再够,必须联合 EMB-KV-aware 调度。

核心方法 / HLEM 系统架构

HLEM (HBM-level EMB-KV Latency Manager) 由三个紧耦合组件构成,对应 (IV)-A 至 (IV)-C 三节:

Figure 5 (重号 Fig.7): Overall architecture of HLEM — Request Router 持有 KV+EMB Cache State,沿 KV/EMB 命中信号动态路由;每个 Serving Node 内部 Smart Allocator 用 metrics + α 信号驱动 Memory Manager 调整 KV/EMB 比例(图示 KV(35%)/EMB(65%) 与 KV(65%)/EMB(35%) 两个节点形成异质分配)。

IV-A SmartAllocator: 自适应 EMB–KV 内存分配

MDP 公式

记 GPU 显存预算为 (M),EMB 占比 (\alpha \in [0,1]),则 (M_{\text{Emb}} = \alpha M),(M_{\text{KV}} = (1-\alpha)M)。在每个决策 epoch (t) 选择最优 (\alpha_t^*) 最小化端到端 P99 延迟:

$$\alpha_t^* = \arg\min_{\alpha\in[0,1]} \ell(\alpha, s_t) \tag{1}$$

把动态 EMB-KV 内存分配建模为 MDP ((\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)),目标是学习策略 (\pi(a_t | s_t)) 最大化期望折扣回报:

$$J(\pi) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t\right] \tag{2}$$

由于内存分配会通过 cache refill / eviction / 之后请求复用产生延迟反馈,单步即时指标无法刻画其影响,所以必须用 RL 而非纯启发式。

状态、动作、奖励空间

状态:决策 epoch (t) 上观察 7 维向量 (s_t = (h_t, k_t, e_t, L_t, v_t, \alpha_t, p_t) \in \mathbb{R}^7),分别表示 hot-user 请求比例、KV 命中率、EMB 命中率、平均序列长度、SLO violation 比例、当前 EMB 占比、归一化 P99 延迟,所有特征归一化到 [0,1]。

动作:增量更新 (a_t \equiv \Delta\alpha_t),使用小动作集合:

$$\mathcal{A} = \{\pm 0.06, \pm 0.04, \pm 0.02, 0\} \tag{3}$$

下一时刻分配为:

$$\alpha_{t+1} = \text{clip}(\alpha_t + \Delta\alpha_t, \alpha_{\min}, \alpha_{\max}) \tag{4}$$

(\alpha_{\min}=0.1,\alpha_{\max}=0.9) 防止某一缓存被完全饿死,小步增量减弱瞬态 cache imbalance。

奖励:决策窗口结束后

$$r_t = \mathbb{E}_{\tau \sim \mathcal{T}_t}\left[\mathbb{1}[d_\tau \le \tau_{\text{SLO}}]\right] - \lambda \cdot \max(0, \ell_t - \tau_{\text{SLO}}) \tag{5}$$

第一项是窗口内请求的 SLO 满足率(QoS),第二项以 (\lambda = 1/\tau_{\text{SLO}}) 量级惩罚 P99 超出。两者的平衡解决了"只优化 SLO 率会忽视 tail spike,只优化 P99 会忽视整体服务质量"的双重病态。

三层控制器:Decision Loop + Learning Loop

Figure 6 (重号 Fig.8): Two-loop controller architecture in SmartAllocator — System State (s_t) 进入 Decision Loop(Online Adapter + PPO Agent + Recovery Controller,输出 α_t),Inference System 报回 KV/EMB hit 与 P99 / QoS / α 至 Replay Buffer / Reward 进入 Learning Loop。

SmartAllocator 把问题拆成 Decision Loop(serving 路径,低开销)和 Learning Loop(后台维护,更新 online adapter)。每 5s 决策一次,三种信号合成新动作:

$$\alpha_{t+1} = \text{clip}(\alpha_t + \Delta\alpha_{\text{ppo}} + \Delta\alpha_{\text{adapt}}, \alpha_{\min}, \alpha_{\max}) \tag{6}$$

或在 burst 触发时由 Recovery Controller 覆盖。三个组件功能如下:

(1) PPO Agent — Base Frozen Policy

  • 用 PPO [40] 离线在历史 trace 上训 100 episodes 收敛。Actor-Critic 结构,64/128 隐层的两层 MLP,参数量 <25K。
  • 选择 PPO 而非简单 DQN:分配的延迟反馈是延迟的,需通过 cache refill / eviction / reuse 才会显现,单步目标会失真。
  • 部署后冻结避免线上不稳定,仅作 dominant control signal (\Delta\alpha_{\text{ppo}})。

(2) Online Adapter — Residual Correction

  • 解决离线-在线分布差。3 层 MLP(5 → 16 → 1),输入维度 5(与 PPO 输入子集),输出残差 (\Delta\alpha_{\text{adapt}}),零初始化。
  • 维护 P99 延迟的 EMA (\ell_{\text{EMA}}),自适应学习率:

$$\eta_t = \eta_0 \cdot \frac{|\ell_t - \ell_{\text{EMA}}|}{\tau_{\text{SLO}}} \tag{7}$$

(\eta_0 = 10^{-3})。每个 decision window 把 ((s_t, \Delta\alpha_{\text{adapt}}, r_t, \ell_t)) 推进一个大小 1K 的 FIFO replay buffer,bounded memory 同时缓解 catastrophic forgetting。

(3) Recovery Controller — Burst Handling

  • 维护近 10 个 epoch 的 P99 延迟 EMA (\ell_{\text{EMA}}) 与标准差 (\sigma_{\text{EMA}})。当:

$$\ell_t \gt \ell_{\text{EMA}} + 3\sigma_{\text{EMA}} \tag{8}$$

判定 burst 事件。此时绕过正常更新,直接采用保守策略:把 hot-user 比例超过 (\rho^* = 0.2) 时往 KV 偏移,避免 H2D 路径上的 burst 拥塞。

IV-B Memory Manager: 非干扰式分配落地

Memory Manager 处理 SmartAllocator 输出的新 (\alpha) 时面对一个根本张力:5s 一次的频繁调整会引入 H2D refill 流量,与延迟关键的 EMB-miss 传输竞争同一条 PCIe 路径。一次 4% 调整对 80GB GPU 大约产生 3.2GB H2D refill;这是真正的瓶颈。

HLEM 把"分配变更"分成逻辑变更(页表/元数据)和物理 refill(PCIe)两步,分别处理两个 PCIe 相关挑战:

(C1) Embedding-only boundary adjustment(zero-copy 分配)

为避免移动驻留 KV state,HLEM 强制只调整 EMB cache 边界,KV 物理上不动。具体做法:

  • KV cache 组织为 paged block pool(vLLM [23] 风格),每块由显式 free list + page-table metadata 管理。
  • EMB cache 实现为 contiguous LRU-managed slab,由 page 粒度反向 backed。
  • 当 (\alpha) 增大:EMB 调用 alloc_page() 从 KV 池抓 free pages,不触碰驻留 KV entries。
  • 当 (\alpha) 减小:调用 evict_lru_entries() 回收 EMB pages,通过 free_page() 还回 KV free list。

由于全部是 metadata-only 操作,page tables 在 1 µs 内更新,调整本身不引起任何 cudaMemcpy / pipeline stall

(C2) Background refill with bandwidth throttling

新分配的 EMB 容量需要被有用 cache content 填满,这是 H2D 流量。要避免这股流量挤压 inference path:

  • HLEM 通过 cudaMemcpyAsync专用高优先级 CUDA stream (cudaStreamCreateWithPriority) 上发起 refill,与默认 compute stream 解耦。
  • 进一步根据当前 EMB-miss H2D 流量throttle background refill bandwidth

Figure 7 (重号 Fig.9): HLEM overlaps EMB-miss HTOD and throttles background reallocation traffic — 一段 PCIe 带宽时间序列上前景 EMB-miss HTOD(深色)和后台 Background Reallocate(浅色)共享通道;HLEM 监测到前景流量增大时把 background traffic suppress 到接近零。

实测:3.2 GB 的 H2D refill 在 ~1 s 内完成,allocator 决策间隔 5 s,因此 refill 成本能完全被摊销而不影响端到端延迟。

IV-C KV-EMB-Aware Request Routing

动态分配让节点不再可互换:相同请求在不同 node 上因 KV 驻留 / EMB 命中 / load 不同而经历不同延迟。仅 KV-aware(如 [44])忽视 EMB miss → recomputation 风险;仅 EMB-aware(如 [24])则牺牲 KV 复用。HLEM 用 cost-based routing 显式估两种 miss cost。

Algorithm 1 — KV-EMB Aware GR Request Routing

Input: request R from user u; candidate nodes N;
       miss costs C_kv, C_emb, C_ld; overload threshold τ; affinity bonus ε
Output: target node n*

Router maintains per-node:
  Aff[u]: previous routed node per user
  KVM[n]: KV cache HashMap  u → {0,1}
  EMBM[n]: EMB cache state HashMap
  Prof[u]: top-K hot shards for u; l(n): load pressure

1: n_aff ← Aff[u]
2: for each node n ∈ N do
3:   h_kv  ← KVM[n].get(u)                    ▷ KV hit rate
4:   h_emb ← |Prof[u] ∩ EMBM[n]| / |Prof[u]|  ▷ EMB hit rate
5:   score(n) ← w_kv h_kv + w_emb h_emb + w_ld(1 - l(n)) + b(n)
6: n* ← argmax_n score(n)                     ▷ Best node
7: if l(n*) > τ then
8:   n* ← argmin_n l(n)                       ▷ Overloaded: fall back to least-loaded
9: Dispatch R to n*; Update Aff[u] ← n*; Async update KVM[n*]

每节点打分:

$$\text{score}(n) = w_{\text{kv}} h_{\text{kv}} + w_{\text{emb}} h_{\text{emb}} + w_{\text{ld}}(1 - l(n)) + b(n) \tag{9}$$

亲和性 bonus:

$$b(n) = \epsilon \cdot \mathbb{1}[n = n_{\text{aff}}]$$

软偏向上次路由的 node。三个权重 (w_{\text{kv}}, w_{\text{emb}}, w_{\text{ld}}) 由 offline-profiled miss cost (C_{\text{kv}}, C_{\text{emb}}, C_{\text{ld}}) 自动归一化得到((w_i = C_i / Z, Z = C_{\text{kv}} + C_{\text{emb}} + C_{\text{ld}})),不需手调。实现取 (\tau = 0.85),(\epsilon = 0.05),shard-profile size (K = 20)(对 K=10..50 不敏感,覆盖至少 95% 单用户 EMB 访问)。

Residency Tracking:路由器维护轻量 metadata。KV residency 按用户级跟踪(user ID → presence bit hashmap);EMB residency 按 shard 级跟踪(resident embedding-shard identifiers 集合)。每请求 (h_{\text{emb}}) 通过 user 预算的 top-K 与 node 的 EMB-residency set 求交集((O(K)))。结构异步、off 关键路径更新;KV-residency table 在 32-node 下 <24 KB / node,(\alpha = 0.5) 时单节点 typically 持有 3K–6K KV 项。

Figure 8 (重号 Fig.10): Routing score breakdown across three routing methods — EMB-Aware 0.29, KV-Aware 0.38, GR-Aware 0.47;分数分解为 Load Score / KV Hit Score / EMB Hit Score 三部分。

GR-Aware(HLEM)联合得分 0.47 高于 EMB-Aware 0.29 和 KV-Aware 0.38,证明同时纳入两侧成本能避免单维 routing 的 myopic。

实验设置

硬件 & 系统栈

  • 集群:32 节点,每节点 8× NVIDIA A100 80GB (HBM2e),AMD EPYC 9684X 双路(共 2TB DDR5),200 Gbps InfiniBand HDR。共 5TB EMB tables。
  • 软件:基于 open-source HSTU 框架 [53] 实现,user-request 粒度的连续 batching(参考 Orca [49]);FBGEMM [21] 优化 embedding kernel,NCCL [33] 集合通信。

模型配置

  • HSTU 3-layer(ranking 阶段轻量级)
  • HSTU 6-layer(retrieval 阶段重量级)
  • 两者均 512-dim item embedding。

数据与负载

数据集 用户数 Top 5% 用户请求占比
Taobao [4] 0.98 M 18%
Amazon Video-Games [19] 2.76 M 24%
Amazon Books [19] 10.3 M 38%

按真实 access frequency 重放,user profile 拉伸到 5K–15K tokens,每请求检索 100 candidate items。Embedding 表用 NVIDIA DLRM scripts [3] 扩到 5TB,保留 Zipfian frequency 分布——这点对 HBM miss 与 EMB-KV 敏感性至关重要。

三种 workload regime

  • Steady:均匀到达 + 稳定 hot-user 占比
  • Trend:hot-user 比例随时间渐变,测 SmartAllocator 跟踪漂移最优
  • Burst:Poisson hot-user 突增持续 3–5 个 decision window,测尾延迟鲁棒性与 Recovery Controller

Baselines

第一组(serving system 端):在固定 (\alpha^*) 下隔离测分配控制器外的系统优化。

  • KV-Opt:KV-centric serving(如 [37,42,44]),(\alpha = 0)(HBM 全给 KV)。
  • KV-EMB-Opt:在 KV-Opt 上加 ML-guided EMB prefetching [38],固定 (\alpha^) 由 grid search ({0.0, 0.1, ..., 1.0}) 离线选最低 P99——最强静态配置*。

第二组(动态分配控制器):固定 serving infra 比较控制器。

  • 经典:PID [5],Bayesian Optimization (BO) [41],MILP [17]。
  • 预测式 ML:XGBoost [9],LSTM [51] (含 OFT/RC 增强变体)。
  • PPO-only:HLEM 把 OnlineAdapter 与 RecoveryController 关掉。

指标

  • End-to-end serving:P99 latency (ms) 与 QoS(30 ms SLO 满足率)。
  • Allocation quality:oracle ratio gap (|\alpha_t - \alpha_t^|),(\alpha_t^) 由 epoch 内全 workload trace 在 ({0,0.01,...,1.0}) 网格穷搜得到。

主要实验结果

端到端 P99 与 SLO 满足率

Figure 9 (重号 Fig.12): SLO satisfaction rate of three methods across three production-scale datasets under 30 ms latency SLO — Steady 三个数据集上 HLEM ≥ 99.6%,Trend 仍 ≥98.9%,Burst 93.5–95.3%;KV-EMB-Opt 在 Trend 降到 83–91%,Burst 仅 56–78%;RACER 进一步降低。

P99 latency(Fig. 11,正文表):

Setting KV-Opt KV-EMB-Opt RACER (HLEM)
HSTU 3-layer / TaoBao 33 28 19
HSTU 3-layer / Games 38 32 21
HSTU 3-layer / Books 38 35 23
HSTU 6-layer / TaoBao 44 38 25
HSTU 6-layer / Games 51 44 27
HSTU 6-layer / Books 46 46 29

(数据均为 ms。HLEM 在 30 ms SLO 下全部满足;KV-EMB-Opt 在 6-layer 上全数据集超出。3-layer 上 HLEM 比 KV-EMB-Opt 降低 P99 25–34%,6-layer 上 28–38%;Amazon Books 上提升尤为明显,因为 hot-user 比例 38% 让 EMB-KV 争抢更剧烈。)

SLO 满足率:HLEM 在 Steady 与 KV-EMB-Opt 差距小(HLEM ≥99.6%,KV-EMB-Opt 92.8–99.4%)。在 Trend 下后者降到 83–91%,HLEM 维持 ≥98.9%。Burst 下静态法降至 56–78%,HLEM 仍 93.5–95.3%。HLEM 的 run-to-run variance 仅 1.2 ms,说明它是稳定降低尾延迟而非简单平移均值。

系统级消融

Figure 10 (重号 Fig.13): System-level ablation of HLEM — KV-EMB-Opt vs +Allocator vs +Allocator+Router vs RACER 在三种 workload × 三个数据集上的 P99 柱状图,每加一层组件 P99 持续下降。

  • +SmartAllocator 单独相对 KV-EMB-Opt(固定 (\alpha^*))已降低 P99 ~20%,证明自适应分配本身解决双瓶颈问题的主要部分;提升在 Burst 下最大,因为 fixed allocation 在 active cache 切换时 under-provisions。
  • +Router 进一步降 10–25%:通过把 KV residency 集中到回访用户同时保留 embedding locality,每节点 cache 更友好。

Allocator 内部消融

Figure 11 (重号 Fig.14): Allocator-internal ablation under a representative burst — PPO only 稳态 ~33 ms 但 burst 峰 ~46 ms;+OnlineAdapter 稳态降到 ~23 ms 但 burst 仍 ~34 ms;完整 SmartAllocator 维持稳态并把峰压到 ~31 ms 后快速收尾。

  • PPO-only:steady ~33 ms,burst 反应慢,峰值 ~46 ms。
  • +OnlineAdapter:稳态降到 ~23 ms,但 burst 不灵敏。
  • +RecoveryController(完整):稳态保留,burst 峰被压到 ~31 ms 并快速回落。

与 α 控制策略的对比

Method Dec. Time Steady gap Trend gap Burst gap
Static-α=0.1 0 s 0.292 0.341 0.331
Static-α=0.3 0 s 0.092 0.141 0.131
Static-α=0.5 0 s 0.108 0.061 0.072
Static-α=0.7 0 s 0.308 0.259 0.269
Static-α=0.9 0 s 0.508 0.459 0.469
PID ~1.2 s 0.094 0.108 0.167
XGBoost ~3 ms 0.053 0.083 0.156
BO ~7 s 0.061 0.089 0.174
MILP ~36 s 0.044 0.068 0.161
LSTM ~5 ms 0.051 0.083 0.156
LSTM+OFT ~6 ms 0.043 0.067 0.128
LSTM+OFT+RC ~6 ms 0.041 0.069 0.051
PPO-only 28 µs 0.043 0.051 0.042
SmartAllocator 32 µs 0.019 0.023 0.031

关键观察:

  • 静态 (\alpha) 全 regime 都不行——确认固定分配根本不足。
  • 经典法(PID/BO/MILP/XGBoost)目标错配:它们优化单步指标,可分配的延迟反馈跨多个 epoch 才显现,反应过慢或过激。BO 7 s、MILP 36 s 的决策延迟使其在线不可用。
  • LSTM 系预测用时序模型部分缓解,加 OFT (Online Fine-Tuning) 与 RC (Recovery Control) 在 Burst 上把 gap 降到 0.041–0.069,但仍不能完全打破响应性 / 长 horizon 控制的权衡。
  • PPO-only 已显著好(28 µs),SmartAllocator 把 gap 进一步压到 Steady 0.019 / Trend 0.023 / Burst 0.031;决策时间 32 µs,控制开销最低

Control Overhead:OnlineAdapter 训练把峰值 CPU 利用率从 20% 推到 46%,平均 32%,全部跑后台不影响 serving。Router 端 affinity table + KV residency 32 节点共 <100 KB / node,metadata cost 可忽略。

Tracking offline-optimal α*

Figure (Fig.15): RL-controlled α_RL versus offline optimal α* over a four-hour window (Amazon-Books) — 散点为 hot-user 请求 regime(Steady=绿/Trend=蓝/Burst=红),Warmup 后 α_RL 紧跟 α*;Steady 下 hot ~0.20 时 α_RL 上升到 0.51;Trend t≈130,hot ~0.32 时降到 0.38;Burst t≈175 hot ~0.50 进一步降到 0.26。

Warmup 区域过后,(\alpha_{\text{RL}}) 紧跟 (\alpha^),平均绝对误差 0.023——没有任何未来 workload 知识*。学到的 policy 对 regime 表现非对称:

  • Steady(hot ratio ≈0.20):(\alpha_{\text{RL}}) 升到 0.51 偏向 EMB 局部性(EMB/KV hit 55%/21%)。
  • Trend(hot ratio ≈0.32):降到 0.38 平衡两侧(50%/18%)。
  • Burst(hot ratio ≈0.50):进一步压到 0.26,付 9% EMB-hit 减少换取 25% KV-hit gain 防 SLO violation。

这反映 KV 和 EMB 退化的非对称特征:KV 一旦低于 working set 就断崖式下降,而 EMB 是渐进退化;hot-user 比例升高时 KV working set 超线性扩张,每个 KV miss 成本被放大。

Sensitivity to user hotness & cluster scale

Figure (Fig.16): Average α_RL under varying cluster scale (2–32 nodes) and hot-request share (0.05–0.60) — 颜色三档:All-EMB(左上)→ Split(中央)→ All-KV(右下);2 节点低 hot 时 α_RL=1(all-EMB),32 节点高 hot 时 α_RL≈0.23(all-KV)。

热占比上升 → α_RL 下降以保 KV;集群规模上升 → embedding 表 sharded 到更多节点,单节点 EMB working set 缩小,α_RL 进一步降。Heatmap 跨越从 EMB-dominated regime(2 节点 hot 0.05,α_RL=1)到 KV-dominated regime(32 节点 hot 0.60,α_RL≈0.23),证实没有静态 α 在所有 regime 都合适

Weak-scaling Throughput

Figure 12 (重号 Fig.17): Weak-scaling throughput (QPS) on three datasets as node count scales from 2 to 32 — RACER(橙)、KV-EMB-Opt Static Best-α(蓝)、Ideal linear(虚线);32 节点 RACER 比 KV-EMB-Opt 在 TaoBao +27%,Games +36%,Books +23%。

固定每节点 embedding data,集群从 2 扩到 32 节点,HLEM 维持近 linear scaling。32 节点 throughput 优于 KV-EMB-Opt 27%/36%/23%(TaoBao/Games/Books)。差距随集群规模放大,因为静态法跨节点协同代价升高,HLEM workload-aware 分配 + 路由减少跨节点 embedding 流量。

硬件普适性讨论

GR serving 双瓶颈本质由比值 (F_{\text{gpu}} / B_{\text{pcie}}) 决定。A100 yields 12.5,H100/H200 15.5,仅 24% 提升——bandwidth 仍是 first-order constraint。即便 H200 有更大 HBM (141 GB),仍无法消除 EMB-KV 零和 trade-off:hot embeddings 仍超 HBM 一个量级以上,序列 8K-15K 的 KV (60–184 MB / 用户) 仍把 8-GPU 节点限制到 ~3K-6K 活跃用户。HLEM 设计在未来 GPU 世代仍 relevant

讨论与局限性

核心贡献

  1. Dual-bottleneck characterization:首次系统刻画 GR serving 中 EMB cache 与 KV cache 共抢 HBM 的张力,证明 (\alpha^*) 跨 workload 漂移高达 0.35,留下 20–30% 优化空间。
  2. Adaptive EMB–KV allocation:3 层 PPO + Online Adapter + Recovery Controller,决策开销仅 32 µs,offline-optimal gap 仅 0.019–0.031(vs 静态最优 0.061+,PID 0.094+)。
  3. Non-disruptive memory adjustment:用 paged KV pool + contiguous EMB slab 结构把分配变更分成 zero-copy 边界更新与 throttled background refill,避免 H2D PCIe 干扰关键路径。
  4. EMB-KV-aware routing:基于 offline miss cost 自动归一化权重的 cost-based scoring,比 KV-only / EMB-only routing 多 15–20% 延迟节省。

值得借鉴的设计

  • 三层控制器分工:base policy(稳定)+ residual adapter(在线对齐)+ recovery controller(rare-event 保护)的范式可推广到任何"多目标 + delayed reward + 偶发 burst"的工业控制问题。
  • Page-pool + contiguous slab 混合内存抽象:用 KV pool 解耦逻辑分配与物理 refill,是 vLLM PagedAttention 思想在 GR serving 双 cache 场景的有效适配。
  • 决策周期 5s + refill ~1s 的时间常数选择有意思:决策频率与 refill 完成时间的比例确保不会出现 update 拥塞。
  • Hot-user 比例作为 burst 检测信号:相对 raw latency (3\sigma) 检测多了一个语义维度。

局限性 / 争议点

  • 离线 PPO 训练依赖 100 episodes 历史 trace:跨业务、跨地区迁移时如何 cold-start 没讨论。
  • (\alpha_{\min}=0.1, \alpha_{\max}=0.9) 是 hand-set,跨场景可能需要重调。
  • Routing 权重 (w_{\text{kv}}, w_{\text{emb}}, w_{\text{ld}}) 由 offline-profiled cost 推得——profile 失效时 routing 可能 myopic,需要在线重 calibrate。
  • Burst Recovery 用 ρ* = 0.2 与 (3\sigma) 阈值全部 hard-coded,对 dataset 较敏感。
  • 单 metric 优化(P99 latency)忽视 throughput cost trade-off 的 explicit 表达;reward 中只用 SLO + tail penalty 没显式包含 cost。
  • 未与 ULTRA-HSTU [62] 等 attention sparsity / 混合精度方案 stack——属正交工作但缺 stack 后联合效果。

工业落地价值

  • 针对的是真实工业部署中"30–50 ms P99 SLO + 5TB EMB + 32-node A100 集群"的具体场景,5TB embedding tables、200 Gbps InfiniBand、双路 EPYC 9684X 等参数明显参考 Alibaba(注意第二作者 Alibaba 隶属)等大厂生产基线。
  • "Company X" 匿名 trace 来自 production,符合 double-blind 政策;从评估中 32 节点 weak-scaling 与 5TB 表大小看,体量与 Taobao 商品搜推一致。
  • 32 µs 决策开销与 100 KB metadata 的低占用让方案可立即部署到现有 HSTU serving stack 上,无需重构。
  • 24–38% P99 减少与 23–36% throughput 提升对推荐系统直接对应硬件成本节省,每台 8×A100 节点价值数十万人民币,集群规模收益可观。