1. 研究背景与动机¶
生成式推荐系统(如 Meta 的 HSTU [19])将用户行为建模为序列生成问题,通过交错(interleaving)item token 和 action token 来捕捉时序依赖。具体而言,输入序列形如 $\mathbf{x} = [i_0, a_0, i_1, a_1, \ldots, i_n, a_n]$,其中 $i_n \in \mathcal{I}$ 为 item token,$a_n \in \mathcal{A}$ 为 action token,$\mathcal{I}$ 和 $\mathcal{A}$ 是语义上不相交的空间。
本文指出这种交错范式存在三个根本性限制:
1.1 语义异质性(Semantic Heterogeneity)¶
自然语言中 token 共享公共语义空间且具有组合性(compositional),而推荐系统中 item(帖子、视频、商品)和 action(点击、停留、点赞、分享)是语义上完全不同的实体。将它们交错为单一序列 $\mathbf{x} = [i_0, a_0, i_1, a_1, \ldots]$ 隐式假设了 $\mathcal{I} \cup \mathcal{A}$ 上存在共享的潜在结构,但这在实践中并不成立——item 和 action 之间的关系是非对称的、因果性的(causal),而非组合性的。
1.2 因果关系的缺失(Missing Explicit Causality)¶
用户的全局状态受交互历史 $\mathcal{H}_{\lt n} = \{(i_k, a_k)\}_{k\lt n}$ 影响,但特定 action $a_n$ 主要是对当前 item $i_n$ 的响应。本文将 action 概率建模为以当前 item 为条件:
$$P(a_n \mid i_n, \mathcal{H}_{\lt n}) \approx P(a_n \mid i_n; \theta_{\mathcal{H}_{\lt n}})$$
标准交错公式 $\text{Attn}(Q_n, K_{\leq n}, V_{\leq n})$ 未能显式表达这种 $i_n \to a_n$ 的因果依赖,导致两个问题:
- 因果稀释(Causal Dilution):action token 注意到整个历史前缀,用无关历史信号稀释了对 $i_n$ 的直接因果依赖
- 结构模糊(Structural Ambiguity):item token 难以将特定历史 action 精确映射到对应的 item,因为注意力权重在所有历史 token 上均匀分布
1.3 注意力噪声(Attention Noise Induced by Interleaving)¶
即使高容量 Transformer 理论上能近似恢复 item-action 对应关系,交错格式也会引入系统性的注意力噪声。具体来说,一旦模型在 $i_{n-1}$ 和 $a_{n-1}$ 之间建立了强因果依赖,后续 token $i_n$——由于 RoPE [14] 或 RAB [13] 的位置保持性——会继承对 $a_{n-1}$ 几乎同等的注意力偏差,无论它们之间是否存在语义或因果相关性。这种架构伪影迫使后续层额外"纠正"这些虚假相关性,降低了样本效率并复杂化了优化。
1.4 计算低效(Computational Inefficiency)¶
交错使有效序列长度从 $N$ 翻倍到 $2N$。由于 self-attention 的二次复杂度,这导致内存和计算成本约 $4\times$ 增长,在长用户历史的推荐场景中尤其不利于扩展性。
2. 交错机制的注意力 Pooling 解释¶
本文首先提供了交错式生成推荐模型运作机制的显式解释。
以 Figure 4 的 toy example 为例:User A 对狗相关 item 一致表现正向行为(Like),对猫相关 item 表现负向行为(Dislike),User B 则相反。任务是预测用户对下一个 item 的 action。
2.1 隐式相似度加权 Pooling¶
经过一个 Transformer 层后,User A 的交错序列从 $[i_0 = \text{dog}, a_0 = \text{like}]$ 演化为上下文表示 $[\text{dog}_0', \text{like}_0' + \alpha \cdot \text{dog}_0']$,其中 action token 通过 self-attention 聚合了来自关联 item 的信息。
考虑后续 Transformer 层中一个与 dog 相关的 item token $\text{dog}_a'$,当它注意到 action token $\text{like}_0' + \alpha \cdot \text{dog}_0'$ 时,$\text{dog}_a''$ 和 $\text{dog}_0'$ 之间的高语义相似度会放大注意力权重。相反,与语义不相似 item(如 cat)关联的 action token 获得较低的注意力权重。
关键洞察:交错 GR 模型中 self-attention 的有效性源于将其作为 结构化 pooling 算子,隐式地通过 item 语义相似度关联 item 和对应的用户 action。但这种关联是间接形成的,代价高昂——异质 token 的混合迫使注意力机制同时解开不同语义类型,引入虚假交互并增加表示噪声,同时有效序列长度翻倍。
2.2 注意力噪声示例¶
例如,在 User A 的历史中,$\text{cat}_1$ token 只能注意到 $\text{dog}_0$ 和 $\text{like}_0$,其上下文表示变为 $\text{cat}_1' + \beta \cdot \text{dog}_0' + \gamma \cdot \text{like}_0'$。即便 User A 一贯不喜欢猫,cat 的表示仍可能继承与"like on dog"相关的正向信号,有效编码为"partially liked cat"。这就是注意力噪声——源于交错序列中异质 token 的无差别混合。
3. AttnLFA:基于注意力的 Action 后融合架构¶
3.1 核心思想¶
基于上述分析,本文提出:用户 action 可建模为历史 action 在 item 相似度条件下的加权聚合。如果目标 item 在语义上与历史某些 item 相似,则用户对目标 item 的响应应近似于对那些相似 item 的 action。
推荐问题被重构为以 item 为条件的 action pooling 任务,注意力作为结构化的、基于相似度的 pooling 算子。
3.2 架构设计(Figure 5)¶
AttnLFA 维持 item embedding 和 action embedding 两个独立流:
- Item 流处理:Item embedding 经过一组 Transformer 层(12 层)处理,产生上下文化的 item 序列表示
- Action Pooling:最终层 item embedding 同时作为 Query 和 Key,action embedding 作为 Value,通过 因果约束的注意力操作 产生以 item 为条件的 pooled action 表示
- 预测:pooled action 表示拼接 late-fusion 特征,送入 MMoE 预测头
3.3 因果约束¶
为防止标签泄露,AttnLFA 强制严格的因果约束:item $i_n$ 的表示只能注意位置 $\{0, \ldots, n-1\}$ 的 item,显式禁止自注意(不注意自身位置 $n$)。
3.4 Query-Shifting 机制(Figure 6)¶
为利用高吞吐 FlashAttention [2] GPU kernel 同时保持因果约束,AttnLFA 采用 query-shifting 机制:
- 设置
is_causal=True标志 - 对 query 序列 $\{q_1, \ldots, q_n\}$ 相对于 key 施加 一步左移(one-step left-shift)
- 这确保每个 $q_i$ 仅受限于前缀 key $\{k_1, \ldots, k_{i-1}\}$,有效阻止自注意
- 计算后对 attention output 应用左侧零填充(left-side zero-padding)恢复对齐
- 第一个 item $i_0$ 自然产生 null 值表示(无先验上下文)
4. AttnMVP:基于注意力的混合值 Pooling 架构¶
4.1 动机¶
AttnLFA 在后期才融合 action 信息。AttnMVP 更进一步,在表示学习的早期阶段就集成 item-action 交互,通过 混合值(mixed-value)融合 将 action 信号逐层注入 item 表示。
4.2 架构设计(Figure 7)¶
设 $\{\mathbf{i}_t\}_{t=1}^T$ 为 item embedding 序列,$\{\mathbf{a}_t\}_{t=1}^T$ 为对应 action embedding 序列。
逐层混合值融合:在第 $\ell$ 层 Transformer 中:
- Query 和 Key 仅使用 item 表示:$\mathbf{Q}^{(\ell)} = \mathbf{K}^{(\ell)} = \mathbf{H}^{(\ell-1)}$,其中 $\mathbf{H}^{(0)} = \{\mathbf{i}_t\}$
- Value 向量通过加性融合构建:$\mathbf{V}_t^{(\ell)} = \mathbf{H}_t^{(\ell-1)} + \lambda \mathbf{a}_t$,其中 $\lambda \geq 0$ 控制 action 信号的贡献
实践中 $\lambda = 1$,初步敏感性分析表明 $\lambda \in [0.5, 1.0]$ 范围内性能稳定。
渐进式个性化:随着 item embedding 经过连续 Transformer 层传播,它们从编码通用内容语义(如 dog vs cat)逐步演化为编码用户条件化语义(如 preferred dog vs disfavored cat)。这种个性化 端到端地从注意力机制本身涌现,无需显式用户画像或手工个性化特征。
最终层 Action Pooling:经过 $T$(= 12)层 Transformer 后,在最终层应用与 AttnLFA 相同的 action pooling 操作,产生因果掩码的、基于序列级 item 表示条件的 pooled action 表示,融合最终 item embedding 后用于预测。
4.3 表示学习视角¶
AttnMVP 显式编码了"语义相似 item 引出类似用户响应"的归纳偏置。通过解耦 item 和 action 表示,模型避免了交错框架固有的异质 token 纠缠和二次计算开销,提供了一种有原则且可扩展的替代方案。
5. 实验设置¶
5.1 数据集¶
实验在 大规模社交网络产品推荐日志 上进行(LinkedIn 平台)。用户交互序列最长 1024 个事件,覆盖过去 12 个月,按时间划分训练/评估集。
5.2 评估协议¶
采用 基于时间戳的标签掩码方案(timestamp-based label masking):
- 每条评估序列分为 context segment(训练截止前的交互)和 candidate segment(训练截止后的交互)
- Loss 和指标仅在 candidate items 上计算
- Context segment:标准因果掩码(interleaved baseline)/ 严格因果掩码(AttnLFA)
- Candidate segment:候选 item 之间互相禁止注意,防止信息泄露
5.3 评估指标¶
三项核心参与信号的二分类任务,均使用 Binary Cross Entropy (BCE) loss 优化:
- Long Dwell:$\mathbf{1}(\text{dwell\_time} \gt \tau)$,即用户停留时间是否超过阈值
- Contribution:用户是否执行了至少一次非点击参与(点赞、评论、分享)
- Like:用户是否显式点赞
评估指标包括 Evaluation Loss 和 Normalized Entropy (NE)。
5.4 模型配置¶
所有模型共享:
- Embedding 层、Transformer blocks、projection heads 等架构组件
- 12 层 Transformer
- RoPE [14] 位置编码
- 单 epoch 训练
- MMoE [10] 多任务预测头
- 统一的 late-fusion 特征集(主要为计数统计特征)
- Item 特征包括:文本 embedding、作者 embedding、item 类型指标、相关属性
- Action 特征包括:click、skip、dwell time、like、share、comment 等 10+ 监督 action label
6. 实验结果¶
6.1 AttnLFA vs Baseline(Table 1)¶
| Model | Eval Loss | LongDwell NE | Contribution NE | Like NE | Training Time |
|---|---|---|---|---|---|
| Baseline | - | - | - | - | - |
| AttnLFA | -0.29% | -0.06% | -0.49% | -0.47% | -22.8% |
结论:AttnLFA 在所有主要预测任务上均实现了 evaluation loss 和 NE 的显著改善(负值表示改善),同时训练时间减少 22.8%。其中 Contribution NE 和 Like NE 的改善幅度最大(分别 -0.49% 和 -0.47%),说明因果注意力对行为预测尤为有效。论文指出,虽然绝对值改善看似不大,但在大规模工业推荐系统中,这些改善具有统计和业务显著性。
AttnLFA 消除了交错格式,使有效序列长度减半,从而训练时间减少 22.8%,同时建模效果更优。
6.2 AttnMVP vs Baseline 及消融(Table 2)¶
| Model | Eval Loss | LongDwell NE | Contribution NE | Like NE | Training Time |
|---|---|---|---|---|---|
| Baseline | - | - | - | - | - |
| AttnMVP | -0.80% | -0.41% | -1.1% | -1.1% | -12.3% |
| AttnMVP - LFA | -0.78% | -0.40% | -1.0% | -1.0% | -13.02% |
结论:
- AttnMVP 全面优于 AttnLFA:在 eval loss(-0.80% vs -0.29%)、各项 NE 指标上均有更大幅度的改善,表明在表示学习早期阶段集成 action 信息的收益显著
- 训练效率:AttnMVP 训练时间减少 12.3%(虽少于 AttnLFA 的 22.8%,但仍显著优于 baseline)
- 消融实验(AttnMVP - LFA):移除最终层 late fusion attention、仅保留 Transformer 层内混合值融合的变体,性能仅略有下降(Eval Loss -0.78% vs -0.80%,NE 差异 ~0.1%)。这表明 绝大部分收益来自早期的因果约束混合值融合,即在 Transformer 层内通过 $\mathbf{V}_t^{(\ell)} = \mathbf{H}_t^{(\ell-1)} + \lambda \mathbf{a}_t$ 逐层注入 action 信号是性能提升的主要驱动力
7. 未来工作:AttnDHN(Attention-based Dual-Helix Network)¶
受 AttnMVP 强实验表现启发,作者进一步提出对称双流架构 AttnDHN(Figure 8):
- 在 AttnMVP 中,item 表示通过混合 item-action 值的 self-attention 更新:$(Q_\ell, K_\ell, V_\ell) = (i_\ell, i_\ell, i_\ell + a_\ell)$
- AttnDHN 增加互补的 action-centric 更新:$(Q_\ell, K_\ell, V_\ell) = (a_\ell, a_\ell, i_\ell + a_\ell)$
- 每个 Transformer block 内,item 和 action 流按对偶方式顺序更新,形成紧密耦合的交互单元,类似双螺旋结构
当前局限:AttnDHN 尚未一致超越 AttnMVP,作者归因于三个因素: 1. 训练稳定性差:需要将学习率减半,同等优化步数下收敛更弱 2. 每层计算翻倍:双流设计使固定深度下(12 层)的直接比较不完全公平 3. 语义空间不对称:action 词汇表仅约 10 量级,item 空间实际上无界,action-centric 表示本质上更弱且更嘈杂
作者将 AttnDHN 定位为探索性架构,认为其对称设计可能更适用于两种表示空间更同质的场景(如多模态推荐中联合建模文本和视觉 embedding)。
8. 与已有工作的关系¶
8.1 与 HSTU [19] 的关系¶
HSTU(Hierarchical Sequential Transduction Units)是 Meta 提出的工业级生成式推荐架构,采用交错 item-action token 的标准范式。本文的所有方法直接以 HSTU 的 ranker 架构为改造目标。
8.2 与 Huang et al. (2025) [6] 的关系¶
Huang et al. 提出了 early-fusion 方案,将 item 和 action 信号嵌入统一特征空间,目标 item 注入 dummy action token 防止标签泄露。该方法将用户序列分为 context segment 和 candidate segment,action 在 context segment 仅作为输入特征,在 candidate segment 仅作为标签。
本文指出其局限:长用户历史无法端到端训练,需人为分段和多轮训练;dummy action 与真实 action embedding 存在分布不匹配;跨 segment 学到的注意力模式受额外建模噪声干扰。
8.3 与 LAC [18](Wei et al. 2025)的关系¶
LAC(Lagged Action Conditioning)使用 $(a_{n-1}, i_n)$ 配对作为 input token。本文认为这种"滞后"配对 $a_{n-1} \to i_n$ 缺乏内在语义一致性——在典型推荐环境中,item 序列由外部决定,$(a_{n-1}, i_n)$ 配对是结构伪影而非有效因果转换。
9. 总结¶
本文的核心贡献在于:
- 理论洞察:首次明确揭示交错式生成推荐中 self-attention 本质上作为基于 item 相似度的隐式 pooling 机制运作,并系统性地分析了其引入的注意力噪声和计算低效
- AttnLFA:后融合架构,item 流独立处理后通过因果约束注意力 pooling action,实现 eval loss -0.29%、NE 全面改善、训练时间 -22.8%
- AttnMVP:早期融合架构,通过混合值逐层注入 action 信号,实现 eval loss -0.80%、NE 改善约 2 倍于 AttnLFA、训练时间 -12.3%
- 实用工程贡献:query-shifting 机制使因果约束注意力与标准 FlashAttention kernel 兼容,无需自定义 kernel