2026-W17 周报

日期范围: 2026-04-20 ~ 2026-04-26

主题: 工业排序结构性 scaling 与 RL/LLM 生成式推荐双线并进

标签: industrial · scaling · rl · generative-retrieval · ctr-prediction · llm-based

📊 统计: 共 29 篇 · 精读 9 · 覆盖 5 个工作日

周度综述

本周（2026-W17，4-20 至 4-26）共纳入约 29 篇论文，9 篇完成精读。类别分布上，判别式推荐 13 篇、LLM 方向 11 篇为主，生成式推荐 4 篇、其他 3 篇；工业团队（腾讯、美团、阿里、快手、华为）与学术机构（Stanford、Meta×USTC 等）大致平分秋色。

技术趋势可归纳为三条主线。其一，工业排序系统正从堆参数转向"在 serving 约束内挖掘结构性 scaling"：腾讯 RankUp 以"有效秩"视角系统解决 MetaFormer 表征坍缩，配合随机置换分片与多嵌入表，在微信广告三大场景实现 3.41–4.81% GMV 增益；美团 SIF 把序列粒度从 item-level 升级到 sample-level，离线 HGAQ 压缩历史交互后做分解注意力，提供工业大规模序列建模的新范式；阿里 LoopCTR 把共享层递归复用立成正交于深/宽/输入的第四种 scaling 维度，实现 train-multi-loop / infer-zero-loop；快手 CS3 在双塔召回中嵌入 CAS/CTS/CMS 三模块，Scenario A 广告收入 +8.36% 而 QPS 开销不到 1%。

其二，生成式推荐与检索重排进入"理论自洽 + RL 信号重构"阶段：快手短文首次严格证明 k-token AR-NTP 在 bijective 分词下等价于全词表 MLE；华为 ReCast 把 RL 瓶颈从奖励稀疏前推至 group 可学性退化，以 ground-truth anchor 修复 all-zero 组并改用 hardest 正负对边界对比；Meta×USTC 的 TAWin 形式化证明 GRPO+二值奖励等价于 AUC，加 beam search 即转 OPAUC，并以可微 soft 窗口跨 backbone 取得一致 SOTA。

其三，LLM 不再追求端到端替换，而是以"离线蒸馏 / Encoder-LLM 残差注入"务实落地：阿里 Qwen 团队的 ResRank 用 Encoder-LLM 将段落压成单 embedding 残差喂给 Reranker-LLM，零生成 token 即可逼近 GPT-4 的 BEIR/TREC DL 效果。整体而言，本周"结构性 scaling + 边界式 RL 信号 + LLM 离线赋能"三股力量构成工业可落地推荐系统的新范式。

每日概览

2026-04-21

主题: 工业排序表征质量提升与生成式推荐理论基础双线并进
论文数: 12 · 精读: 3

2026-04-22

主题: 工业级推荐系统的结构创新与 scaling 新维度
论文数: 7 · 精读: 3

2026-04-23

主题: LLM 自博弈扩展与 Agent 记忆结构化生成
论文数: 2 · 精读: 0

2026-04-24

主题: LLM 离线知识蒸馏赋能传统序列推荐
论文数: 1 · 精读: 0

2026-04-27

主题: RL 重塑 LLM 生成式推荐与检索重排
论文数: 7 · 精读: 3