2026-04-28 日报
主题: Semantic ID 工业落地与长序列 KV 压缩双线推进
标签: semantic-id · industrial · transformer · sparse-attention · parameter-scaling
📊 统计: 共 16 篇 · 精读 6 · 🏢 工业界 4 · 🎓 学术 12 · discriminative-rec 3 · other 6 · llm 3 · generative-rec 4
综述
本日共 16 篇,6 篇精读、10 篇仅简评;按类别分布生成式推荐 4 篇、判别式推荐 3 篇、LLM 3 篇、其他 6 篇,工业-学术比约 4:12,快手、美团、苹果三家工业方贡献了最重的几篇。重点论文上,快手 KSA(2604.24432,reading_score 9)通过插入可学习 summary token 实现 O(n/k) 语义级 KV 压缩,与 GQA/MLA 完全正交可叠加 8×,在 RULER-128K 上 hybrid-KSA 比 Hybrid-GDN 高 +5.48/+3.69 分;快手 AdaSID(2604.23522)把 SID 碰撞处理升级为"语义豁免 + 自适应压力分配"两阶段框架,A/B 取得 GMV +0.98%;美团 Pro-GEO(2604.23156)把 RoPE 从序列外推到空间域,将 SID 第三层码本的地理聚类距离降低 45.6%;学术侧 SUIN(2604.23810)把 RAG 思想引入 CTR、PAMT(2604.23388)用 product-key 参数化记忆头攻克持续 GenIR 的灾难性遗忘。趋势上,Semantic ID 正从静态量化走向"语义/空间/负载自适应",长序列 LLM 的注意力压缩与推荐域 KV/Token 压缩呈现方法同源,值得关注稀疏 summary token 与 SID 自适应分配在工业系统的进一步泛化。
重点论文
KSA · ⭐ 9/10
Kwai Summary Attention Technical Report
🏢 Kuaishou · LLM
Kuaishou 提出 Kwai Summary Attention(KSA),通过在序列中插入可学习 summary token 实现 O(n/k) 语义级 KV cache 压缩,与 GQA/MLA 完全正交可叠加 8× 进一步压缩,在 RULER-128K 上 hybrid-KSA 比 Hybrid-GDN 高 +5.48 分(from-scratch)/+3.69 分(CPT)
AdaSID · ⭐ 8/10
🏢 Kuaishou · 生成式推荐
AdaSID 把 SID 碰撞处理从'固定治疗'升级为'两阶段自适应过程':语义自适应豁免良性重叠、负载与训练进度自适应分配剩余压力,在 Amazon Toys/Beauty 全部指标超越 QuaSID 等强 baseline,并在快手电商 A/B 实测取得 GMV +0.98%、Orders +0.91%、GPM +1.16% 的业务收益。
Pro-GEO · ⭐ 8/10
Birds of a Feather Cluster Nearby: a Proximity-Aware Geo-Codebook for Local Service Recommendation
🏢 Meituan · 生成式推荐
Pro-GEO 把 RoPE 从序列位置外推到空间域,通过 geo-centroid 局部坐标系 + 双向 Geo-RoPE 把地理邻近性以正交旋转的方式嵌入 SID 第三层码本,在 Meituan 量级本地服务数据上把平均聚类距离降低 45.6% 同时 Hit@50 提升 1.87%。
SUIN · ⭐ 7/10
Similar Users-Augmented Interest Network
🎓 学术 · 判别式推荐
SUIN 把 RAG 思想引入 CTR:为目标用户检索 top-k 相似用户的整段行为序列做拼接增强,通过 UTPE 三性质位置编码与 UTA 双相关性目标注意力同时建模 item-item 和 user-user 信号,在 4 个公开数据集稳定击败短/长序列 baselines。
PAMT · ⭐ 7/10
A Parametric Memory Head for Continual Generative Retrieval
🎓 学术 · 其他
提出 PAMT,先正常微调 GenIR 主干,再冻结主干并通过一个 product-key 参数化记忆头做稀疏 value-only 校准,在 MS MARCO 与 NQ 上将持续 GenIR 的 BWT± 拉到与索引型检索器同量级。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| KSA | Kwai Summary Attention Technical Report | LLM | 🏢 Kuaishou | 9 | 9 |
| AdaSID | Beyond Static Collision Handling: Adaptive Semantic ID Learning for Multimodal Recommendation at Industrial Scale | 生成式 | 🏢 Kuaishou | 9 | 8 |
| Pro-GEO | Birds of a Feather Cluster Nearby: a Proximity-Aware Geo-Codebook for Local Service Recommendation | 生成式 | 🏢 Meituan | 7 | 8 |
| SUIN | Similar Users-Augmented Interest Network | 判别式 | 🎓 学术 | 7 | 7 |
| PAMT | A Parametric Memory Head for Continual Generative Retrieval | 其他 | 🎓 学术 | 7 | 7 |
| — | Scaling Properties of Continuous Diffusion Spoken Language Models | 其他 | 🏢 Apple | 7 | 7 |
| DC4SR | Disagreement as Signals: Dual-view Calibration for Sequential Recommendation Denoising | 判别式 | 🎓 学术 | 6 | — |
| — | Lost in Decoding? Reproducing and Stress-Testing the Look-Ahead Prior in Generative Retrieval | 生成式 | 🎓 学术 | 6 | — |
| TRACE | Follow the TRACE: Exploiting Post-Click Trajectories for Online Delayed Conversion Rate Prediction | 判别式 | 🎓 学术 | 6 | — |
| BITRec | Modeling Behavioral Intensity and Transitions for Generative Recommendation | 生成式 | 🎓 学术 | 6 | — |
| — | A Limit Theory of Foundation Models: A Mathematical Approach to Understanding Emergent Intelligence and Scaling Laws | LLM | 🎓 学术 | 5 | — |
| PUDA | Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems | LLM | 🎓 学术 | 5 | — |
| — | Efficient VQ-QAT and Mixed Vector/Linear quantized Neural Networks | 其他 | 🎓 学术 | 4 | — |
| — | Adopting State-of-the-Art Pretrained Audio Representations for Music Recommender Systems | 其他 | 🎓 学术 | 4 | — |
| GREW | Green-Red Watermarking for Recommender Systems | 其他 | 🎓 学术 | 4 | — |
| — | GLIER: Generative Legal Inference and Evidence Ranking for Legal Case Retrieval | 其他 | 🎓 学术 | 4 | — |