2026-04-28 日报

主题: Semantic ID 工业落地与长序列 KV 压缩双线推进

标签: semantic-id · industrial · transformer · sparse-attention · parameter-scaling

📊 统计: 共 16 篇 · 精读 6 · 🏢 工业界 4 · 🎓 学术 12 · discriminative-rec 3 · other 6 · llm 3 · generative-rec 4

综述

本日共 16 篇，6 篇精读、10 篇仅简评；按类别分布生成式推荐 4 篇、判别式推荐 3 篇、LLM 3 篇、其他 6 篇，工业-学术比约 4:12，快手、美团、苹果三家工业方贡献了最重的几篇。重点论文上，快手 KSA（2604.24432，reading_score 9）通过插入可学习 summary token 实现 O(n/k) 语义级 KV 压缩，与 GQA/MLA 完全正交可叠加 8×，在 RULER-128K 上 hybrid-KSA 比 Hybrid-GDN 高 +5.48/+3.69 分；快手 AdaSID（2604.23522）把 SID 碰撞处理升级为"语义豁免 + 自适应压力分配"两阶段框架，A/B 取得 GMV +0.98%；美团 Pro-GEO（2604.23156）把 RoPE 从序列外推到空间域，将 SID 第三层码本的地理聚类距离降低 45.6%；学术侧 SUIN（2604.23810）把 RAG 思想引入 CTR、PAMT（2604.23388）用 product-key 参数化记忆头攻克持续 GenIR 的灾难性遗忘。趋势上，Semantic ID 正从静态量化走向"语义/空间/负载自适应"，长序列 LLM 的注意力压缩与推荐域 KV/Token 压缩呈现方法同源，值得关注稀疏 summary token 与 SID 自适应分配在工业系统的进一步泛化。

重点论文

KSA · ⭐ 9/10

Kwai Summary Attention Technical Report

🏢 Kuaishou · LLM

Kuaishou 提出 Kwai Summary Attention（KSA），通过在序列中插入可学习 summary token 实现 O(n/k) 语义级 KV cache 压缩，与 GQA/MLA 完全正交可叠加 8× 进一步压缩，在 RULER-128K 上 hybrid-KSA 比 Hybrid-GDN 高 +5.48 分（from-scratch）/+3.69 分（CPT）

AdaSID · ⭐ 8/10

Beyond Static Collision Handling: Adaptive Semantic ID Learning for Multimodal Recommendation at Industrial Scale

🏢 Kuaishou · 生成式推荐

AdaSID 把 SID 碰撞处理从'固定治疗'升级为'两阶段自适应过程'：语义自适应豁免良性重叠、负载与训练进度自适应分配剩余压力，在 Amazon Toys/Beauty 全部指标超越 QuaSID 等强 baseline，并在快手电商 A/B 实测取得 GMV +0.98%、Orders +0.91%、GPM +1.16% 的业务收益。

Pro-GEO · ⭐ 8/10

Birds of a Feather Cluster Nearby: a Proximity-Aware Geo-Codebook for Local Service Recommendation

🏢 Meituan · 生成式推荐

Pro-GEO 把 RoPE 从序列位置外推到空间域，通过 geo-centroid 局部坐标系 + 双向 Geo-RoPE 把地理邻近性以正交旋转的方式嵌入 SID 第三层码本，在 Meituan 量级本地服务数据上把平均聚类距离降低 45.6% 同时 Hit@50 提升 1.87%。

SUIN · ⭐ 7/10

🎓 学术 · 判别式推荐

SUIN 把 RAG 思想引入 CTR：为目标用户检索 top-k 相似用户的整段行为序列做拼接增强,通过 UTPE 三性质位置编码与 UTA 双相关性目标注意力同时建模 item-item 和 user-user 信号,在 4 个公开数据集稳定击败短/长序列 baselines。

PAMT · ⭐ 7/10

A Parametric Memory Head for Continual Generative Retrieval

🎓 学术 · 其他

提出 PAMT，先正常微调 GenIR 主干，再冻结主干并通过一个 product-key 参数化记忆头做稀疏 value-only 校准，在 MS MARCO 与 NQ 上将持续 GenIR 的 BWT± 拉到与索引型检索器同量级。

全部论文

模型	标题	类别	公司	摘要分	精读分
KSA	Kwai Summary Attention Technical Report	LLM	🏢 Kuaishou	9	9
AdaSID	Beyond Static Collision Handling: Adaptive Semantic ID Learning for Multimodal Recommendation at Industrial Scale	生成式	🏢 Kuaishou	9	8
Pro-GEO	Birds of a Feather Cluster Nearby: a Proximity-Aware Geo-Codebook for Local Service Recommendation	生成式	🏢 Meituan	7	8
SUIN	Similar Users-Augmented Interest Network	判别式	🎓 学术	7	7
PAMT	A Parametric Memory Head for Continual Generative Retrieval	其他	🎓 学术	7	7
—	Scaling Properties of Continuous Diffusion Spoken Language Models	其他	🏢 Apple	7	7
DC4SR	Disagreement as Signals: Dual-view Calibration for Sequential Recommendation Denoising	判别式	🎓 学术	6	—
—	Lost in Decoding? Reproducing and Stress-Testing the Look-Ahead Prior in Generative Retrieval	生成式	🎓 学术	6	—
TRACE	Follow the TRACE: Exploiting Post-Click Trajectories for Online Delayed Conversion Rate Prediction	判别式	🎓 学术	6	—
BITRec	Modeling Behavioral Intensity and Transitions for Generative Recommendation	生成式	🎓 学术	6	—
—	A Limit Theory of Foundation Models: A Mathematical Approach to Understanding Emergent Intelligence and Scaling Laws	LLM	🎓 学术	5	—
PUDA	Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems	LLM	🎓 学术	5	—
—	Efficient VQ-QAT and Mixed Vector/Linear quantized Neural Networks	其他	🎓 学术	4	—
—	Adopting State-of-the-Art Pretrained Audio Representations for Music Recommender Systems	其他	🎓 学术	4	—
GREW	Green-Red Watermarking for Recommender Systems	其他	🎓 学术	4	—
—	GLIER: Generative Legal Inference and Evidence Ranking for Legal Case Retrieval	其他	🎓 学术	4	—