2026-06-10 日报
主题: LLM 语义驱动推荐与 2-bit 极致量化双线推进
标签: pretrained-lm · semantic-id · quantization · industrial
📊 统计: 共 5 篇 · 精读 1 · 🏢 工业界 1 · 🎓 学术 4 · generative-rec 2 · llm 2 · discriminative-rec 1
综述
当日共 5 篇:推荐系统 3 篇(生成式 2、判别式 1)、LLM 量化 2 篇;工业界仅快手 1 篇,其余 4 篇为学术,精读 1 篇。重点上,快手 AIR 把基于 LLM 的跨域意图推理离线化为“原子行为-意图对”缓存,在线仅做意图树检索、目标感知检索与 MHA 融合,以约 400 倍吞吐换取实时 LLM 语义,电商场景取得 +3.446% GMV,是当日唯一工业落地。GenAIR 用 LLM 从元数据推断物品“原型”作为表示,并以行为校准目标 grounding 到真实交互信号,可即插即用增强序列推荐;SIDInspector 提出“映射优先”诊断,在下游训练前体检 Semantic-ID tokenizer 的覆盖率、别名率与邻域对齐。量化线上,UniSVQ 与 LC-QAT(同源团队)分别以统一标量-向量量化和线性约束 VQ-QAT 实现 2-bit 压缩,既兼容整数 kernel 又保留 VQ 灵活性且数据高效。整体看,LLM 语义(意图/原型/Semantic-ID)正从在线推理转向离线蒸馏与表示注入以化解工业延迟,2-bit 量化则向“格点参数化 + 可微训练”的统一框架收敛,值得持续关注。
重点论文
AIR · ⭐ 8/10
Atomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations
🏢 Kuaishou · 生成式推荐
把 LLM 跨域意图推理离线化为'原子行为-意图对'缓存,在线只做意图树检索 + 目标感知检索 + MHA 融合,以约 400x 吞吐换取实时 LLM 语义,在快手电商取得 +3.446% GMV。
GenAIR · ⭐ 6/10
Generative Archetype-Grounded Item Representations for Sequential Recommendation
🎓 学术 · 判别式推荐
GenAIR 用 LLM 从物品元数据推断“原型”(item 理想目标受众的概念画像)作为物品表示,并引入行为校准目标把生成式原型 grounding 到真实交互信号,可即插即用增强各类序列推荐模型。
SIDInspector · ⭐ 6/10
SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers
🎓 学术 · 生成式推荐
SIDInspector 是面向生成式推荐中 Semantic-ID tokenizer 产物的“映射优先”诊断工具,定义统一适配契约并报告覆盖率、别名率、邻域对齐、长尾压缩、前缀扇出等映射级探针,在下游训练前就能体检 tokenizer 质量。
LC-QAT · ⭐ 6/10
LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization
🎓 学术 · LLM
LC-QAT 是面向 2-bit LLM 的权重量化 QAT 框架,用对离散向量的可学习仿射映射表示量化权重,既得到高质量 PTQ 初始化又支持端到端可微训练(前向无需 codebook 查表),仅用 0.1%–10% 训练数据即超越 SOTA QAT。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| AIR | Atomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations | 生成式 | 🏢 Kuaishou | 8 | 8 |
| UniSVQ | UniSVQ: 2-bit Unified Scalar-Vector Quantization | LLM | 🎓 学术 | 6 | — |
| GenAIR | Generative Archetype-Grounded Item Representations for Sequential Recommendation | 判别式 | 🎓 学术 | 6 | — |
| SIDInspector | SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers | 生成式 | 🎓 学术 | 6 | — |
| LC-QAT | LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization | LLM | 🎓 学术 | 6 | — |