← 返回报告列表

2026-06-10 日报

日报 📅 2026-06-09
LLM 语义驱动推荐与 2-bit 极致量化双线推进
pretrained-lm semantic-id quantization industrial
📊 共 5 篇 · 精读 1

2026-06-10 日报

主题: LLM 语义驱动推荐与 2-bit 极致量化双线推进

标签: pretrained-lm · semantic-id · quantization · industrial

📊 统计: 共 5 篇 · 精读 1 · 🏢 工业界 1 · 🎓 学术 4 · generative-rec 2 · llm 2 · discriminative-rec 1

综述

当日共 5 篇:推荐系统 3 篇(生成式 2、判别式 1)、LLM 量化 2 篇;工业界仅快手 1 篇,其余 4 篇为学术,精读 1 篇。重点上,快手 AIR 把基于 LLM 的跨域意图推理离线化为“原子行为-意图对”缓存,在线仅做意图树检索、目标感知检索与 MHA 融合,以约 400 倍吞吐换取实时 LLM 语义,电商场景取得 +3.446% GMV,是当日唯一工业落地。GenAIR 用 LLM 从元数据推断物品“原型”作为表示,并以行为校准目标 grounding 到真实交互信号,可即插即用增强序列推荐;SIDInspector 提出“映射优先”诊断,在下游训练前体检 Semantic-ID tokenizer 的覆盖率、别名率与邻域对齐。量化线上,UniSVQ 与 LC-QAT(同源团队)分别以统一标量-向量量化和线性约束 VQ-QAT 实现 2-bit 压缩,既兼容整数 kernel 又保留 VQ 灵活性且数据高效。整体看,LLM 语义(意图/原型/Semantic-ID)正从在线推理转向离线蒸馏与表示注入以化解工业延迟,2-bit 量化则向“格点参数化 + 可微训练”的统一框架收敛,值得持续关注。

重点论文

AIR · ⭐ 8/10

Atomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations

🏢 Kuaishou · 生成式推荐

把 LLM 跨域意图推理离线化为'原子行为-意图对'缓存,在线只做意图树检索 + 目标感知检索 + MHA 融合,以约 400x 吞吐换取实时 LLM 语义,在快手电商取得 +3.446% GMV。

GenAIR · ⭐ 6/10

Generative Archetype-Grounded Item Representations for Sequential Recommendation

🎓 学术 · 判别式推荐

GenAIR 用 LLM 从物品元数据推断“原型”(item 理想目标受众的概念画像)作为物品表示,并引入行为校准目标把生成式原型 grounding 到真实交互信号,可即插即用增强各类序列推荐模型。

SIDInspector · ⭐ 6/10

SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers

🎓 学术 · 生成式推荐

SIDInspector 是面向生成式推荐中 Semantic-ID tokenizer 产物的“映射优先”诊断工具,定义统一适配契约并报告覆盖率、别名率、邻域对齐、长尾压缩、前缀扇出等映射级探针,在下游训练前就能体检 tokenizer 质量。

LC-QAT · ⭐ 6/10

LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

🎓 学术 · LLM

LC-QAT 是面向 2-bit LLM 的权重量化 QAT 框架,用对离散向量的可学习仿射映射表示量化权重,既得到高质量 PTQ 初始化又支持端到端可微训练(前向无需 codebook 查表),仅用 0.1%–10% 训练数据即超越 SOTA QAT。

全部论文

模型 标题 类别 公司 摘要分 精读分
AIR Atomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations 生成式 🏢 Kuaishou 8 8
UniSVQ UniSVQ: 2-bit Unified Scalar-Vector Quantization LLM 🎓 学术 6
GenAIR Generative Archetype-Grounded Item Representations for Sequential Recommendation 判别式 🎓 学术 6
SIDInspector SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers 生成式 🎓 学术 6
LC-QAT LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization LLM 🎓 学术 6