← 返回报告列表

2026-06-11 日报

日报 📅 2026-06-10
LLM 推荐检索工业落地:蒸馏与压缩的降本提效
pretrained-lm knowledge-distillation quantization industrial
📊 共 5 篇 · 精读 1

2026-06-11 日报

主题: LLM 推荐检索工业落地:蒸馏与压缩的降本提效

标签: pretrained-lm · knowledge-distillation · quantization · industrial

📊 统计: 共 5 篇 · 精读 1 · 🏢 工业界 1 · 🎓 学术 4 · generative-rec 1 · llm 1 · other 3

综述

今日 5 篇论文(生成式推荐 1、LLM 1、其他 3),工业与学术大致各半,仅 1 篇精读。主线是大模型如何被蒸馏与压缩塞进工业推荐/检索的实时服务链路。Google 的 LLM-Based User Personas 在十亿级视频平台实时生成自然语言用户兴趣画像(总结兴趣+探索兴趣),把 Gemini Pro 蒸馏到 Nano 并经异步生成与量化压上线,线上观看时长 +0.04%、活跃用户 +0.03%,增益集中于轻度用户;MatchLM2Lite 沿用同样的"教师定义上界、轻量学生上线"思路做复制内容识别,算力降 35× 仍保住大部分精度,复制视频曝光率降 2.5% 且不伤互动。学术侧 CompRank 通过文档表示解耦+分段 token 压缩+解码无关打分,在 7 个 BEIR 数据集仅保留 10.2% token 即逼近全量 NDCG 并提速 4.9×–9.5×;另有量化对稠密 top-k 检索嵌入维度下界的理论刻画,以及 DeMix 基于影响向量的训练数据纠错。趋势上,蒸馏、量化与 token 压缩正成为 LLM 推荐检索降本提效的标配组合。

重点论文

LLM-Based User Personas for Recommendations at Scale · ⭐ 7/10

🏢 Google · 生成式推荐

Google 在十亿级视频推荐平台上用 LLM 实时生成自然语言用户兴趣画像(总结兴趣+探索兴趣),经知识蒸馏(Gemini Pro→Nano)+异步生成+量化压进工业服务链路,线上观看时长 +0.04%、活跃用户 +0.03%,增益主要来自轻度用户。

CompRank · ⭐ 6/10

CompRank: Efficient LLM Reranking via Token-Level Compression and Decoding-Free Scoring

🎓 学术 · LLM

提出 CompRank,一种 token 高效的 LLM 重排框架:解耦文档表示与候选顺序/查询上下文以复用文档侧状态,分段 token 压缩降低交互成本,并用 CopyNet 式目标对齐基于注意力的(解码无关)打分与训练监督。在 7 个 BEIR 数据集仅保留 10.2% 文档 token 即逼近全 token 性能(NDCG@10 39.2 vs 39.7),并获得 4.9×–9.5× 端到端加速。

MatchLM2Lite · ⭐ 6/10

MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Reproduced Content Identification

🎓 学术 · 其他

提出 MatchLM2Lite,一套生产级实时"复制内容识别(RCI)"系统:高容量多模态大模型 MatchLM 作教师定义性能上界,蒸馏为轻量学生模型 MatchLite,联合建模视频/音频/文本对并输出细粒度复制分。MatchLite 在保留大部分精度的同时算力降低 35×,线上稳定高 QPS 服务、端到端延迟<30s,使平台复制视频曝光率下降 2.5% 且不损伤互动。

全部论文

模型 标题 类别 公司 摘要分 精读分
LLM-Based User Personas for Recommendations at Scale 生成式 🏢 Google 8 7
CompRank CompRank: Efficient LLM Reranking via Token-Level Compression and Decoding-Free Scoring LLM 🎓 学术 6
MatchLM2Lite MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Reproduced Content Identification 其他 🎓 学术 6
What Limits Does Quantization Place on Dense Top-$k$ Retrieval? A Theoretical Study 其他 🎓 学术 5
DeMix DeMix: Debugging Training Data with Mixed Data Error Types by Investigating Influence Vectors 其他 🎓 学术 4