2026-05-01 日报
主题: LLM 生成式推荐的推理加速与列表重排
标签: pretrained-lm · transformer · semantic-id · search-ranking · academic
📊 统计: 共 2 篇 · 精读 1 · 🏢 工业界 0 · 🎓 学术 2 · generative-rec 1 · llm 1
综述
今日共 2 篇论文,均聚焦 LLM 推荐方向,分布于 generative-rec 与 llm 两类,全部来自学术机构。重点论文 PAD-Rec(中科大等)针对 SID 列表式生成推荐的推理瓶颈,在 speculative decoding 草稿模型中注入 within-item slot 与 draft-step 两类位置嵌入并以轻量门控融合,使草稿端结构感知化,在四个公开数据集上获得最高 3.1× wall-clock 加速且推荐质量基本无损。InvariRank 则面向 LLM listwise 重排的位置敏感问题,通过结构化注意力 mask 阻断候选间交叉注意力,并在 RoPE 下共享位置框架,实现单次前向对所有候选打分且对输入顺序不变,在推荐基准上保持有效性并产出顺序稳定的排序。两篇论文共同指向当下 LLM-based 推荐的工程化痛点:前者用结构感知的 speculative decoding 解决生成端延迟,后者用注意力与位置设计消除判别端的位置偏置,反映出推理效率与排序稳定性正成为 LLM 推荐落地的关键研究方向。
重点论文
PAD-Rec · ⭐ 7/10
Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation
🎓 学术 · 生成式推荐
PAD-Rec 通过在 speculative decoding 草稿模型中注入 within-item slot 与 draft-step 位置嵌入并加门控融合,针对生成式推荐的 SID 结构与多步不确定性进行结构感知加速,在四个公开数据集上取得最高 3.1× wall-clock 加速且基本不损失推荐质量。
InvariRank · ⭐ 6/10
One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation
🎓 学术 · LLM
InvariRank 通过结构化注意力 mask 阻断候选间交叉注意力,并在 RoPE 下采用共享位置框架,使 LLM listwise 重排单次前向即对候选打分且对输入顺序不变,在推荐基准上保持有效性同时获得稳定排序。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| PAD-Rec | Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation | 生成式 | 🎓 学术 | 7 | 7 |
| InvariRank | One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation | LLM | 🎓 学术 | 6 | — |