2026-05-01 日报

主题: LLM 生成式推荐的推理加速与列表重排

标签: pretrained-lm · transformer · semantic-id · search-ranking · academic

📊 统计: 共 2 篇 · 精读 1 · 🏢 工业界 0 · 🎓 学术 2 · generative-rec 1 · llm 1

综述

今日共 2 篇论文，均聚焦 LLM 推荐方向，分布于 generative-rec 与 llm 两类，全部来自学术机构。重点论文 PAD-Rec（中科大等）针对 SID 列表式生成推荐的推理瓶颈，在 speculative decoding 草稿模型中注入 within-item slot 与 draft-step 两类位置嵌入并以轻量门控融合，使草稿端结构感知化，在四个公开数据集上获得最高 3.1× wall-clock 加速且推荐质量基本无损。InvariRank 则面向 LLM listwise 重排的位置敏感问题，通过结构化注意力 mask 阻断候选间交叉注意力，并在 RoPE 下共享位置框架，实现单次前向对所有候选打分且对输入顺序不变，在推荐基准上保持有效性并产出顺序稳定的排序。两篇论文共同指向当下 LLM-based 推荐的工程化痛点：前者用结构感知的 speculative decoding 解决生成端延迟，后者用注意力与位置设计消除判别端的位置偏置，反映出推理效率与排序稳定性正成为 LLM 推荐落地的关键研究方向。

重点论文

PAD-Rec · ⭐ 7/10

Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation

🎓 学术 · 生成式推荐

PAD-Rec 通过在 speculative decoding 草稿模型中注入 within-item slot 与 draft-step 位置嵌入并加门控融合，针对生成式推荐的 SID 结构与多步不确定性进行结构感知加速，在四个公开数据集上取得最高 3.1× wall-clock 加速且基本不损失推荐质量。

InvariRank · ⭐ 6/10

One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation

🎓 学术 · LLM

InvariRank 通过结构化注意力 mask 阻断候选间交叉注意力,并在 RoPE 下采用共享位置框架,使 LLM listwise 重排单次前向即对候选打分且对输入顺序不变,在推荐基准上保持有效性同时获得稳定排序。

全部论文

模型	标题	类别	公司	摘要分	精读分
PAD-Rec	Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation	生成式	🎓 学术	7	7
InvariRank	One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation	LLM	🎓 学术	6	—