2026-06-23 日报
主题: 推荐扩展的代价与 LLM 驱动的评估新范式
标签: parameter-scaling · pretrained-lm · transformer · academic
📊 统计: 共 8 篇 · 精读 0 · 🏢 工业界 0 · 🎓 学术 8 · llm 2 · other 2 · discriminative-rec 3 · generative-rec 1
综述
当日共 8 篇,全部出自学术界、无工业参与且均为简评未精读;类别上判别式推荐 3 篇、LLM 2 篇、其他 2 篇(对话推荐评估与轨迹推荐)、生成式推荐 1 篇。重点之中,SPRINT 揭示 Transformer 序列推荐扩参时精度上升却同时放大流行度偏置,根因是注意力聚合与 FFN 投影协同引发的预测“谱坍缩”,通过约束注意力得分矩阵的最大列和与 FFN 谱范数,在 0.05M–0.34B 规模上同时改善精度与长尾公平。量化理论一文从表达能力出发证明 1.58-bit 为权重量化的极限精度、表达力随比特数多项式退化;LLM-as-a-Judge 以用户文本行为构造语义代理替代刚性 ID 匹配并“先推理后打分”,提升离线 Top-K 评估的可靠性与可解释性;TailorMind 面向无现成物品池的个性化多模态内容生成,用超图协同过滤与文本梯度优化用户画像并推出 TailorBench。整体呈现两条主线:一是“扩展的代价”,从推荐扩参的偏置放大延伸到量化与模型合并的 scaling 边界,提示规模化须兼顾公平与表达力;二是 LLM 正从生成走向“评估器/模拟器”角色,重塑推荐离线评估范式。
重点论文
SPRINT · ⭐ 8/10
The Pitfall of Scaling Up: Uncovering and Mitigating Popularity Bias Amplification in Scaling Transformer-based Recommenders
🎓 学术 · 判别式推荐
发现 Transformer 序列推荐在扩大规模时虽提升精度却同时放大流行度偏置,根因是注意力聚合与 FFN 投影协同导致预测的"谱坍缩"。提出 SPRINT,通过约束注意力得分矩阵的最大列和与 FFN 参数的谱范数来缓解谱坍缩,在 0.05M–0.34B 规模上同时改善精度与长尾公平性。
On the Expressive Power of Weight Quantization in Large Language Models · ⭐ 6/10
🎓 学术 · LLM
从理论上刻画 LLM 表达能力与权重量化比特数的关系,证明 1.58-bit 是权重量化的极限精度,并表明表达能力随比特数减少呈多项式退化。属纯理论分析,为量化 scaling law 提供基础但无实验或工业验证。
LLM-as-a-Judge for Reliable and Explainable Offline Evaluation in Top-K Recommendation · ⭐ 6/10
🎓 学术 · 判别式推荐
针对离线 Top-K 推荐评估的可靠性与可解释性缺陷,提出 LLM-as-a-Judge 框架:用用户文本行为构造语义代理替代刚性 ID 匹配以提升可靠性,并用"先推理后打分"生成带理由的相关性判断以增强可解释性,再聚合为 Top-K 指标。
TailorMind · ⭐ 6/10
TailorMind: Towards Preference-Aligned Multimodal Content Generation
🎓 学术 · 生成式推荐
研究无现成物品池的个性化多模态内容生成,提出 TailorMind:用超图协同过滤丰富稀疏用户历史、以排序误差反馈与文本梯度下降优化用户文本画像,并用检索增强的风格控制与跨模态一致性反思生成贴合用户偏好的内容,同时构建 TailorBench 基准。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| SPRINT | The Pitfall of Scaling Up: Uncovering and Mitigating Popularity Bias Amplification in Scaling Transformer-based Recommenders | 判别式 | 🎓 学术 | 8 | — |
| — | On the Expressive Power of Weight Quantization in Large Language Models | LLM | 🎓 学术 | 6 | — |
| — | LLM-as-a-Judge for Reliable and Explainable Offline Evaluation in Top-K Recommendation | 判别式 | 🎓 学术 | 6 | — |
| TailorMind | TailorMind: Towards Preference-Aligned Multimodal Content Generation | 生成式 | 🎓 学术 | 6 | — |
| — | Scaling Linear Mode Connectivity and Merging to Billion Parameter Pretrained Transformers | LLM | 🎓 学术 | 5 | — |
| MORL-A2C | MORL-A2C: Multi-Objective Reinforcement Learning Reranker for Optimizing Healthiness in MOPI-HFRS | 判别式 | 🎓 学术 | 5 | — |
| AdaptSim | Towards Fast Domain Adaptation and Fine-Grained User Simulation for Evaluating Conversational Recommender Systems | 其他 | 🎓 学术 | 5 | — |
| — | Trajectory-Based Recommender Systems as Control Systems | 其他 | 🎓 学术 | 4 | — |