2026-06-24 日报
主题: Scaling law 透视:LLM 蒸馏、可塑性与基础模型再评测
标签: parameter-scaling · knowledge-distillation · search-ranking · academic
📊 统计: 共 4 篇 · 精读 0 · 🏢 工业界 0 · 🎓 学术 4 · llm 3 · other 1
综述
本日共收录 4 篇论文,3 篇属 LLM、1 篇为图学习,全部来自学术界,主线围绕“规模化”展开。Scaling Laws for Task-Specific LLM Distillation 推导面向特定领域的压缩经验 scaling law,量化迭代结构化剪枝下领域内/通用性能随数据量与压缩比的变化,并提出 blended CoT 监督损失稳定 KL 蒸馏、恢复剪枝抹去的通用知识,附带发布量化金融数据集 FinHeadlineMix。DREAM 用冻结 LLM 的下一 token 预测目标监督稠密检索,把 query-doc 相似度分数注入部分注意力头,避开对比学习的正负样本对,在 BEIR/RTEB 上 0.5B-3B 全面超越基线。Can Scale Save Us From Plasticity Loss 发现多语持续学习中的可塑性损失随模型规模呈次线性 scaling law,更大模型只能延缓而非消除,平稳训练下亦存在。另有一篇对 9 个图基础模型做公平再评测,结论是仅 PFN 范式新模型能胜过调优 GNN。趋势上,scaling law 正从预训练外溢到蒸馏、可塑性等子问题,而“以生成式目标替代对比学习”为检索训练提供了新范式。
重点论文
Scaling Laws for Task-Specific LLM Distillation · ⭐ 6/10
🎓 学术 · LLM
推导面向特定领域的 LLM 压缩经验 scaling law,量化在迭代结构化剪枝下领域内/通用性能如何随数据量、压缩比、监督格式变化;提出稳定 KL 蒸馏的 blended CoT 监督损失,发现 CoT 监督能恢复剪枝抹去的通用知识。以量化金融为应用域并发布 FinHeadlineMix 数据集。
DREAM · ⭐ 6/10
DREAM: Dense Retrieval Embeddings via Autoregressive Modeling
🎓 学术 · LLM
提出 DREAM,用 LLM 的下一 token 预测目标来监督稠密检索训练,避开对比学习所需的正负样本对。方法把检索器产生的 query-doc 相似度分数注入冻结 LLM 的部分注意力头,经预测损失反传梯度训练检索器,在 BEIR/RTEB 上从 0.5B 到 3B 规模均超过基线。
Can Scale Save Us From Plasticity Loss in Large Language Models? · ⭐ 5/10
🎓 学术 · LLM
在 5M-314M 参数的 GPT 式 Transformer 上研究多语言持续学习中的可塑性损失,发现其依然存在且随模型规模呈次线性可预测的 scaling law,更大模型只能延缓而非消除该现象;平稳多语训练下也观测到可塑性损失。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| — | Scaling Laws for Task-Specific LLM Distillation | LLM | 🎓 学术 | 6 | — |
| DREAM | DREAM: Dense Retrieval Embeddings via Autoregressive Modeling | LLM | 🎓 学术 | 6 | — |
| — | Can Scale Save Us From Plasticity Loss in Large Language Models? | LLM | 🎓 学术 | 5 | — |
| — | A Fair Evaluation of Graph Foundation Models for Node Property Prediction | 其他 | 🎓 学术 | 4 | — |