2026-06-24 日报

主题: Scaling law 透视:LLM 蒸馏、可塑性与基础模型再评测

标签: parameter-scaling · knowledge-distillation · search-ranking · academic

📊 统计: 共 4 篇 · 精读 0 · 🏢 工业界 0 · 🎓 学术 4 · llm 3 · other 1

综述

本日共收录 4 篇论文,3 篇属 LLM、1 篇为图学习,全部来自学术界,主线围绕“规模化”展开。Scaling Laws for Task-Specific LLM Distillation 推导面向特定领域的压缩经验 scaling law,量化迭代结构化剪枝下领域内/通用性能随数据量与压缩比的变化,并提出 blended CoT 监督损失稳定 KL 蒸馏、恢复剪枝抹去的通用知识,附带发布量化金融数据集 FinHeadlineMix。DREAM 用冻结 LLM 的下一 token 预测目标监督稠密检索,把 query-doc 相似度分数注入部分注意力头,避开对比学习的正负样本对,在 BEIR/RTEB 上 0.5B-3B 全面超越基线。Can Scale Save Us From Plasticity Loss 发现多语持续学习中的可塑性损失随模型规模呈次线性 scaling law,更大模型只能延缓而非消除,平稳训练下亦存在。另有一篇对 9 个图基础模型做公平再评测,结论是仅 PFN 范式新模型能胜过调优 GNN。趋势上,scaling law 正从预训练外溢到蒸馏、可塑性等子问题,而“以生成式目标替代对比学习”为检索训练提供了新范式。

重点论文

Scaling Laws for Task-Specific LLM Distillation · ⭐ 6/10

🎓 学术 · LLM

推导面向特定领域的 LLM 压缩经验 scaling law,量化在迭代结构化剪枝下领域内/通用性能如何随数据量、压缩比、监督格式变化;提出稳定 KL 蒸馏的 blended CoT 监督损失,发现 CoT 监督能恢复剪枝抹去的通用知识。以量化金融为应用域并发布 FinHeadlineMix 数据集。

DREAM · ⭐ 6/10

DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

🎓 学术 · LLM

提出 DREAM,用 LLM 的下一 token 预测目标来监督稠密检索训练,避开对比学习所需的正负样本对。方法把检索器产生的 query-doc 相似度分数注入冻结 LLM 的部分注意力头,经预测损失反传梯度训练检索器,在 BEIR/RTEB 上从 0.5B 到 3B 规模均超过基线。

Can Scale Save Us From Plasticity Loss in Large Language Models? · ⭐ 5/10

🎓 学术 · LLM

在 5M-314M 参数的 GPT 式 Transformer 上研究多语言持续学习中的可塑性损失,发现其依然存在且随模型规模呈次线性可预测的 scaling law,更大模型只能延缓而非消除该现象;平稳多语训练下也观测到可塑性损失。

全部论文

模型	标题	类别	公司	摘要分	精读分
—	Scaling Laws for Task-Specific LLM Distillation	LLM	🎓 学术	6	—
DREAM	DREAM: Dense Retrieval Embeddings via Autoregressive Modeling	LLM	🎓 学术	6	—
—	Can Scale Save Us From Plasticity Loss in Large Language Models?	LLM	🎓 学术	5	—
—	A Fair Evaluation of Graph Foundation Models for Node Property Prediction	其他	🎓 学术	4	—