2026-04-23 日报

主题: LLM 自博弈扩展与 Agent 记忆结构化生成

标签: llm-based · rl · scaling · academic

📊 统计: 共 2 篇 · 精读 0 · 🏢 工业界 0 · 🎓 学术 2 · llm 2

综述

本日共 2 篇 LLM 方向学术论文，均未精读，聚焦 LLM 训练扩展与 Agent 基础设施两个子方向。Scaling Self-Play with Self-Guidance（SGS，Stanford，Hashimoto/Tengyu Ma 组）在传统 Conjecturer/Solver 双角色自博弈之外引入第三方 Guide 角色，对合成问题的相关性与自然度打分以抑制 Conjecturer 的 reward hacking，在 Lean4 定理证明任务上拟合出累计解题率的 scaling law，使 7B 模型经 200 轮自博弈后 pass@4 超越 671B 模型，是当日最值得关注的工作。To Know is to Construct（SCG-MEM）将 LLM Agent 记忆访问重构为 schema-constrained generation，通过动态认知 schema 约束解码仅产出合法 memory key，配合同化/顺应机制更新 schema 并以 Associative Graph 支持多跳推理，在 LoCoMo 上缓解结构化幻觉。趋势上，自博弈与 scaling law 的结合、以及受约束解码在 Agent memory/工具调用场景的延伸，是下阶段 LLM 后训练与 Agent 系统设计值得追踪的方向。

重点论文

SGS · ⭐ 6/10

Scaling Self-Play with Self-Guidance

🎓 学术 · LLM

提出 Self-Guided Self-Play（SGS），在 Conjecturer/Solver 之外引入 Guide 角色，对合成问题的相关性与自然度打分以防止 Conjecturer 崩塌；在 Lean4 定理证明上拟合 scaling law，7B 模型经 200 轮自博弈超过 671B 模型 pass@4。

SCG-MEM · ⭐ 5/10

To Know is to Construct: Schema-Constrained Generation for Agent Memory

🎓 学术 · LLM

提出 SCG-MEM，通过动态 Cognitive Schema 约束 LLM 解码，仅生成合法的 memory entry key，避免结构化幻觉；结合同化/顺应机制更新 schema，并用 Associative Graph 支持多跳推理。

全部论文

模型	标题	类别	公司	摘要分	精读分
SGS	Scaling Self-Play with Self-Guidance	LLM	🎓 学术	6	—
SCG-MEM	To Know is to Construct: Schema-Constrained Generation for Agent Memory	LLM	🎓 学术	5	—