2026-04-23 日报
主题: LLM 自博弈扩展与 Agent 记忆结构化生成
标签: llm-based · rl · scaling · academic
📊 统计: 共 2 篇 · 精读 0 · 🏢 工业界 0 · 🎓 学术 2 · llm 2
综述
本日共 2 篇 LLM 方向学术论文,均未精读,聚焦 LLM 训练扩展与 Agent 基础设施两个子方向。Scaling Self-Play with Self-Guidance(SGS,Stanford,Hashimoto/Tengyu Ma 组)在传统 Conjecturer/Solver 双角色自博弈之外引入第三方 Guide 角色,对合成问题的相关性与自然度打分以抑制 Conjecturer 的 reward hacking,在 Lean4 定理证明任务上拟合出累计解题率的 scaling law,使 7B 模型经 200 轮自博弈后 pass@4 超越 671B 模型,是当日最值得关注的工作。To Know is to Construct(SCG-MEM)将 LLM Agent 记忆访问重构为 schema-constrained generation,通过动态认知 schema 约束解码仅产出合法 memory key,配合同化/顺应机制更新 schema 并以 Associative Graph 支持多跳推理,在 LoCoMo 上缓解结构化幻觉。趋势上,自博弈与 scaling law 的结合、以及受约束解码在 Agent memory/工具调用场景的延伸,是下阶段 LLM 后训练与 Agent 系统设计值得追踪的方向。
重点论文
SGS · ⭐ 6/10
Scaling Self-Play with Self-Guidance
🎓 学术 · LLM
提出 Self-Guided Self-Play(SGS),在 Conjecturer/Solver 之外引入 Guide 角色,对合成问题的相关性与自然度打分以防止 Conjecturer 崩塌;在 Lean4 定理证明上拟合 scaling law,7B 模型经 200 轮自博弈超过 671B 模型 pass@4。
SCG-MEM · ⭐ 5/10
To Know is to Construct: Schema-Constrained Generation for Agent Memory
🎓 学术 · LLM
提出 SCG-MEM,通过动态 Cognitive Schema 约束 LLM 解码,仅生成合法的 memory entry key,避免结构化幻觉;结合同化/顺应机制更新 schema,并用 Associative Graph 支持多跳推理。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| SGS | Scaling Self-Play with Self-Guidance | LLM | 🎓 学术 | 6 | — |
| SCG-MEM | To Know is to Construct: Schema-Constrained Generation for Agent Memory | LLM | 🎓 学术 | 5 | — |