--- title: "Agent Symbolic Learning: 用符号学习实现自进化 Agent" created: 2026-05-29 updated: 2026-05-29 type: paper arxiv: "2406.18532" authors: ["Wangchunshu Zhou", "Yixin Ou", "Shengwei Ding", "Long Li", "Jialong Wu", "Tiannan Wang", "Jiamin Chen", "Shuai Wang", "Xiaohua Xu", "Ningyu Zhang", "Huajun Chen", "Yuchen Eleanor Jiang"] venue: "arXiv cs.CL, June 2024" tags: ["agent", "symbolic-learning", "self-evolving", "optimization"] sources: ["https://arxiv.org/abs/2406.18532"] --- # Agent Symbolic Learning: 符号学习驱动的自进化 Agent > **论文**: Zhou et al. (AIWaves, 2024) — arXiv:2406.18532 > **代码**: https://github.com/aiwaves-cn/agents ## 核心问题 当前 Agent 开发是 **engineering-centric** 的:prompt、工具、pipeline 都需要人类手动设计。Agent Symbolic Learning 提出了一个根本性转变——让 Agent **从数据中自动学习和进化**。 ## 方法:Agent = Symbolic Network | 神经网络 | Agent Symbolic Network | |----------|------| | 计算图 | Agent Pipeline | | 层 (Layer) | 节点 (Node) | | 权重 (Weights) | Prompts + Tools | | 损失函数 | [[language-loss\|Language Loss]] | | 梯度 | [[language-gradient\|Language Gradients]] | | 反向传播 | [[symbolic-backpropagation\|Symbolic Back-Propagation]] | | 优化器 | Symbolic Optimizer (LLM) | ### 三阶段流程 1. **Forward Pass**: Agent 沿 pipeline 执行 → 记录每个节点的轨迹 2. **Backward Pass**: 从末节点向前传播 Language Loss → 每个节点的 Language Gradients 3. **Weight Update**: Optimizer (LLM) 根据 gradients 更新所有 prompts/tools/pipeline ## 关键创新 - **Holistic Joint Optimization**: 同时优化所有符号组件,避免 DSPy 等方法分别优化带来的局部最优 - **支持 pipeline 结构修改**: 不仅是改 prompt,还可以添加/删除节点 - **无 ground-truth 也能学**: Language Loss 不需要标准答案 ## 历史定位 这是"模仿神经网络反向传播来优化 Agent"思路的**原始提出者**。后续 [[yang-skillopt-2026|SkillOpt]]、[[heuristic-learning|Heuristic Learning]] 是在这一范式下的延伸和工程化。在吕明的两篇深度解读文章中被重点引用。 ## 概念网络 - [[agent-symbolic-learning]] — 框架总览 - [[symbolic-network]] — Agent 作为符号网络 - [[language-gradient]] — 语言梯度 - [[symbolic-backpropagation]] — 符号反向传播 - [[self-evolving-agents]] — 自进化 Agent - [[language-loss]] — 语言损失