myWiki/papers/zhou-agent-symbolic-learning-2024.md

---
title: "Agent Symbolic Learning: 用符号学习实现自进化 Agent"
created: 2026-05-29
updated: 2026-05-29
type: paper
arxiv: "2406.18532"
authors: ["Wangchunshu Zhou", "Yixin Ou", "Shengwei Ding", "Long Li", "Jialong Wu", "Tiannan Wang", "Jiamin Chen", "Shuai Wang", "Xiaohua Xu", "Ningyu Zhang", "Huajun Chen", "Yuchen Eleanor Jiang"]
venue: "arXiv cs.CL, June 2024"
tags: ["agent", "symbolic-learning", "self-evolving", "optimization"]
sources: ["https://arxiv.org/abs/2406.18532"]
---

# Agent Symbolic Learning: 符号学习驱动的自进化 Agent

> **论文**: Zhou et al. (AIWaves, 2024) — arXiv:2406.18532
> **代码**: https://github.com/aiwaves-cn/agents

## 核心问题

当前 Agent 开发是 **engineering-centric** 的：prompt、工具、pipeline 都需要人类手动设计。Agent Symbolic Learning 提出了一个根本性转变——让 Agent **从数据中自动学习和进化**。

## 方法：Agent = Symbolic Network

| 神经网络 | Agent Symbolic Network |
|----------|------|
| 计算图 | Agent Pipeline |
| 层 (Layer) | 节点 (Node) |
| 权重 (Weights) | Prompts + Tools |
| 损失函数 | [[language-loss\|Language Loss]] |
| 梯度 | [[language-gradient\|Language Gradients]] |
| 反向传播 | [[symbolic-backpropagation\|Symbolic Back-Propagation]] |
| 优化器 | Symbolic Optimizer (LLM) |

### 三阶段流程

1. **Forward Pass**: Agent 沿 pipeline 执行 → 记录每个节点的轨迹
2. **Backward Pass**: 从末节点向前传播 Language Loss → 每个节点的 Language Gradients
3. **Weight Update**: Optimizer (LLM) 根据 gradients 更新所有 prompts/tools/pipeline

## 关键创新

- **Holistic Joint Optimization**: 同时优化所有符号组件，避免 DSPy 等方法分别优化带来的局部最优
- **支持 pipeline 结构修改**: 不仅是改 prompt，还可以添加/删除节点
- **无 ground-truth 也能学**: Language Loss 不需要标准答案

## 历史定位

这是"模仿神经网络反向传播来优化 Agent"思路的**原始提出者**。后续 [[yang-skillopt-2026|SkillOpt]]、[[heuristic-learning|Heuristic Learning]] 是在这一范式下的延伸和工程化。在吕明的两篇深度解读文章中被重点引用。

## 概念网络

- [[agent-symbolic-learning]] — 框架总览
- [[symbolic-network]] — Agent 作为符号网络
- [[language-gradient]] — 语言梯度
- [[symbolic-backpropagation]] — 符号反向传播
- [[self-evolving-agents]] — 自进化 Agent
- [[language-loss]] — 语言损失