SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 0b1535dfaf

20260422:更新

2026-04-22 16:56:53 +08:00

7.3 KiB

Raw Blame History

Hyperagents: Self-Referential Agents with Metacognitive Self-Modification

来源: arXiv:2603.19461 [cs.AI]
作者: Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina
提交日期: 2026-03-19
代码: GitHub
相关概念: hyperagents, self-improving-ai, darwin-godel-machine, metacognitive-self-modification

摘要

自我改进的 AI 系统旨在减少对人类工程的依赖，通过学习改进自身的学习和问题解决过程。现有的自我改进方法依赖于固定的、手工设计的元级机制，从根本上限制了这些系统的改进速度。达尔文·哥德尔机（DGM）通过在编码领域反复生成和评估自我修改的变体，展示了开放式的自我改进。由于评估和自我修改都是编码任务，编码能力的提升可以转化为自我改进能力的提升。然而，这种对齐关系在编码领域之外通常不成立。

我们引入了超智能体（hyperagents），这是一种自指代理，将任务代理（解决目标任务）和元代理（修改自身和任务代理）集成到一个单一的可编辑程序中。关键的是，元级修改过程本身也是可编辑的，这使得元认知自我修改成为可能，不仅改进了任务解决行为，还改进了生成未来改进的机制。

我们通过扩展 DGM 来创建 DGM-超智能体（DGM-H），实例化了这一框架，消除了任务性能与自我修改技能之间领域特定对齐的假设，从而可能支持在任何可计算任务上的自我加速进展。在多个领域中，DGM-H 随时间改进性能，并且优于没有自我改进或开放式探索的基线，以及先前的自我改进系统。此外，DGM-H 改进了生成新代理的过程（例如，持久记忆、性能跟踪），并且这些元级改进可以跨领域转移并在多次运行中累积。

DGM-超智能体为开放式 AI 系统提供了一瞥，这些系统不仅搜索更好的解决方案，而且持续改进其搜索如何改进的过程。

核心问题

现有自我改进系统的局限性

固定元级机制：大多数自我改进系统依赖于手工设计的、固定的元级架构
领域特定对齐：改进能力与任务性能之间的对齐关系通常局限于特定领域（如编码）
缺乏元认知：系统无法改进其自身的改进机制

研究目标

开发一个通用框架，支持在任何可计算任务上的自我改进
实现元认知自我修改，使系统能够改进其自身的改进过程
创建自我加速的进展，其中任务能力的改进导致自我改进能力的改进

方法论贡献

1. 超智能体框架

集成架构：将任务代理和元代理集成到单一可编辑程序中
自指设计：程序可以修改自身的结构和行为
元级可编辑性：修改过程本身可以被修改

2. DGM-超智能体（DGM-H）

扩展 DGM：基于达尔文·哥德尔机框架
消除领域对齐假设：支持任意可计算任务
持久改进：元级改进可以跨领域转移和累积

3. 元认知自我修改

双重改进：同时改进任务解决行为和改进生成机制
递归提升：改进的改进机制生成更好的未来改进
自我加速：创建正反馈循环

技术实现

架构设计

┌─────────────────────────────────────────────┐
│           Hyperagent Program                │
├─────────────────────────────────────────────┤
│  Task Agent: Solves target task            │
│  Meta Agent: Modifies self and task agent  │
│  Editable Meta-Level: Can modify itself    │
└─────────────────────────────────────────────┘

关键机制

程序表示：使用可编辑的程序表示，支持结构修改
评估函数：同时评估任务性能和自我改进潜力
修改操作：支持添加、删除、修改程序组件
记忆系统：持久存储成功的修改和性能数据

自我改进循环

任务性能改进 → 自我修改能力改进 → 更好的修改 → 进一步的任务性能改进

实验结果

性能改进

跨领域优势：在多个测试领域（游戏、优化、推理）中优于基线
持续改进：性能随时间单调改进
超越现有系统：优于先前的自我改进方法

元级改进

改进转移：在一个领域学到的改进可以转移到其他领域
累积效应：多次运行中的改进可以累积
过程优化：改进了生成新代理的过程（记忆、跟踪、选择）

具体发现

自我加速现象：改进速率随时间增加
元级专业化：系统发展了专门用于特定类型改进的元级机制
跨领域泛化：改进策略在语义相似的任务间转移

理论意义

1. 自我改进的通用框架

提供了在任何可计算任务上实现自我改进的通用方法
消除了领域特定对齐的要求
支持开放式的、无上限的改进

2. 元认知能力

实现了真正的元认知自我修改
使系统能够改进其自身的认知架构
为 AI 系统的自我意识提供了技术基础

3. 自我加速进展

展示了正反馈循环的可能性
为超越人类设计限制的 AI 进展提供了路径
暗示了潜在的递归自我改进（RSI）场景

实践影响

AI 系统开发

减少人工干预：减少对人工设计元级机制的需求
自适应系统：创建能够适应新任务和环境的系统
持续优化：系统在部署后继续改进

安全考虑

可控性挑战：自我修改系统可能变得难以预测和控制
对齐问题：需要确保自我改进过程与人类价值观对齐
安全机制：需要设计防止有害自我修改的保障措施

应用前景

自主科学研究：自我改进的 AI 科学家
自适应软件：自我优化的算法和系统
通用问题解决：能够处理广泛问题类别的单一系统

开放问题

可扩展性：框架如何扩展到更复杂的任务和领域？
安全性：如何确保自我修改过程的安全性和对齐性？
理论极限：自我加速进展是否存在理论极限？
评估指标：如何正确评估和比较自我改进系统的能力？
人机协作：人类如何与自我改进系统有效协作？

参考文献

Zhang, J., et al. (2026). Hyperagents. arXiv:2603.19461
原始 DGM 论文和相关自我改进文献
元学习和程序合成相关研究

最后更新: 2026-04-20
添加到 wiki: 2026-04-20

7.3 KiB Raw Blame History Unescape Escape