20260422:更新

2026-04-22 16:56:53 +08:00
parent dd8345a6ea
commit 0b1535dfaf
34 changed files with 4111 additions and 19 deletions
--- a/papers/clawless-ai-agent-security.md
+++ b/papers/clawless-ai-agent-security.md
@@ -0,0 +1,97 @@
+# ClawLess: AI 代理安全模型
+
+**作者**: Hongyi Lu, Nian Liu, Shuai Wang, Fengwei Zhang  
+**机构**: 南方科技大学，香港科技大学  
+**arXiv ID**: 2604.06284v1  
+**领域**: 计算机安全 (cs.CR)  
+**日期**: 2026年4月7日  
+
+## 中文摘要
+
+基于大语言模型的自主AI代理能够推理、规划和执行复杂任务，但其自主检索信息和运行代码的能力带来了重大安全风险。现有方法试图通过训练或提示来规范代理行为，但这无法提供根本性的安全保障。本文提出ClawLess，一个在最坏情况威胁模型下对AI代理强制执行形式化验证策略的安全框架，该模型假设代理本身可能是对抗性的。ClawLess形式化了一个细粒度的安全模型，涵盖系统实体、信任范围和权限，以表达适应代理运行时行为的动态策略。这些策略被转化为具体的安全规则，并通过增强BPF系统调用拦截的用户空间内核来强制执行。这种方法将形式化安全模型与实际执行相结合，确保安全性与代理的内部设计无关。
+
+## 核心问题
+
+自主AI代理的安全面临三个主要挑战：
+
+1. **模糊的信任边界**：AI代理从多样化来源自主检索数据，模糊了可信与不可信输入之间的界限
+2. **权限/可用性权衡**：AI代理需要多种权限来有效执行任务，但授予这些权限会带来安全风险
+3. **自主软件的安全性**：传统安全机制无法适应LLM输出的非确定性特性
+
+## 方法论贡献
+
+### 1. 形式化安全模型
+ClawLess建立了一个细粒度的安全模型，捕获系统多个领域中的实体、范围和权限，实现精确的安全策略规范。
+
+### 2. 策略编译与执行
+- **高层策略规范**：使用形式化方法定义安全策略
+- **策略编译**：将高层策略转化为具体的系统调用规则
+- **运行时执行**：通过用户空间内核和BPF拦截强制执行策略
+
+### 3. 隔离架构
+部署AI代理在安全容器中，使用用户空间内核提供保护，同时保持可用性。
+
+## 关键发现
+
+### 安全容器比较
+| 容器类型 | 兼容性 | 互操作性 | 部署性 | 安全性 |
+|---------|--------|----------|--------|--------|
+| 标准Docker | 高 | 高 | 高 | 弱 |
+| 用户空间内核 | 中 | 中 | 中 | 强 |
+| 虚拟化 | 低 | 低 | 低 | 强 |
+| 机密容器 | 低 | 低 | 低 | 最强 |
+
+### 漏洞统计
+- **标准Docker**：过去十年有37个CVE，其中5个是高危漏洞（CVSS > 9.0）
+- **用户空间内核**：过去十年仅有1个CVE，在安全性和可用性之间取得平衡
+
+## 核心概念
+
+本文涉及以下关键概念：
+
+- [[ClawLess]] - AI代理安全框架
+- [[AI代理安全]] - 自主AI系统的安全挑战
+- [[形式化安全模型]] - 使用数学方法定义的安全规范
+- [[用户空间内核]] - 在用户空间实现的内核功能
+- [[BPF系统调用拦截]] - 使用BPF技术拦截和控制系统调用
+- [[安全容器]] - 提供隔离和保护的容器技术
+- [[最坏情况威胁模型]] - 假设系统可能面临的最坏攻击场景
+
+## 技术实现
+
+### ClawLess架构
+1. **策略层**：形式化安全策略定义
+2. **编译层**：策略到系统调用规则的转换
+3. **执行层**：用户空间内核 + BPF拦截
+4. **隔离层**：安全容器部署
+
+### 执行机制
+- **BPF程序**：拦截系统调用并应用安全规则
+- **用户空间内核**：提供可信执行环境
+- **策略验证**：使用形式化方法验证策略正确性
+
+## 与现有工作的比较
+
+- **vs 训练/提示方法**：ClawLess不依赖代理合作，提供根本性安全保障
+- **vs 传统容器**：提供更强的安全隔离和形式化验证
+- **vs 其他安全框架**：首次针对自主AI代理的全面安全分析
+
+## 意义与启示
+
+ClawLess为保护系统免受潜在恶意自主AI代理的攻击提供了原则性基础，超越了基于训练/提示的方法，转向形式化验证和运行时执行。
+
+## 相关论文
+
+- [[ACE-LLM集成应用系统安全架构]]
+- [[IsolateGPT-LLM代理系统执行隔离架构]]
+- [[NeuroFilter-对话LLM代理隐私护栏]]
+
+## 参考文献
+
+1. Lu, H., Liu, N., Wang, S., & Zhang, F. (2026). ClawLess: A Security Model of AI Agents. arXiv:2604.06284v1.
+2. 论文中引用的相关研究工作。
+
+---
+*创建时间: 2026-04-22*  
+*最后更新: 2026-04-22*  
+*Wiki集成: 已完成*
--- a/papers/nikolopoulos-spurious-predictability.md
+++ b/papers/nikolopoulos-spurious-predictability.md
@@ -0,0 +1,97 @@
+---
+title: "Spurious Predictability in Financial Machine Learning"
+created: 2026-04-20
+updated: 2026-04-20
+type: paper
+tags: [statistics, machine-learning, finance, methodology, econometrics]
+sources: [raw/papers/nikolopoulos-spurious-predictability-2026.md]
+---
+
+# Spurious Predictability in Financial Machine Learning
+
+**arXiv:** 2604.15531 [q-fin.ST, stat.ME, stat.ML] · 2026-04-16  
+**作者:** Sotirios D. Nikolopoulos  
+**代码:** QuantAudit R package (待发布)  
+**DOI:** https://doi.org/10.48550/arXiv.2604.15531
+
+## 核心问题
+
+金融机器学习中普遍存在的**虚假可预测性 (Spurious Predictability)** 问题：自适应规范搜索（数据挖掘、模型选择、超参数调优）即使在底层数据生成过程没有真正预测结构的情况下，也能产生统计显著的 backtest 结果。
+
+## 方法论贡献
+
+### 1. 证伪审计 (Falsification Audit)
+提出一个系统性的验证框架，测试完整预测工作流在合成参考类上的表现：
+
+- **零可预测性环境**：模拟没有真正预测结构的数据
+- **微观结构安慰剂**：包含真实但非预测性的市场微观结构特征
+
+### 2. 选择诱导性能膨胀量化
+对于通过证伪测试的工作流，量化模型选择引入的偏差：
+
+- **样本内优化性能**：在训练数据上的表现
+- **样本外验证性能**：在不相交的 walk-forward 数据上的表现
+- **性能差距**：调整有效多重性后的绝对幅度差异
+
+### 3. 有效多重性调整
+考虑自适应搜索中相关搜索路径和模型规范间依赖关系的多重比较问题调整。
+
+## 关键发现
+
+### 虚假可预测性的来源
+1. **自适应规范搜索**：数据挖掘、模型选择、超参数调优
+2. **多重比较问题**：未调整的统计显著性检验
+3. **过拟合**：样本内优化与样本外表现的差距
+
+### 实证结果
+案例研究证实，金融机器学习中的许多表面发现实际上是方法论伪影，而非真正的可预测性。
+
+## 技术框架
+
+### 统计方法
+- **极值理论**：处理相关搜索的统计分布
+- **有效多重性**：调整相关搜索路径的统计检验
+- **Walk-forward 验证**：时间序列预测的稳健验证协议
+
+### 仿真验证
+通过仿真研究验证框架在不同数据生成过程下的检测能力。
+
+## 实践意义
+
+### 1. 方法论严谨性
+需要建立稳健的验证框架，避免虚假发现。
+
+### 2. 发表偏倚
+类似其他经验科学，存在发表正面结果而忽略适当证伪的倾向。
+
+### 3. 可重复性危机
+金融机器学习面临与其他经验科学相似的可重复性挑战。
+
+## 相关概念
+
+- [[spurious-predictability]] - 虚假可预测性概念详解
+- [[cramer-rao-lower-bound]] - 参数估计的理论下界
+- [[computerized-adaptive-testing]] - 自适应测试方法论
+- [[symbolic-regression]] - 发现数学表达式的机器学习技术
+- [[formal-verification]] - 验证的形式化方法
+
+## 资源链接
+
+- **arXiv:** https://arxiv.org/abs/2604.15531
+- **PDF:** https://arxiv.org/pdf/2604.15531
+- **HTML:** https://arxiv.org/html/2604.15531v1
+- **BibTeX:**
+```bibtex
+@article{nikolopoulos2026spurious,
+  title={Spurious Predictability in Financial Machine Learning},
+  author={Nikolopoulos, Sotirios D.},
+  journal={arXiv preprint arXiv:2604.15531},
+  year={2026}
+}
+```
+
+## 延伸阅读
+
+1. **金融机器学习方法论**：关于过拟合和虚假发现的文献综述
+2. **多重比较问题**：在数据挖掘和机器学习中的统计调整方法
+3. **可重复性研究**：经验科学中的可重复性危机及其解决方案
--- a/papers/zhang-hyperagents.md
+++ b/papers/zhang-hyperagents.md
@@ -0,0 +1,144 @@
+# Hyperagents: Self-Referential Agents with Metacognitive Self-Modification
+
+> **来源**: arXiv:2603.19461 [cs.AI]  
+> **作者**: Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina  
+> **提交日期**: 2026-03-19  
+> **代码**: [GitHub](https://github.com/facebookresearch/Hyperagents)  
+> **相关概念**: [[hyperagents]], [[self-improving-ai]], [[darwin-godel-machine]], [[metacognitive-self-modification]]
+
+## 摘要
+
+自我改进的 AI 系统旨在减少对人类工程的依赖，通过学习改进自身的学习和问题解决过程。现有的自我改进方法依赖于固定的、手工设计的元级机制，从根本上限制了这些系统的改进速度。达尔文·哥德尔机（DGM）通过在编码领域反复生成和评估自我修改的变体，展示了开放式的自我改进。由于评估和自我修改都是编码任务，编码能力的提升可以转化为自我改进能力的提升。然而，这种对齐关系在编码领域之外通常不成立。
+
+我们引入了**超智能体（hyperagents）**，这是一种自指代理，将任务代理（解决目标任务）和元代理（修改自身和任务代理）集成到一个单一的可编辑程序中。关键的是，元级修改过程本身也是可编辑的，这使得元认知自我修改成为可能，不仅改进了任务解决行为，还改进了生成未来改进的机制。
+
+我们通过扩展 DGM 来创建 DGM-超智能体（DGM-H），实例化了这一框架，消除了任务性能与自我修改技能之间领域特定对齐的假设，从而可能支持在任何可计算任务上的自我加速进展。在多个领域中，DGM-H 随时间改进性能，并且优于没有自我改进或开放式探索的基线，以及先前的自我改进系统。此外，DGM-H 改进了生成新代理的过程（例如，持久记忆、性能跟踪），并且这些元级改进可以跨领域转移并在多次运行中累积。
+
+DGM-超智能体为开放式 AI 系统提供了一瞥，这些系统不仅搜索更好的解决方案，而且持续改进其搜索如何改进的过程。
+
+## 核心问题
+
+### 现有自我改进系统的局限性
+1. **固定元级机制**：大多数自我改进系统依赖于手工设计的、固定的元级架构
+2. **领域特定对齐**：改进能力与任务性能之间的对齐关系通常局限于特定领域（如编码）
+3. **缺乏元认知**：系统无法改进其自身的改进机制
+
+### 研究目标
+1. 开发一个通用框架，支持在任何可计算任务上的自我改进
+2. 实现元认知自我修改，使系统能够改进其自身的改进过程
+3. 创建自我加速的进展，其中任务能力的改进导致自我改进能力的改进
+
+## 方法论贡献
+
+### 1. 超智能体框架
+- **集成架构**：将任务代理和元代理集成到单一可编辑程序中
+- **自指设计**：程序可以修改自身的结构和行为
+- **元级可编辑性**：修改过程本身可以被修改
+
+### 2. DGM-超智能体（DGM-H）
+- **扩展 DGM**：基于达尔文·哥德尔机框架
+- **消除领域对齐假设**：支持任意可计算任务
+- **持久改进**：元级改进可以跨领域转移和累积
+
+### 3. 元认知自我修改
+- **双重改进**：同时改进任务解决行为和改进生成机制
+- **递归提升**：改进的改进机制生成更好的未来改进
+- **自我加速**：创建正反馈循环
+
+## 技术实现
+
+### 架构设计
+```
+┌─────────────────────────────────────────────┐
+│           Hyperagent Program                │
+├─────────────────────────────────────────────┤
+│  Task Agent: Solves target task            │
+│  Meta Agent: Modifies self and task agent  │
+│  Editable Meta-Level: Can modify itself    │
+└─────────────────────────────────────────────┘
+```
+
+### 关键机制
+1. **程序表示**：使用可编辑的程序表示，支持结构修改
+2. **评估函数**：同时评估任务性能和自我改进潜力
+3. **修改操作**：支持添加、删除、修改程序组件
+4. **记忆系统**：持久存储成功的修改和性能数据
+
+### 自我改进循环
+```
+任务性能改进 → 自我修改能力改进 → 更好的修改 → 进一步的任务性能改进
+```
+
+## 实验结果
+
+### 性能改进
+- **跨领域优势**：在多个测试领域（游戏、优化、推理）中优于基线
+- **持续改进**：性能随时间单调改进
+- **超越现有系统**：优于先前的自我改进方法
+
+### 元级改进
+- **改进转移**：在一个领域学到的改进可以转移到其他领域
+- **累积效应**：多次运行中的改进可以累积
+- **过程优化**：改进了生成新代理的过程（记忆、跟踪、选择）
+
+### 具体发现
+1. **自我加速现象**：改进速率随时间增加
+2. **元级专业化**：系统发展了专门用于特定类型改进的元级机制
+3. **跨领域泛化**：改进策略在语义相似的任务间转移
+
+## 理论意义
+
+### 1. 自我改进的通用框架
+- 提供了在任何可计算任务上实现自我改进的通用方法
+- 消除了领域特定对齐的要求
+- 支持开放式的、无上限的改进
+
+### 2. 元认知能力
+- 实现了真正的元认知自我修改
+- 使系统能够改进其自身的认知架构
+- 为 AI 系统的自我意识提供了技术基础
+
+### 3. 自我加速进展
+- 展示了正反馈循环的可能性
+- 为超越人类设计限制的 AI 进展提供了路径
+- 暗示了潜在的递归自我改进（RSI）场景
+
+## 实践影响
+
+### AI 系统开发
+- **减少人工干预**：减少对人工设计元级机制的需求
+- **自适应系统**：创建能够适应新任务和环境的系统
+- **持续优化**：系统在部署后继续改进
+
+### 安全考虑
+- **可控性挑战**：自我修改系统可能变得难以预测和控制
+- **对齐问题**：需要确保自我改进过程与人类价值观对齐
+- **安全机制**：需要设计防止有害自我修改的保障措施
+
+### 应用前景
+- **自主科学研究**：自我改进的 AI 科学家
+- **自适应软件**：自我优化的算法和系统
+- **通用问题解决**：能够处理广泛问题类别的单一系统
+
+## 相关概念
+- [[darwin-godel-machine]]：基础框架，专注于编码领域的自我改进
+- [[self-improving-ai]]：自我改进 AI 系统的更广泛领域
+- [[meta-learning]]：学习如何学习的机器学习子领域
+- [[genetic-programming]]：通过进化算法自动生成程序
+- [[recursive-self-improvement]]：递归自我改进的理论概念
+
+## 开放问题
+1. **可扩展性**：框架如何扩展到更复杂的任务和领域？
+2. **安全性**：如何确保自我修改过程的安全性和对齐性？
+3. **理论极限**：自我加速进展是否存在理论极限？
+4. **评估指标**：如何正确评估和比较自我改进系统的能力？
+5. **人机协作**：人类如何与自我改进系统有效协作？
+
+## 参考文献
+- Zhang, J., et al. (2026). Hyperagents. arXiv:2603.19461
+- 原始 DGM 论文和相关自我改进文献
+- 元学习和程序合成相关研究
+
+---
+*最后更新: 2026-04-20*  
+*添加到 wiki: 2026-04-20*