Files
myWiki/concepts/computer-use-agents.md
2026-06-01 10:46:01 +08:00

41 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Computer Use Agents (CUAs)"
created: 2026-05-31
type: concept
tags: [agents, gui, desktop-automation, tool-use]
---
# Computer Use Agents (CUAs)
**Computer Use Agents (CUAs)** 是一类能够在桌面环境中通过感知屏幕截图、执行原子操作来完成复杂任务的 AI Agent。它们代表了 [[agent-computer-interface|Agent-Computer Interface]] 的核心应用范式。
## 核心特征
1. **多模态感知**:以桌面截图为输入,结合先前工具调用的返回结果
2. **动作空间**:传统 CUA 主要依赖**原子 GUI 动作**(点击、滚动、输入等坐标级操作)
3. **长期任务**:处理跨多个应用步骤的长周期工作流(如文件管理、文档编辑、数据整理)
## 关键挑战
### 纯 GUI 模式的问题
- **级联错误**:长序列中的每一步都可能出错,错误累积
- **脆弱性**:依赖像素级坐标,对环境变化敏感
- **低效**:简单操作(如修改列值)可能需要数十步 click/type
### [[gui-tool-hybrid-action-space|混合动作空间]]的困惑
当同时暴露 GUI 动作和工具调用时CUA 面临 **[[optimal-gui-tool-path-selection|最优路径选择]]** 困境:
- **过度使用工具**:在不必要时调用工具,反而增加失误率(如 Claude-4.5-Sonnet 从 61.9% 降到 48.4%
- **工具使用不足**:几乎不调用工具,仍以纯 GUI 方式处理(如 EvoCUA-32B 平均 7.49 次工具调用却从 52.6% 降到 40.5%
## 解决方案方向
- [[toolcua-optimal-gui-tool-orchestration|ToolCUA]]:通过合成数据 + 分阶段 RL 学习最优 GUI-Tool 切换
- [[interleaved-gui-tool-trajectory-scaling]]:从纯 GUI 轨迹扩展到混合轨迹的数据管线
- [[osworld-mcp]]:支持混合动作空间的标准评估基准
## 与其他 Agent 概念的关系
- [[agentic-systems]]CUA 是 Agentic System 在桌面自动化领域的具体实例
- [[agent-computer-interface]]CUA 的交互接口
- [[agent-observability]]CUA 需要屏幕感知和工具反馈的可观测性