41 lines
2.0 KiB
Markdown
41 lines
2.0 KiB
Markdown
---
|
||
title: "Computer Use Agents (CUAs)"
|
||
created: 2026-05-31
|
||
type: concept
|
||
tags: [agents, gui, desktop-automation, tool-use]
|
||
---
|
||
|
||
# Computer Use Agents (CUAs)
|
||
|
||
**Computer Use Agents (CUAs)** 是一类能够在桌面环境中通过感知屏幕截图、执行原子操作来完成复杂任务的 AI Agent。它们代表了 [[agent-computer-interface|Agent-Computer Interface]] 的核心应用范式。
|
||
|
||
## 核心特征
|
||
|
||
1. **多模态感知**:以桌面截图为输入,结合先前工具调用的返回结果
|
||
2. **动作空间**:传统 CUA 主要依赖**原子 GUI 动作**(点击、滚动、输入等坐标级操作)
|
||
3. **长期任务**:处理跨多个应用步骤的长周期工作流(如文件管理、文档编辑、数据整理)
|
||
|
||
## 关键挑战
|
||
|
||
### 纯 GUI 模式的问题
|
||
- **级联错误**:长序列中的每一步都可能出错,错误累积
|
||
- **脆弱性**:依赖像素级坐标,对环境变化敏感
|
||
- **低效**:简单操作(如修改列值)可能需要数十步 click/type
|
||
|
||
### [[gui-tool-hybrid-action-space|混合动作空间]]的困惑
|
||
当同时暴露 GUI 动作和工具调用时,CUA 面临 **[[optimal-gui-tool-path-selection|最优路径选择]]** 困境:
|
||
- **过度使用工具**:在不必要时调用工具,反而增加失误率(如 Claude-4.5-Sonnet 从 61.9% 降到 48.4%)
|
||
- **工具使用不足**:几乎不调用工具,仍以纯 GUI 方式处理(如 EvoCUA-32B 平均 7.49 次工具调用却从 52.6% 降到 40.5%)
|
||
|
||
## 解决方案方向
|
||
|
||
- [[toolcua-optimal-gui-tool-orchestration|ToolCUA]]:通过合成数据 + 分阶段 RL 学习最优 GUI-Tool 切换
|
||
- [[interleaved-gui-tool-trajectory-scaling]]:从纯 GUI 轨迹扩展到混合轨迹的数据管线
|
||
- [[osworld-mcp]]:支持混合动作空间的标准评估基准
|
||
|
||
## 与其他 Agent 概念的关系
|
||
|
||
- [[agentic-systems]]:CUA 是 Agentic System 在桌面自动化领域的具体实例
|
||
- [[agent-computer-interface]]:CUA 的交互接口
|
||
- [[agent-observability]]:CUA 需要屏幕感知和工具反馈的可观测性
|