2.0 KiB
2.0 KiB
title, created, type, tags
| title | created | type | tags | ||||
|---|---|---|---|---|---|---|---|
| Computer Use Agents (CUAs) | 2026-05-31 | concept |
|
Computer Use Agents (CUAs)
Computer Use Agents (CUAs) 是一类能够在桌面环境中通过感知屏幕截图、执行原子操作来完成复杂任务的 AI Agent。它们代表了 agent-computer-interface 的核心应用范式。
核心特征
- 多模态感知:以桌面截图为输入,结合先前工具调用的返回结果
- 动作空间:传统 CUA 主要依赖原子 GUI 动作(点击、滚动、输入等坐标级操作)
- 长期任务:处理跨多个应用步骤的长周期工作流(如文件管理、文档编辑、数据整理)
关键挑战
纯 GUI 模式的问题
- 级联错误:长序列中的每一步都可能出错,错误累积
- 脆弱性:依赖像素级坐标,对环境变化敏感
- 低效:简单操作(如修改列值)可能需要数十步 click/type
gui-tool-hybrid-action-space的困惑
当同时暴露 GUI 动作和工具调用时,CUA 面临 optimal-gui-tool-path-selection 困境:
- 过度使用工具:在不必要时调用工具,反而增加失误率(如 Claude-4.5-Sonnet 从 61.9% 降到 48.4%)
- 工具使用不足:几乎不调用工具,仍以纯 GUI 方式处理(如 EvoCUA-32B 平均 7.49 次工具调用却从 52.6% 降到 40.5%)
解决方案方向
- toolcua-optimal-gui-tool-orchestration:通过合成数据 + 分阶段 RL 学习最优 GUI-Tool 切换
- interleaved-gui-tool-trajectory-scaling:从纯 GUI 轨迹扩展到混合轨迹的数据管线
- osworld-mcp:支持混合动作空间的标准评估基准
与其他 Agent 概念的关系
- agentic-systems:CUA 是 Agentic System 在桌面自动化领域的具体实例
- agent-computer-interface:CUA 的交互接口
- agent-observability:CUA 需要屏幕感知和工具反馈的可观测性