SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

2.0 KiB

Raw Blame History

title, created, type, tags

title

created

type

tags

Computer Use Agents (CUAs)

2026-05-31

concept

agents

gui

desktop-automation

tool-use

Computer Use Agents (CUAs)

Computer Use Agents (CUAs) 是一类能够在桌面环境中通过感知屏幕截图、执行原子操作来完成复杂任务的 AI Agent。它们代表了 agent-computer-interface 的核心应用范式。

核心特征

多模态感知：以桌面截图为输入，结合先前工具调用的返回结果
动作空间：传统 CUA 主要依赖原子 GUI 动作（点击、滚动、输入等坐标级操作）
长期任务：处理跨多个应用步骤的长周期工作流（如文件管理、文档编辑、数据整理）

关键挑战

纯 GUI 模式的问题

级联错误：长序列中的每一步都可能出错，错误累积
脆弱性：依赖像素级坐标，对环境变化敏感
低效：简单操作（如修改列值）可能需要数十步 click/type

gui-tool-hybrid-action-space的困惑

当同时暴露 GUI 动作和工具调用时，CUA 面临 optimal-gui-tool-path-selection 困境：

过度使用工具：在不必要时调用工具，反而增加失误率（如 Claude-4.5-Sonnet 从 61.9% 降到 48.4%）
工具使用不足：几乎不调用工具，仍以纯 GUI 方式处理（如 EvoCUA-32B 平均 7.49 次工具调用却从 52.6% 降到 40.5%）

解决方案方向

toolcua-optimal-gui-tool-orchestration：通过合成数据 + 分阶段 RL 学习最优 GUI-Tool 切换
interleaved-gui-tool-trajectory-scaling：从纯 GUI 轨迹扩展到混合轨迹的数据管线
osworld-mcp：支持混合动作空间的标准评估基准

与其他 Agent 概念的关系

agentic-systems：CUA 是 Agentic System 在桌面自动化领域的具体实例
agent-computer-interface：CUA 的交互接口
agent-observability：CUA 需要屏幕感知和工具反馈的可观测性