AI AgentAI 产品与平台检索与知识系统

Anthropic 的 Computer Use 是怎么训练出来的——从一项专利读它的数据管线

发布于 2026 年 5 月 10 日

2024 年 10 月，Anthropic 在发布 Claude 3.5 Sonnet 的同时公布了 Computer Use：Claude 能看你的屏幕、识别界面元素、操作鼠标键盘完成任务。帮你在 Salesforce 里填报销单，在 Figma 里导出设计稿，在浏览器里预约会议。起初是面向开发者的 API 公测，到 2026 年 3 月随 Claude Cowork 向 Pro 和 Max 订阅用户开放了桌面端使用。时至今日在 Amazon Bedrock、Google Vertex AI、Azure Foundry 上都有 API 可用。

要训练出这样一个 Agent，你得喂给它大量”界面截图 → 下一步该点哪里”的配对数据。直觉上这没什么特别的——不就是录屏吗。但数据从哪来、以什么格式存在、规模够不够，这三件事合在一起，决定了 Agent 能不能从 demo 变成产品。

2025 年 10 月授予的一项 Anthropic 专利（U.S. 12,437,238）（2024 年 10 月提交）恰好从侧面回答了这个问题。它保护的不是 AI 怎么操作电脑——那个叫推理，每家都在做。它保护的是训练数据的采集和生成管线。

学术界的现成数据集，够做 benchmark，不够做产品

在 Anthropic 动手之前，训练一个计算机操作 Agent 并不是没有数据可用。学术圈在过去两年积累了大量 UI grounding 数据集：

GUI-360（微软，2025）：120 万条操作轨迹，覆盖 Windows Office 应用，含 grounding、规划、动作预测三类任务
OSWorld（2024）：真实桌面环境下的多步操作 benchmark
ScreenAgent（2024）：12.5 万条”截图→动作”三元组
Android-in-the-Wild（NeurIPS 2023）：230 万张安卓截图带点击坐标
Aria-UI、AutoGUI（2024）：用 LLM 自动标注界面元素的 grounding 数据集

从数据结构看，这些数据集和训练一个 Computer Use Agent 需要的东西格式一致：一张截图配一个操作目标。问题不在数据结构，在三个维度上。

第一，应用覆盖广度。GUI-360 和 OSWorld 覆盖的软件种类以十计。Agent 产品面对的却是成百上千种应用——从现代 Web App 到企业遗留系统。每多一类软件界面，模型要学的布局规律、交互模式、视觉特征就多一个维度。学术数据集填不了这个长尾。

第二，轨迹质量的下限。120 万条轨迹听上去多，但大部分来自少数几类操作：打开菜单、填表单、保存文件。真实工作中打断流程的弹窗、加载延迟、表单校验报错，在数据集里出现得少得多。学术数据是研究者为 benchmark 任务收集的，自带偏向干净场景的抽样偏差。

第三，时序连续性。真实操作是一串完整轨迹——“打开软件 → 点这个 → 填那个 → 等加载 → 看到弹窗 → 关弹窗 → 继续填”。学术数据集虽然有语义标注（“点击提交按钮”而不仅仅是坐标），但样本以单步或短轨迹为主，缺少长程操作中的前后依赖和中断恢复这类上下文。

三个维度的差距叠在一起：学术数据集能训出一个跑 benchmark 的 prototype，训不出一个在任意软件上可靠工作的产品。

专利的管线：核心是把操作数据变成了推理数据

Anthropic 的专利（“Generation of agentic trajectories for training artificial intelligence agents to automate multimodal interface task workflows”）描述了一条把人类操作变成训练数据的管线。和学术数据集之间真正的分界线不是数据量，而是这条管线里的每一步都在给原始操作附加推理信息。学术数据集的样本是”看到这个界面 → 做这个动作”，一组静态映射。Anthropic 的管线产出的样本是”看到这个界面 → 理解当前状态 → 判断下一步该做什么 → 做这个动作”，是一条推理链。

管线由三个环节组成，每个环节贡献一层推理。

第一环节：截获。 在用户和软件界面之间放一个中间层。用户正常操作——点击按钮、填表、滚动页面——这个中间层透明地记录每一步。但它不是单纯的录像。它在每一步操作之前截取界面状态（截图 + 可访问性元数据 + 文本内容），记录用户做了什么，然后截取操作之后的新界面状态。

这层截获最有意思的能力写在 Claim 5 里：用户可以附加思考标注——“我点这个按钮是因为它通常在右下角”、“这个地方应该选第三个选项，因为前两个是灰色的”。这些标注是人类在当前界面状态下做决策的推理过程，被直接编码进训练数据。对模型来说，这种数据不再是”模仿这个点击”，而是”理解为什么在这个状态下要点这里”。

第二环节：翻译。 截获的原始操作——“(342, 157) 点击”——被送入一个多模态 transformer 模型去理解。模型结合界面截图和操作上下文，推断用户的真实意图，输出语义化的命令：“识别到文本为’提交’的按钮元素，在 (330, 150, 400, 170) 区域内，执行点击”。这步的关键不是坐标转换，而是让模型推理出操作背后的意图——用户不是随机的点了一个像素，用户是想提交表单。翻译模型用自己的推理能力补全了原始操作中缺失的语义层。

第三环节：合成扩展。 一条真实操作轨迹经过截获和翻译，变成了一份带推理链的训练样本。Anthropic 接着用一个更强的模型对这份样本做合成扩展——给定同一张操作前的截图，让强模型自己推理并生成多种”看到这个界面后可以做什么”的合理变体。一条真实轨迹扩展出几十条训练样本，每条都包含完整的”看到界面 → 推理判断 → 做出动作”链路，覆盖不同的操作选择、不同的异常处理、不同的多步组合。

三个环节叠加在一起，做的事是同一件：把原始操作转换为推理数据。第一环节从人类那里获取推理标注，第二环节用模型补齐操作背后的意图推断，第三环节用更强的模型生成更多推理变体。RPA 式的录屏只能告诉你”用户做了什么”，这条管线告诉你”用户为什么这么做”——这正是训练一个能独立操作软件的 Agent 需要的东西。

管线的产业含义

回到开头的问题：Computer Use 的训练数据从哪来。答案不是”录了很多用户操作”——学术圈也在录。Anthropic 的不同在于把一个三环节管线的每个环节都工程化了，并且用专利保护了这套流程的组合方式。

当每一家都能做一个”看屏幕点按钮”的 Agent（Computer Use、OpenAI Operator、Codex 桌面插件功能趋同），谁能覆盖更多软件、更稳定地完成更复杂的任务，由训练数据的质量和规模决定，不由模型跑分决定。而训练数据的质量和规模，由你有没有一套持续、低成本、大规模采集和扩展真实操作数据的管线决定。

专利保护的是这条管线的组合方式。竞争者可以绕——不用截获层，改用录屏加人工标注；不用合成扩展，扩大真实数据采集规模。但这些替代方案的时间成本和规模限制，就是 Anthropic 的先发窗口。

学术界的现成数据集，够做 benchmark，不够做产品

专利的管线：核心是把操作数据变成了推理数据

管线的产业含义

鸭哥每日手记