速通 Codex 自动化:抓信息、看数据、交报告,一个 Codex 就全干了
速通 Codex 自动化:抓信息、看数据、交报告,一个 Codex 就全干了OpenAI 公开介绍 Computer-Using Agent 时,讲的也是这个方向:模型针对图形界面交互做过训练,能把屏幕理解、任务目标和鼠标键盘动作接起来。鼠标会动只是表面。遇到按钮位置变化、弹窗多一层、页面慢一点时,它还能重新看屏幕,继续判断下一步。
来自主题: AI资讯
9171 点击 2026-05-29 09:53
搜索
OpenAI 公开介绍 Computer-Using Agent 时,讲的也是这个方向:模型针对图形界面交互做过训练,能把屏幕理解、任务目标和鼠标键盘动作接起来。鼠标会动只是表面。遇到按钮位置变化、弹窗多一层、页面慢一点时,它还能重新看屏幕,继续判断下一步。
想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。
Computer use是真正Agents的关键驱动力。它们的有效性取决于两个因素:能够接入多少工具,以及能否在这些工具之间进行推理。Computer use显著拓展了这两方面的能力——既赋予Agents使用任意软件的广度,也提升了它们将一系列动作串联成完整工作流的智能。
本文由上海 AI Lab、中国科学技术大学和上海交通大学联合完成。主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅