大家好,我是袋鼠帝。
一直以来,我都觉得,对于 AI Agent 来说,最好的 Skill(技能)就是各种 APP。
APP 们才是被无数产品经理、开发者精心打磨、精密封装出来的终极 Skills,它们功能强大、运行稳定、极其封闭...

特别是在国内,大部分 APP 都是不那么 Open 的。
需要身份验证、有各种加密机制、以及防止爬虫的无数的反制措施。
所以,你想让 AI 去自动化操作这些 APP,难度非常高。
当然,少数 APP 提供了 CLI(命令行界面)供外部调用,这也是理论上最适合 Agent 操作的方式。
但是,CLI 需要各家 APP 厂商主动去开发适配,推进极其缓慢。
目前我了解到提供CLI的只有飞书,钉钉等,整个生态的进度很慢。要丝滑打通所有APP,不知道要等到啥时候去了。
不过最近,我发现了一个宝藏开源项目,可以解决这个问题。它叫 Turix CUA。
开源不久,在 GitHub 上已获得 2.3K Star。

https://github.com/TurixAI/TuriX-CUA
什么是 CUA?简单解释一下,CUA 全称是 Computer Use Agent,也就是计算机操作智能体。如果说大模型是 AI 的大脑,那 CUA 就是 AI 的手和眼。它可以通过视觉识别屏幕上的内容,然后模拟人类的鼠标点击和键盘输入去操作电脑。
Turix 有开箱即用的桌面版。
你还可以把它作为一个 Skill,直接接入到龙虾(OpenClaw)、爱马仕(Hermes Agent)、Claude Code、Codex 等各种 Agent 里,直接让它们实现 APP 自由!

比如,我用它来控制微信,帮我全自动通过积累的好友验证请求。

甚至,我还能让它去扮演元宝的男朋友🤣,在微信里自动跟元宝聊天。

并且,它的操作速度还挺快。
大概比正常人熟练操作慢一半,但在目前的 CUA 领域,这已经算是非常迅速了。
一、 安装使用:
给Agent安装也不难。
比如可以直接把 Turix 的 GitHub 链接丢给Codex,下达指令:
请帮我安装这个 GitHub 仓库里的 Agent Skill:
https://github.com/TurixAI/TuriX-CUA

Codex 很快就帮我把环境拉下来并配置好了。

这玩意儿安装好之后,相当于在你的主 Agent 之下,挂载了一个专门负责动手的小跟班(也就是一个 CUA 子智能体)。
所以,你还需要给这个子智能体单独配置一个带有强大视觉识别能力的模型 API。
这块也可以直接大白话丢给你的本地 Agent 帮搞定。
Turix 支持自定义配置模型。比如你可以配置自己常用的 API 中转站,只需要提供 API Key、模型名称和 Base URL(API 地址),让本地 Agent 帮你写进配置文件即可。

另外,Turix 官方其实也自研了专门针对 GUI(图形用户界面)操作微调或者训练过的模型,分为 turix-brain 和 turix-actor。官方推荐组合效果最佳。
只需要去 Turix 的官网 API 平台获取一个apikey:
https://turixapi.io/console/token
新建一个 API Key,然后把这个 Key 提供给本地 Agent,让它帮你配置即可(不用再配模型名和 Base URL,因为默认自带了官方模型的指向)。

配置好之后,你就可以把那些以前没法在浏览器和纯 API 层面完成的脏活累活,下发给这个子智能体了。
我发现注册之后,账户余额里居然自动躺了 100万 Tokens。还不错,可以上来先白嫖一波。

如果你觉得用命令行去操纵 Agent 安装对你来说有门槛,或者你只想单纯体验一下电脑被自动操控的快感,也有一键安装的 Turix 桌面版。
https://turix.ai/
它长这个样子。

桌面版的优点是安装即用,有优化的图形界面。Work(办公)模式和 Chat(聊天)模式结合。
以及桌面版在安全权限上做得更好。在涉及到文件删除、发送邮件等关键步骤时,它都会弹窗向用户询问请求,不会一股脑乱动你的电脑。
而且,我实测发现,相比于把 Turix 作为skill接入到其他 Agent 里,直接使用 Turix 的桌面版,执行速度会更快。
所以,下面我录屏的任务,都是使用 Turix 桌面版来完成的。
当 AI 操纵你的电脑
我一上来先尝试了一个相对简单的娱乐任务。
打开 QQ 音乐,帮我找到 QQ 音乐热歌榜,播放排名第一的歌曲。

它完成得极其轻松。直接拉起 QQ 音乐,点击排行,找到热歌榜,然后点击了第一首歌的MV播放按钮。
播放的是一首贾斯汀·比伯早期的经典 MV。说实话,这个12年前的MV确实很新颖,是自拍的形式,那时候的贾斯丁比伯感觉是颜值巅峰。
结果就被这首歌和MV深深感染到,不知不觉把MV都录完了,感兴趣的朋友可以一直看完,挺奇妙的。
好了,我们回归正题
我准备试一试让它去操纵国内最封闭的国民 APP:微信。
平时微信里加我的人不少。一般我都是固定时间,手动一个一个去点同意,还是比较费时间的。
这次我决定用 Turix 试试。
用 CUA 操作微信最大的好处是,没有封号风险。因为它本质上就是在模拟正常人的鼠标点击和滑动,根本不涉及底层协议的破解或 API 劫持。
Prompt:打开微信,打开微信左侧栏的通讯录,展开新的朋友,这里面有很多等待验证的朋友,从最上面开始,一个一个点击它们,前往验证,权限选择朋友圈,点击确定,然后一个一个执行,直到全部通过为止。

看着鼠标自动在屏幕上有条不紊的点击、验证通过、返回、再点击下一个,那种把重复劳动甩给AI的爽感,绝了。
平时写文章,我经常需要去查各种热词的微信指数。这也属于枯燥的重复劳动。
那就让它帮我看看OpenClaw最近的热度怎么样了
Prompt:打开微信,打开「微信指数」小程序,在里面搜OpenClaw,查看目前OpenClaw微信指数热度

它极其精准的找到了微信指数,打开了微信指数小程序,最终查询到OpenClaw的微信指数(热度越来越低了)。整个流程一气呵成。
有了这个基础,完全可以每天让它定时去跑很多个关键词的指数,监控热点。
那能不能让它直接帮我回消息?
我直接让它扮演元宝的男朋友,跟元宝去聊聊,看看是怎么个事儿
Prompt:打开微信,搜索元宝,给元宝发消息,扮演她的男朋友跟它闲聊,等他回复,根据他回复的内容,继续聊天。这样一来一回,聊5轮结束。输入消息后回车是发送消息。最终把这段聊天记录导出到当前工作空间(md格式)。

打字发送的过程极其丝滑。
角色扮演也相当入戏,开口就是:"宝贝,在干嘛呢?想你啦~"🤣
还会根据元宝发来的表情包做出恰当的文字回应。
整个对话进行了好多轮,甜蜜程度爆表🩷😄
但也暴露出了 Turix 目前的一个问题。
它好像容易聊嗨了。对于我规定的 聊 5 轮结束 这个数字限制不敏感。
两"人"你一言我一语,对话轮数远远超出了 5 轮,最后还是我强行干预才停下来。
希望官方能尽快优化它对数字的约束能力。
发现了 问题 怎么办?为了方便,我让它自己给自己提 Bug
也就是让 Turix 自己去提 Issue(问题报告)!
直接套娃,哈哈
Prompt:帮我给这个开源项目提一个issue:https://github.com/TurixAI/TuriX-CUA,大意是执行CUA任务的时候,对数字不敏感,比如我让它跟微信好友对话5轮就结束,它会聊嗨掉,最后对话轮数远远超出5轮。不是偶现问题,希望尽快优化。用谷歌浏览器

丝滑的打开正在使用的浏览器,因为已经登录了我的github账号,就不用重新登录了。
然后不是只填原话,而是根据自己的理解和issue的格式,填写了一条标准的issue信息,并顺利提交了~
然后我发现,Turix 在操作浏览器时的丝滑程度,简直就像大学生做小学题一样。感觉比操作APP更丝滑
顺带提一嘴,前两天,Codex 桌面版也更新了,同样支持了操纵本地 APP 的功能。
我也体验了一下 Codex 的 CUA 能力
坦白说,在基础的点击准确率上,两者效果差不多。
Codex 的操作有时候也会显得迷惑。
比如我让它去QQ音乐里播放周杰伦新专辑,它死活敲不出汉字,在那给我整个拼音瞎搜。

相比之下Turix 的架构明显更加灵活。因为它是完全开源的,它可以被当成一个底层的能力模块,接入到任何你喜欢的 Agent 框架里当 Skill 用。
你也可以随意给它更换更强大的视觉大模型底座,上限很高。
在CUA的执行速度上,Codex桌面版也会比turix桌面版稍慢一些。
但是Codex好的一点是,点击的时候不会抢鼠标,会生成一个新的鼠标来点击。而Turix会抢鼠标,希望这块官方也能尽快优化一下子。
「最后」
从技术的角度来看,让 Agent 操纵各种 APP,最稳定、最高效的终极方案绝对是底层 API 调用或者 CLI 命令行。
但是,目前必须面对现实。CLI 这项技术虽然古老且成熟,但在国内这种处处建护城河的互联网大环境下,愿意主动开放系统底层接口的官方 APP 屈指可数。
所以,我认为在未来一段时间内,CUA(计算机视觉操作)还是最具普适性的APP自动化方案。
特别是当CUA再进化一段时间后,操作速度和准确度会更上一层楼。
到那时候,CUA 的工作模式绝对会颠覆传统 RPA 行业的。
因为使用RPA,你需要程序员去写复杂的抓取脚本,网页一旦改版,脚本就得重写。而且上手门槛也挺高的。。
而 CUA,你只要用大白话下达一次指令,它如果磕磕绊绊地成功执行了一次,能立刻把这套操作流程沉淀成一个经验 Skill。下次你再让它干同样的活,直接调用这个 Skill,就能更快、更稳的完成任务。
这就相当于你花十分钟教了一个聪明的徒弟,以后这活儿就是他的了。
你怎么看,想要操纵什么APP 干什么事情,欢迎在评论区一起开脑洞交流~
我是袋鼠帝, 一个致力于帮你把 AI 变成生产力的博主. 我们下期见~
能看到这里的都是凤毛麟角的存在!
如果觉得不错, 随手点个赞、在看、转发三连吧~
如果想第一时间收到推送, 也可以给我个星标⭐
谢谢你耐心看完我的文章~
文章来自于微信公众号 "袋鼠帝AI客栈",作者 "袋鼠帝AI客栈"
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。
项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0