逛逛在 11 月发了一篇文章,盘点了 GitHub 上 AI 操纵手机的开源项目。
获得了 3 万多阅读,3000 多人转发收藏:
没想到那篇文章发布 5 天后,豆包就官宣推出了 AI 手机,紧接着智谱 AI 就开源了 AutoGLM 模型。
我又搜罗了几个 AI 操作手机的开源项目,再加上我之前发的那篇。整个 GitHub 上关于 AI 控制手机的项目算是被逛逛搜刮干净了。
欢迎收藏转发👏
01
智谱开源:Open-AutoGLM
这个开源项目太顶了,不到一周就 1.3 万的 Star 了。
基于这个开源框架,就能让 AI 可以
你给它一个任务,比如:帮我总结下长春的景点,到高德地图上收藏一下这几个景点,特别是具体看看博物馆门票价格,再去12306上订一张上午十点从北京去长春的高铁票,把相关信息整理好给我。
AutoGLM 会先把手机屏幕截个图,模型会分析截图,通过视觉定位找到当前要点击哪个按钮或者做啥操作。
并通过 ADB(Android Debug Bridge)工具,直接向手机发送点击、滑动、输入文字的指令。
最终这样一步步模拟人看手机、操纵手机的行为,完成你给的任务。
开源地址:https://github.com/zai-org/Open-AutoGLM而且这个开源可以本地部署,而且如果你有显卡,大约需要 24GB+ 显存,你可以把这个 Agent 跑在本地。
隐私数据,比如聊天记录、支付画面啥的不上传到云端也能自动化的你的安卓手机了。
如何使用
你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。
访问文档,为我安装 AutoGLM :https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md
02
通过 MCP 控制手机:DroidMind
开源地址:https://github.com/hyperb1iss/DroidMind03
微软开源:UFO
这个叫 UFO 的开源项目其实是微软开源的 AI 操作 Windows 系统的开源项目。
只不过 11 月推出的 UFO³ Galaxy 已经演变成了一个
Galaxy (星系):整个控制中枢,负责分发任务。 Constellation (星座):它将一个复杂的用户指令,比如把手机上的刚拍的照片传到电脑并用 Photoshop 编辑,拆解成一个 DAG(有向无环图) 。
开源地址:https://github.com/microsoft/UFO04
字节开源:UI-TARS
字节跳动开源的一个基于视觉-语言模型(VLM)的 GUI 智能体(Agent)项目。
它的核心目标是让 AI 像人类一样,通过视觉识别屏幕和操作鼠标/键盘/触控,直接控制手机、计算机或网页。
也是截取手机屏幕画面,把截图输入给视觉模型,模型结合用户的指令分析屏幕上的元素,决定下一步做什么。
最后模型输出具体的动作指令,转化为底层的 Android ADB 命令发送给手机执行。
开源地址:https://github.com/bytedance/UI-TARS另外之前发布的另外一个盘点 AI 控制手机开源项目的链接如下,感兴趣的可以去看看:
05
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论