在过去,如果我们想自动化操作手机,通常需要使用 Appium 或 Airtest 这样的工具,但这要求开发者必须深入了解 APP 的底层元素 ID,比如 resource-id 或 xpath 。
一旦 APP 更新,ID 变了,脚本就废了。
现在有了 AI 大模型,尤其是视觉模型,让 AI 操纵手机做成了可能。推荐几个比较热门的 AI 操纵手机的开源项目, 感兴趣的收藏。
01
MobiAgent:移动智能体框架
这个叫 MobiAgent 的开源项目是 IPADS 实验室专为手机交互设计的框架。 能让 AI 控制手机自己干活。
比如: 帮我在小红书找一下推荐的最畅销的男士牛仔裤,然后在淘宝搜这一款裤子,把淘宝中裤子品牌、名称和价格用微信发给小赵
,时长 01:54
切换到横屏模式
继续播放
继续观看
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
观看更多
,
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
再比如: 打开饿了么点一杯蜜雪冰城的柠檬水
,时长 00:51
切换到横屏模式
继续播放
继续观看
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
观看更多
,
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
这个智能 Agent 系统,可以把复杂任务分解为三个专业化模块:
Planner 负责制定整体计划, Decider 判断每一步该点击哪里, Grounder 则精准定位屏幕上的具体操作位置。
从原理上讲, MobiAgent 包括三个核心 组件: MobiMind 模型家族、AgentRR 加速框架和 MobiFlow 基准测试平台。
MobiMind 是智能核心,包含多个不同参数规模的模型。AgentRR 加速框架则对重复任务进行优化, 大幅降低二次执行的耗时。
比如下面和这个案例,首次执行和后续执行的耗时对比。
,时长 00:54
切换到横屏模式
继续播放
继续观看
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
观看更多
,
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
而 MobiFlow 基准测试平台,覆盖小红书、高德地图、饿了么、淘宝等 10 + 主流 App,包含简单和困难两个难度等级, 为移动智能代理的性能评估提供了标准化场景。
02
Mobile-Agent:阿里开源
这个叫 Mobile-Agent 的 开源项目是阿里开源的。 Mobile-Agent 能看见屏幕、能点击按钮、能像人一样跨 APP 操作,而且不依赖原本复杂的系统后台接口, 而是像人类一样,通过看屏幕来操作手机。 比如: 请帮我在小红书上搜索济南旅游攻略,按收藏数排序,并保存第一篇笔记。
,时长 05:14
切换到横屏模式
继续播放
继续观看
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
观看更多
,
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
原理都差不多, AI 识别屏幕上的所有图标、文字和按钮。即使按钮没有文字说明,只有一个图标,它也能 通过视觉理解其含义。 根据你的指令生成一步步的计划。然后 AI 结合当前屏幕状态,决定下一步具体点哪里,还是滑动,或者是输入文字。 通过 ADB(Android Debug Bridge)向手机发送点击或滑动指令。而且每执行一步,它会再次截图确认,如果发现不对, 它会自我修正。 03
Droidrun: 手机自动化 Agent 框架
Droidrun 是一个基于 AI 大模型的 Android/iOS 自动化 Agent 框架。 目前在 GitHub 上有 6.2K 的 Star。
它的核心理念是 将思考交给 AI,将执行交给框架, 从而打破了传统自动化脚本对特定 UI 控件的强依赖。
住宿预订: 搜索下周旧金山可供两人入住的公寓房源,并提供最便宜的选项。
,时长 00:24
切换到横屏模式
继续播放
继续观看
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
观看更多
,
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
04
AppAgent:腾讯开源
这个开源项目的全称是 "Multimodal Agents as Smartphone Users",像智能手机用户一样的多模态智能体。
它的设计初衷是 赋予 AI Agent 像人类用户一样的感知和操作能力。
它通过 ADB(Android Debug Bridge )获取手机屏幕截图,发送给多模态大模型。
模型分析截图中的 UI 元素,决定下一步是点击哪个坐标还是滑动屏幕,从而实现真正的视觉交互。
,时长 00:24
切换到横屏模式
继续播放
继续观看
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
观看更多
,
5 个 AI 操纵手机的 GitHub 项目,牛逼了。
和其它开源项目不同,AppAgent 模仿了人类学习新软件的过程:
当你给它一个新的 App 时,它可以通过自主探索或者观察人类演示来学习。
在这个过程中,它会记录下每个按钮是干什么的,并生成一份使用文档(Knowledge Base)。
当需要执行具体任务,它会调用之前生成的文档,精准地执行操作, 而不需要每次都重新摸索。
05
mobile-use:说句话自动化你的手机
这个开源项目现在有 1.8k 的 Star。支持 安卓和 iOS 系统。 Mobile-Use 是一个由 Minitap AI 团队开源的 Python 库。它的核心逻辑是 让 AI 模型模拟人类的操作行为。
它会截取当前手机屏幕的图像,将 截图和用户的指令 发送给多模态大模型。模型会分析截图,判断如果要完成这个任务,我现在该点哪里。
模型返回具体的坐标或操作指令(点击、滑动、输入),Mobile-Use 将其转换为底层的 ADB 命令执行。
执行完动作后,再次截图,确认是否进入了下一页,直到任务完成。
开源地址:https://gi thub.com/minitap-ai/mobile-use 而且在技术实现上,mobile-use 集成了 Maestro 移动测试框架作为底层交互引擎,确保了对真实设备操作的稳定性和可靠性。 同时,项目支持多种大模型后端,用户可以根据需要选择 OpenAI API、本地部署模型或其他兼容服务。 06
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论