01
通过终端控制电脑
把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。
Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python, JavaScript, Shell 啥的,直接运行在你的终端里。
通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完全自由的联网。
操作你的本地文件,比如批量重命名、转换格式、处理 Excel。 还能控制你的电脑,比如打开浏览器、发邮件、甚至调整系统设置。
还支持接入本地的模型,比如 Ollama、Jan。
不用上传云端,数据隐私绝对安全。
开源地址:https://github.com/openinterpreter/open-interpreter02
微软开源:OmniParser
OmniParser 是微软开源的一个专门用来看屏幕的神器。
今年最新的 V2 版本,霸榜了 Hugging Face 好久,真的把 GUI Agent 的能力拉升了一个台阶。
开源地址:https://github.com/microsoft/OmniParser03
自操作计算机框架
这个开源框架,也是让多模态 AI 模型像人类一样操作计算机。现在已经斩获了 1 万的 Star。
模型通过截图的方式视觉识别屏幕内容,直接调用系统的鼠标和键盘接口,使用 pyautogui 库进行交互,而非依赖后台 API。
而且这个开源项目兼容 macOS、Windows 和 Linux。
为了解决大模型看不准或点不准屏幕元素的问题,它引入了几种关键模式:
OCR 模式:生成屏幕上可点击元素的坐标哈希图。当模型决定点击某段文字时,系统能精确映射到具体坐标,显著提高了点击准确率。
Set-of-Mark (SoM) 提示:在屏幕截图上的UI元素打上数字标记 Label,让模型只需输出数字即可定位元素,类似于特斯拉自动驾驶的视觉标注逻辑。
Voice Mode:支持语音输入指令,增加交互的便捷性。
开源地址: https://github.com/OthersideAI/self-operating-computer04
前沿的 GUI 智能体:Agent S
与普通脚本不一样,Agent-S 引入了类似人类的认知架构:
经验增强的层次化规划:它不是盲目地一步步操作,而是先搜索外部知识(如在线教程)和检索内部记忆,将大任务拆解为子任务。
Agent-计算机接口:它不直接看原始像素,而是通过一个中间层更精确地感知 GUI 元素,增强了模型对屏幕的理解能力。
双重记忆机制:叙事记忆,存储高层次的任务经验;情景记忆,存储具体的步骤操作。它用得越多,越擅长处理复杂任务。
开源地址: https://github.com/simular-ai/Agent-S05
微软开源:UFO
之前提到过,这个叫 UFO 的框架也是微软开源的。
不同于视觉方案的框架仅依赖截图+鼠标模拟,UFO 结合了视觉与底层系统接口 Windows UI Automation, Win32, COM API。
它不仅看屏幕,还能直接读控件树。它能准确知道一个按钮的名字、状态和隐藏属性,点击准确率极高。
而且,它专门针对 Windows 常用软件 Office 全家桶、文件资源管理器 啥的进行了优化,能理解应用程序内部的逻辑。
开源地址: https://github.com/microsoft/UFO06
AI 玩荒野大镖客
可以玩荒野大镖客、城市天际线,也会用飞书、Chrome、剪映软件。
它提供了一个标准化的框架,将控制过程分为几个关键模块:
感知:提取屏幕中的关键信息,识别 UI 界面、图标、文本或游戏中的 3D 场景。
决策与规划: 根据当前任务目标和屏幕状态,规划下一步行动。自我反思,如果操作失败,它会分析原因并修正策略。
记忆系统:短期记忆,记录最近的操作序列和截图;长期记忆, 存储成功经验和工具使用手册(RAG),以便在类似场景下快速调用。
执行: 将规划转换为具体的键盘和鼠标指令。
开源地址: https://github.com/BAAI-Agents/Cradle07
OS-Copilot
一个构建通用操作系统代理的框架。强调 Agent 的自我学习和自我改进能力,能够处理从未见过的应用。
其核心 Agent FRIDAY 能够通过自我改进机制来学习如何操作 Excel、PPT 以及浏览网页。
这个开源项目的目标是创建一个无缝集成到操作系统中的个人助理。
开源地址: https://github.com/OS-Copilot/OS-Copilot08
ShowUI
这是一个轻量级的端到端视觉-语言-动作(Vision-Language-Action)模型,专为 GUI 智能体设计。
它想解决大模型在处理 UI 界面时的高延迟和计算成本问题,提供更快速、更精准的屏幕元素定位和操作。
开源地址: https://github.com/showlab/ShowUI09
UI-TARS Desktop
之前介绍过,字节跳动开源的基于
它允许用户通过自然语言直接控制 Windows 或 macOS 电脑。
该项目结合了端到端的视觉模型,无需复杂的中间代码解析,直接像人类一样看屏幕并操作鼠标键盘。
特点是开箱即用,支持远程计算机控制,是目前较新的高性能 GUI Agent 实现。
开源地址: https://github.com/bytedance/UI-TARS-desktop10
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论