本文介绍4个近期值得关注的AI开源项目:Edit Banana可将图片/PDF图表转换为可编辑格式;Xiaomi-Robotics-0是小米开源的47亿参数具身智能大模型;MyCodeAgent提供代码智能体开发框架;Accomplish为本地化AI桌面助手,支持文件自动化与隐私保护。适合开发者、研究人员及需要自动化办公的用户参考使用。
Tags:
01
图片、PDF转为可编辑
这个叫 edit banana 的开源项目是北理工开发的。
它能把不可编辑的图片或 PDF 格式的统计图表、流程图转换为可完全编辑的格式,比如 DrawIO 的 XML 或 PPTX。
Edit Banana 并不仅仅是一个简单的 OCR 工具,基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建。
它能实现高保真重建,保留原始图表的细节和逻辑关系,生成的图形不是简单的背景图,而是可以独立选中的元素。
支持将上传的图片或 PDF 转换为 DrawIO (XML)、PPTX。比如下面这几个示例,就是原始图片和重建后可以编辑的版本。
原始图片:
原始图片:
原始图片:
原始图片
而且项目提供了一个 Web 界面,你上传后可直接在嵌入的编辑器中进行实时修改。
开源地址:https://github.com/bit-datalab/edit-banana02
小米开源具身智能大模型
小米机器人团队 Xiaomi Robotics 在 2 月正式开源了阶段性研究成果:Xiaomi-Robotics-0。
这是一个先进的视觉-语言-动作 Vision-Language-Action, VLA 模型,提升机器人的通用感知与实时执行能力。
Xiaomi-Robotics-0 是一个拥有 47亿参数 的具身智能大模型。
它不仅能理解复杂的视觉环境和语言指令,还能直接生成机器人的控制动作。
该模型最大的特点是在保持强大泛化能力的同时,解决了大模型在机器人领域常见的推理延迟问题,实现了高性能的实时执行。
开源地址:https://github.com/XiaomiRobotics/Xiaomi-Robotics-003
MyCodeAgent
这个开源项目叫 MyCodeAgent,是开发者研究 Agent,从 0 开始开发一个类似 Claude Code 的代码智能体。
整个过程始于 Datawhale 的 Hello-Agent 开源教程,基于其骨架快速搭建了一个初始版本。
这个初始版本虽然粗糙,但成功验证了核心工作流,并暴露出工具失控、协议脆弱、上下文膨胀等一系列亟待解决的工程问题。
针对这些问题,进行了一系列系统性的工程化改造。其核心思路是将模型不确定的自由行为,通过工程设计约束在可控范围内。
Agent 开发的核心价值并非追求模型的无限自由,而是通过扎实的工程设计,比如工具原子化、协议结构化、上下文治理、状态可观测来驾驭模型的能力。
将其不可靠的聪明约束转化为稳定、可控的生产力。这本质上是一个为大型语言模型的不确定性进行系统化纠偏和补漏的过程。
开源地址:https://github.com/YYHDBL/MyCodeAgent04
开源的 AI 桌面助手
这个开源项目 Accomplish 是一个开源的 AI 桌面助手。
它把 AI 能力直接集成到你的本地桌面环境中,帮助你自动化处理文件、文档和浏览器任务,同时高度重视隐私和本地控制。
它可以根据文件内容或你设定的规则,自动对文件进行分类、重命名、移动或清理。
还支持撰写草稿、总结长文档、重写报告或会议记录。它可以与 Notion、Google Drive、Dropbox 等工具配合使用。
也可以自动化执行网页调研、表格填写等浏览器工作流。你可以定义可重复的工作流程并将其保存为 Skill,方便随时调用。
能够从散乱的文件和笔记中提取信息,自动生成周报或会议准备资料。
如果你正在寻找一个能够帮你打理电脑文件、自动执行重复性任务,且不希望将私人数据上传到云端的 AI 助手,Accomplish 是一个非常值得尝试的工具。
它将 AI 的理解能力与本地系统的操作能力结合在一起,是目前 AI Agent 在桌面端落地的一个典型代表。
开源地址:https://github.com/accomplish-ai/accomplish05
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论