01
微软开源的文档转换工具
MarkItDown 用于将各种常见格式的文档转换为 Markdown 格式。
包括 PDF、PPT、Word、Excel、图片、音频、HTML、JSON等,甚至还能处理 ZIP 压缩包内的多个文件、YouTube 视频转录文本以及电子书 EPub 等。
开源地址:https://github.com/microsoft/markitdown
它尤其适合需要将文档内容提取为结构化文本,并用于大模型处理或文本分析任务的情景。
其实仅限这个场景,因为项目官方说可以保留表格、排版啥的,实测并没有。。。
PDF 文件转换,左边屏是源文件,右半屏是转换后的MD,发现标题并没有保留。
表格类型 PDF 的转换效果如下,其实得到的 Markdown 效果就比较差了。
如果是转换比较标准的 Excel 表格,效果还是不错的:
再来看看 PPT 文件,转换的效果,emmmm
这是提取文字吧。。
02
命令行 AI 编程助手
Codebuff 也是一个基于命令行的 AI 编程助手。
它不像许多工具那样只依赖一个大模型,而是采用一种多智能体协同工作的架构。
它个任务,协调多个各司其职的智能体一起工作。
项目官方说在模拟真实任务的评估中,成功率达到了 61%,优于 Claude 53%。
使用 Codebuff 非常简单,通过 npm 全局安装它之后,进入你的项目目录,在终端里直接运行 codebuff 命令,然后用自然语言告诉它你想做什么。
开源地址:https://github.com/CodebuffAI/codebuff
03
推特推荐算法
这个开源项目是推特自家平台最核心的推荐算法。
包含了一系列服务、任务和框架,它们共同协作,来决定用户会在「为你推荐」时间线、搜索、探索页和通知中看到什么内容。
它并不是一个单一算法,而是一整套复杂的技术生态。
感兴趣的去看看吧。
开源地址:https://github.com/twitter/the-algorithm
04
Mac 电脑上运行大模型
mlx-lm 是一个专为苹果芯片设计的开源项目,让用户能轻松地在 Mac 电脑上运行各种大语言模型。
开源地址:https://github.com/ml-explore/mlx-lm
使用 pip 或 conda 即可快速安装。
安装后,无需编写代码,直接在终端中输入简单命令,就可以让模型回答问题或进行多轮对话,非常方便。
而且它成了 Hugging Face Hub,发现好玩的模型直接下载就行了。这个开源项目可能比较小众,不做更多介绍,感兴趣自己去看看。
05
Perplexity 开源平替
Perplexica 是知名产品 Perplexity AI 的开源替代方案。支持 Mac、Linux、Windows。
开源地址:https://github.com/ItzCrazyKns/Perplexica
是一个由 AI 驱动的搜索引擎,与传统搜索不同,Perplexica 不仅仅返回一堆链接。
它会在理解用户问题意图的基础上,自动抓取网络信息,并对内容进行梳理和整合,最终生成一个清晰、连贯且带有来源引用的答案。
06
ChinaTextbook
之前介绍过,这个开源项目又登上了本周 GitHub 热搜。
开源项目:https://github.com/TapXWorld/ChinaTextbook
项目的主要目标是收集并免费分享中国内地小学、初中、高中乃至大学的PDF版教材。
07
点击下方卡片,关注我
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论