AI I024: 盘点 9 月份 YYDS 的 GitHub 开源项目。

2025年10月1日星期三

盘点 9 月份 YYDS 的 GitHub 开源项目。

本地实时语音转文字

很多人可能用过一些语音识别工具，但它们往往需要把录音一段一段传上网处理，既不实时也不够隐私。

WhisperLiveKit 的优势就在于它完全在本地运行，不需要依赖网络，并且支持实时处理，你说完话几乎立即就能看到文字结果。

开源地址：https://github.com/QuentinFuxa/WhisperLiveKit

这个工具背后用到了几项比较前沿的技术。

它采用了来自 NVIDIA 的 Diart 方案来区分不同说话人，如果在会议中有多个人发言，它可以分辨出哪句话是谁说的。

同时，它还使用了 Silero 的语音活动检测模块，能够准确判断什么时候有人在说话，从而减少无效处理。

MCP 注册中心

你可以把它理解为 MCP 服务器的应用商店。

为 MCP 客户端提供一个集中发现和获取 MCP 服务器的平台，像手机有应用商店一样，MCP 客户端可以通过这个注册中心找到各种可用的功能服务器。

开源地址：https://github.com/modelcontextprotocol/registry

比较有意思的是，项目包含了一个名为 mcp-publisher 的命令行工具，开发者可以用它来发布自己的 MCP 服务器到注册中心。

发布过程中有一套完整的验证机制，确保只有命名空间的真正所有者才能发布相应服务器。

快速克隆一个人的声音

Real-Time Voice Cloning 已经获得 57K+ 的 Star 了。

它能够快速克隆一个人的声音，并在极短时间内生成任意内容的语音。

开源地址：https://github.com/CorentinJ/Real-Time-Voice-Cloning

底层基于 SV2TTS 的深度学习技术，这原本是一项硕士研究课题。除了核心的语音合成部分，它还使用了一个名为 WaveRNN 的声码器来保证声音生成的质量和效率。

他有一个图形化工具箱，按照说明安装必要的环境，比如 ffmpeg 和一个叫 Python 包管理工具，就可以尝试克隆声音并生成语音了。

项目支持在Windows和Linux系统上运行，并且如果你有一块较好的NVIDIA显卡，处理速度会更快。

虽然 Star 很多，但是克隆效果并不是最好的。

uutils coreutils

coreutils 是一个使用 Rust 语言重写的 GNU coreutils，最大的特点就是：跨平台。

也就是说，不管你在Windows、macOS还是Linux上，都可以使用同一套完全一致的工具，这让跨平台写脚本或传输文件变得更简单了。

开源地址：https://github.com/uutils/coreutils

高质量文本转语音

另外一个开源文本转语音模型，支持包括中文、英文、日文等 23 种语言的高质量语音合成。

可以通过调节参数来控制语音的情感强度和表现力，支持零样本语音克隆，只需一段参考音频就能模仿声音特征。

它提供了一个网站，有 Chatterbox 的很多 Demo，可以去下面链接瞧瞧。

Demo：https://resemble-ai.github.io/chatterbox_demopage/开源地址：https://github.com/resemble-ai/chatterbox

同时内置了防滥用的音频水印功能。无论是制作视频内容、开发游戏还是构建语音助手，Chatterbox 都能提供自然流畅的多语言语音支持。

AI 应用开发框架

一个 AI 应用框架，帮你快速开发 AI 能力的全栈应用。

该项目已经在 Google 的生产环境中得到实际应用，具备较高的稳定性和实用性。

开源地址：https://github.com/firebase/genkit

GenKit 提供了一系列简化 AI 开发的功能，比如处理多模态内容、生成结构化输出、调用工具函数以及构建智能工作流。

开发者只需要几行代码就能快速实现文本生成、对话机器人、自动化任务或推荐系统等常见 AI 场景。

GenKit 还自带丰富的开发工具，包括本地 CLI 和开发者界面。开发者可以在图形化界面中测试提示词、调试执行流程、对比不同模型的输出结果，从而更快地迭代和优化AI功能。

开源机器人项目

openpi 项目集中提供了多种视觉-语言-动作模型，用于机器人控制，支持直接推理或基于自有数据微调。

开源地址：https://github.com/Physical-Intelligence/openpi

该项目包含三类核心模型：

1️⃣ π₀₀是一种基于流匹配的视觉语言动作模型；

2️⃣ π₀₀-FAST采用自回归方式生成动作，基于FAST动作分词器；

3️⃣ π₀₀.₅₅是π₀₀的升级版本，使用知识隔离训练，具有更好的开放世界泛化能力。

这些模型都经过了超过一万小时的机器人数据预训练，可作为基础模型直接使用，也可用于后续微调。

你可在该项目中找到模型权重、训练代码、推理示例以及详细的使用文档。

其它开源项目

除了这几个，还有其它开源项目，我没有详细的描述，因为之前逛逛 GitHub 都介绍过了。

你可以关注逛逛 GitHub。直接在后台发送 "介绍一下开源项目：名称 " 就行了，逛逛会直接帮你解读。

下图是本周热门开源项目总览：

AI I024

2025年10月1日星期三

盘点 9 月份 YYDS 的 GitHub 开源项目。

没有评论:

发表评论

5 个 AI 操纵手机的 GitHub 项目，牛逼了。