2025年10月1日星期三

盘点 9 月份 YYDS 的 GitHub 开源项目。

01

本地实时语音转文字

很多人可能用过一些语音识别工具,但它们往往需要把录音一段一段传上网处理,既不实时也不够隐私。

WhisperLiveKit 的优势就在于它完全在本地运行,不需要依赖网络,并且支持实时处理,你说完话几乎立即就能看到文字结果。

图片
开源地址:https://github.com/QuentinFuxa/WhisperLiveKit

这个工具背后用到了几项比较前沿的技术。

它采用了来自 NVIDIA 的 Diart 方案来区分不同说话人,如果在会议中有多个人发言,它可以分辨出哪句话是谁说的。

同时,它还使用了 Silero 的语音活动检测模块,能够准确判断什么时候有人在说话,从而减少无效处理。

图片

02

MCP 注册中心

你可以把它理解为 MCP 服务器的应用商店。
为 MCP 客户端提供一个集中发现和获取 MCP 服务器的平台,像手机有应用商店一样,MCP 客户端可以通过这个注册中心找到各种可用的功能服务器。
图片
开源地址:https://github.com/modelcontextprotocol/registry

比较有意思的是,项目包含了一个名为 mcp-publisher 的命令行工具,开发者可以用它来发布自己的 MCP 服务器到注册中心

发布过程中有一套完整的验证机制,确保只有命名空间的真正所有者才能发布相应服务器。

图片

03

快速克隆一个人的声音

Real-Time Voice Cloning 已经获得 57K+ 的 Star 了。

它能够快速克隆一个人的声音,并在极短时间内生成任意内容的语音。

图片
开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning

底层基于 SV2TTS 的深度学习技术,这原本是一项硕士研究课题。除了核心的语音合成部分,它还使用了一个名为 WaveRNN 的声码器来保证声音生成的质量和效率。

他有一个图形化工具箱,按照说明安装必要的环境,比如 ffmpeg 和一个叫 Python 包管理工具,就可以尝试克隆声音并生成语音了。

图片

项目支持在Windows和Linux系统上运行,并且如果你有一块较好的NVIDIA显卡,处理速度会更快。

虽然 Star 很多,但是克隆效果并不是最好的。

04

uutils coreutils

coreutils 是一个使用 Rust 语言重写的 GNU coreutils,最大的特点就是:跨平台。

也就是说,不管你在Windows、macOS还是Linux上,都可以使用同一套完全一致的工具,这让跨平台写脚本或传输文件变得更简单了。

图片
开源地址:https://github.com/uutils/coreutils

05

高质量文本转语音

另外一个开源文本转语音模型,支持包括中文、英文、日文等 23 种语言的高质量语音合成。

图片

可以通过调节参数来控制语音的情感强度和表现力,支持零样本语音克隆,只需一段参考音频就能模仿声音特征。

它提供了一个网站,有 Chatterbox 的很多 Demo,可以去下面链接瞧瞧。

图片
Demohttps://resemble-ai.github.io/chatterbox_demopage/开源地址:https://github.com/resemble-ai/chatterbox

同时内置了防滥用的音频水印功能。无论是制作视频内容、开发游戏还是构建语音助手,Chatterbox 都能提供自然流畅的多语言语音支持。

06

AI 应用开发框架

一个 AI 应用框架,帮你快速开发 AI 能力的全栈应用。

该项目已经在 Google 的生产环境中得到实际应用,具备较高的稳定性和实用性。

图片
开源地址:https://github.com/firebase/genkit

GenKit 提供了一系列简化 AI 开发的功能,比如处理多模态内容、生成结构化输出、调用工具函数以及构建智能工作流。

开发者只需要几行代码就能快速实现文本生成、对话机器人、自动化任务或推荐系统等常见 AI 场景。

图片

GenKit 还自带丰富的开发工具,包括本地 CLI 和开发者界面。开发者可以在图形化界面中测试提示词、调试执行流程、对比不同模型的输出结果,从而更快地迭代和优化AI功能。

07

开源机器人项目

openpi 项目集中提供了多种视觉-语言-动作模型,用于机器人控制,支持直接推理或基于自有数据微调。

图片
开源地址:https://github.com/Physical-Intelligence/openpi

该项目包含三类核心模型:

1️⃣ π₀₀是一种基于流匹配的视觉语言动作模型;

2️⃣ π₀₀-FAST采用自回归方式生成动作,基于FAST动作分词器;

3️⃣ π₀₀.₅₅是π₀₀的升级版本,使用知识隔离训练,具有更好的开放世界泛化能力。

这些模型都经过了超过一万小时的机器人数据预训练,可作为基础模型直接使用,也可用于后续微调。

你可在该项目中找到模型权重、训练代码、推理示例以及详细的使用文档。

图片

08

其它开源项目

除了这几个,还有其它开源项目,我没有详细的描述,因为之前逛逛 GitHub 都介绍过了。
你可以关注逛逛 GitHub。直接在后台发送 "介绍一下开源项目:名称 " 就行了,逛逛会直接帮你解读。
下图是本周热门开源项目总览:
图片

没有评论:

发表评论

AI视频(Wan2。2-Animate)工具V1。2,支持lora导入,V2更新,替换和动作迁移,4步即可,支持批量,解压即用!

一 、下载 进入小程序里有。 二 、更新记录 V1.2版本:2025-10-7 1、支持LORA导入。 V1.1版本:2025-9-24 1、加入人物替换模式。 V1.0版本:2025-9-21 1、基于wan2.2 animate项目,4步即可基于视频参考图片生成高质量视频...