01
本地实时语音转文字
很多人可能用过一些语音识别工具,但它们往往需要把录音一段一段传上网处理,既不实时也不够隐私。
WhisperLiveKit 的优势就在于它完全在本地运行,不需要依赖网络,并且支持实时处理,你说完话几乎立即就能看到文字结果。
开源地址:https://github.com/QuentinFuxa/WhisperLiveKit
这个工具背后用到了几项比较前沿的技术。
它采用了来自 NVIDIA 的 Diart 方案来区分不同说话人,如果在会议中有多个人发言,它可以分辨出哪句话是谁说的。
同时,它还使用了 Silero 的语音活动检测模块,能够准确判断什么时候有人在说话,从而减少无效处理。
02
MCP 注册中心
开源地址:https://github.com/modelcontextprotocol/registry
比较有意思的是,项目包含了一个名为 mcp-publisher 的命令行工具,开发者可以用它来发布自己的 MCP 服务器到注册中心。
发布过程中有一套完整的验证机制,确保只有命名空间的真正所有者才能发布相应服务器。
03
快速克隆一个人的声音
Real-Time Voice Cloning 已经获得 57K+ 的 Star 了。
它能够快速克隆一个人的声音,并在极短时间内生成任意内容的语音。
开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
底层基于 SV2TTS 的深度学习技术,这原本是一项硕士研究课题。除了核心的语音合成部分,它还使用了一个名为 WaveRNN 的声码器来保证声音生成的质量和效率。
他有一个图形化工具箱,按照说明安装必要的环境,比如 ffmpeg 和一个叫 Python 包管理工具,就可以尝试克隆声音并生成语音了。
项目支持在Windows和Linux系统上运行,并且如果你有一块较好的NVIDIA显卡,处理速度会更快。
虽然 Star 很多,但是克隆效果并不是最好的。
04
uutils coreutils
coreutils 是一个使用 Rust 语言重写的 GNU coreutils,最大的特点就是:跨平台。
也就是说,不管你在Windows、macOS还是Linux上,都可以使用同一套完全一致的工具,这让跨平台写脚本或传输文件变得更简单了。
开源地址:https://github.com/uutils/coreutils
05
高质量文本转语音
另外一个开源文本转语音模型,支持包括中文、英文、日文等 23 种语言的高质量语音合成。
可以通过调节参数来控制语音的情感强度和表现力,支持零样本语音克隆,只需一段参考音频就能模仿声音特征。
它提供了一个网站,有 Chatterbox 的很多 Demo,可以去下面链接瞧瞧。
Demo:https://resemble-ai.github.io/chatterbox_demopage/
开源地址:https://github.com/resemble-ai/chatterbox
同时内置了防滥用的音频水印功能。无论是制作视频内容、开发游戏还是构建语音助手,Chatterbox 都能提供自然流畅的多语言语音支持。
06
AI 应用开发框架
一个 AI 应用框架,帮你快速开发 AI 能力的全栈应用。
该项目已经在 Google 的生产环境中得到实际应用,具备较高的稳定性和实用性。
开源地址:https://github.com/firebase/genkit
GenKit 提供了一系列简化 AI 开发的功能,比如处理多模态内容、生成结构化输出、调用工具函数以及构建智能工作流。
开发者只需要几行代码就能快速实现文本生成、对话机器人、自动化任务或推荐系统等常见 AI 场景。
GenKit 还自带丰富的开发工具,包括本地 CLI 和开发者界面。开发者可以在图形化界面中测试提示词、调试执行流程、对比不同模型的输出结果,从而更快地迭代和优化AI功能。
07
开源机器人项目
openpi 项目集中提供了多种视觉-语言-动作模型,用于机器人控制,支持直接推理或基于自有数据微调。
开源地址:https://github.com/Physical-Intelligence/openpi
该项目包含三类核心模型:
1️⃣ π₀₀是一种基于流匹配的视觉语言动作模型;
2️⃣ π₀₀-FAST采用自回归方式生成动作,基于FAST动作分词器;
3️⃣ π₀₀.₅₅是π₀₀的升级版本,使用知识隔离训练,具有更好的开放世界泛化能力。
这些模型都经过了超过一万小时的机器人数据预训练,可作为基础模型直接使用,也可用于后续微调。
你可在该项目中找到模型权重、训练代码、推理示例以及详细的使用文档。
08
其它开源项目
没有评论:
发表评论