AI I024: 阿里炸裂开源两个神级语音模型——识别粤语绕口令也毫无压力？

2024年7月7日星期日

阿里炸裂开源两个神级语音模型——识别粤语绕口令也毫无压力？

阿里重磅开源最新质量非常高的模型：

- TTS模型CosyVoice

- 语音识别模型SenseVoice

项目详细介绍地址在文末，里面介绍了几个非常有意思的项目：

- 将SenseVoice、LLMs和CosyVoice结合起来，开发一个情感语音聊天应用程序。

- 通过将基于LLM的实时世界知识多Agent系统SenseVoice与CosyVoice结合起来，创建一个交互式播客，很有意思。

实现用户和若干个ai博客主进行实时的交流的功能，可以随时打断。

比如对于五月天假唱的讨论：

TTS模型CosyVoice

支持功能：（支持英、日、韩、普通话和粤语）

- 支持通过实时声音定制个性模型（定制后可跨语种生成）

- 支持定制说话时人物的状态（比如女人说话慢条斯理等等）

先放几个官方比较惊艳的例子：

整体风格自定义：

整体情绪的选择：

节点情绪的控制：

我主要测试一下TTS的场景状态的效果和SenseVoice的语音识别比较新鲜的功能。

场景状态的定制

- 人物状态：

非常紧张害怕的女人。

- 台词：

不要杀我求求你不要杀我<strong>，我有很重要的线索提供。

- 人物状态：

一个声音正常、说话速度较慢、情绪低落的女性演讲者。

- 台词：

当我们离开这个世界时，人们记住的不是我们积累的财物，而是我们对他们生活的影响和我们共享的爱。

语音识别

SenseVoice功能包括自动语音识别（ASR）、口语识别（LID）、语音情感识别（SER）和声学事件检测（AED）。

这里放一个粤语的绕口令考验一下模型识别的准确度：

床脚撞墙角，墙角撞床脚，你话床脚撞墙角定系墙角撞床脚啊

查看识别的结果：

识别速度非常快执行速度比 Whisper-small 快 7 倍，比 Whisper-large 快 17 倍，体验下来真的很快，只花了不到1秒。

而且一个字都没错，识别质量非常高。

测试下情感识别：

这里我放了黄渤最经典的123456789的试戏：

识别结果，台词准确并且带有悲伤的emoji。

最后来一段地狱难度，寒战对骂：

这段对骂带有大量的语音重叠：

识别结果：

郭富城的部分基本都识别准确，质量很好，梁家辉部分也识别到了，但整体效果只能算中等，还凑合。

项目详细介绍：

https://fun-audio-llm.github.io/

在线体验的地址如下：

https://www.modelscope.cn/studios/iic/CosyVoice-300M

https://www.modelscope.cn/studios/iic/SenseVoice

今天分享到此，

如果读到这里点个赞和在看再走吧，

谢谢阅读。

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2024年7月7日星期日

阿里炸裂开源两个神级语音模型——识别粤语绕口令也毫无压力？

没有评论:

发表评论

盘点本周14个热门GitHub开源项目涵盖AI工具效率神器免费编程

标签

2024年7月7日星期日

阿里炸裂开源两个神级语音模型——识别粤语绕口令也毫无压力？

没有评论:

发表评论

盘点本周14个热门GitHub开源项目 涵盖AI工具效率神器免费编程

盘点本周14个热门GitHub开源项目涵盖AI工具效率神器免费编程