2024年7月7日星期日

阿里炸裂开源两个神级语音模型——识别粤语绕口令也毫无压力?


阿里重磅开源最新质量非常高的模型:

- TTS模型CosyVoice

- 语音识别模型SenseVoice


项目详细介绍地址在文末,里面介绍了几个非常有意思的项目:

将SenseVoice、LLMs和CosyVoice结合起来,开发一个情感语音聊天应用程序。

通过将基于LLM的实时世界知识多Agent系统SenseVoice与CosyVoice结合起来,创建一个交互式播客,很有意思。

实现用户和若干个ai博客主进行实时的交流的功能,可以随时打断。

比如对于五月天假唱的讨论:



TTS模型CosyVoice

支持功能:(支持英、日、韩、普通话和粤语

- 支持通过实时声音定制个性模型(定制后可跨语种生成)

- 支持定制说话时人物的状态(比如女人说话慢条斯理等等)

先放几个官方比较惊艳的例子:


整体风格自定义:


整体情绪的选择:


节点情绪的控制:




我主要测试一下TTS的场景状态的效果和SenseVoice的语音识别比较新鲜的功能。


场景状态的定制

- 人物状态:

非常紧张害怕的女人。

- 台词:

不要杀我求求你不要杀我<strong>,我有很重要的线索提供。

- 人物状态:
一个声音正常、说话速度较慢、情绪低落的女性演讲者。
- 台词:
当我们离开这个世界时,人们记住的不是我们积累的财物,而是我们对他们生活的影响和我们共享的爱。



语音识别

SenseVoice功能包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和声学事件检测 (AED)。

这里放一个粤语的绕口令考验一下模型识别的准确度:

床脚撞墙角,墙角撞床脚,你话床脚撞墙角定系墙角撞床脚啊



查看识别的结果:



识别速度非常快执行速度比 Whisper-small 快 7 倍,比 Whisper-large 快 17 倍,体验下来真的很快,只花了不到1秒。

而且一个字都没错,识别质量非常高。


测试下情感识别:

这里我放了黄渤最经典的123456789的试戏:



识别结果,台词准确并且带有悲伤的emoji。



最后来一段地狱难度,寒战对骂:

这段对骂带有大量的语音重叠:



识别结果:

郭富城的部分基本都识别准确,质量很好,梁家辉部分也识别到了,但整体效果只能算中等,还凑合。



项目详细介绍:

https://fun-audio-llm.github.io/


在线体验的地址如下:

https://www.modelscope.cn/studios/iic/CosyVoice-300M

https://www.modelscope.cn/studios/iic/SenseVoice


今天分享到此,

如果读到这里点个赞和在看再走吧,

谢谢阅读。

没有评论:

发表评论

瑞莱智慧CEO:大模型形成强生产力关键在把智能体组织起来,安全可控是核心前置门槛 I 中国AIGC产业峰会

AI检测系统重要性愈发凸显 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 随着大模型加速渗透核心行业,其安全可控性正从技术议题升级为产业落地的先决条件。 特别是金融、医疗等关键领域,对数据隐私保护、模型行为可控性及伦理合规提出了更高的要求。 如何为AI应用构建坚实的...