阿里重磅开源最新质量非常高的模型:
- TTS模型CosyVoice
- 语音识别模型SenseVoice
项目详细介绍地址在文末,里面介绍了几个非常有意思的项目:
- 将SenseVoice、LLMs和CosyVoice结合起来,开发一个情感语音聊天应用程序。
- 通过将基于LLM的实时世界知识多Agent系统SenseVoice与CosyVoice结合起来,创建一个交互式播客,很有意思。
实现用户和若干个ai博客主进行实时的交流的功能,可以随时打断。
比如对于五月天假唱的讨论:
TTS模型CosyVoice
支持功能:(支持英、日、韩、普通话和粤语)
- 支持通过实时声音定制个性模型(定制后可跨语种生成)
- 支持定制说话时人物的状态(比如女人说话慢条斯理等等)
先放几个官方比较惊艳的例子:
整体风格自定义:
整体情绪的选择:
节点情绪的控制:
我主要测试一下TTS的场景状态的效果和SenseVoice的语音识别比较新鲜的功能。
场景状态的定制
- 人物状态:
非常紧张害怕的女人。
- 台词:
不要杀我求求你不要杀我<strong>,我有很重要的线索提供。
语音识别
SenseVoice功能包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和声学事件检测 (AED)。
这里放一个粤语的绕口令考验一下模型识别的准确度:
床脚撞墙角,墙角撞床脚,你话床脚撞墙角定系墙角撞床脚啊
查看识别的结果:
识别速度非常快执行速度比 Whisper-small 快 7 倍,比 Whisper-large 快 17 倍,体验下来真的很快,只花了不到1秒。
而且一个字都没错,识别质量非常高。
测试下情感识别:
这里我放了黄渤最经典的123456789的试戏:
识别结果,台词准确并且带有悲伤的emoji。
最后来一段地狱难度,寒战对骂:
这段对骂带有大量的语音重叠:
识别结果:
郭富城的部分基本都识别准确,质量很好,梁家辉部分也识别到了,但整体效果只能算中等,还凑合。
项目详细介绍:
https://fun-audio-llm.github.io/
在线体验的地址如下:
https://www.modelscope.cn/studios/iic/CosyVoice-300M
https://www.modelscope.cn/studios/iic/SenseVoice
今天分享到此,
如果读到这里点个赞和在看再走吧,
谢谢阅读。
没有评论:
发表评论