2025年2月17日星期一

ComfyUI入门教程:文生音乐/文生音频

大家好,我是每天分享AI绘画的萤火君!

这篇文章给大家分享点不一样的内容:文生音乐/文生音频。

今天使用的模型是由大名鼎鼎的Stability AI公司发布的Stable Audio Open 1.0,Stability AI就是发布SD1.5、SDXL、SD3和SD3.5的那家公司,虽然现在AI绘画界的王者是Flux,不过还是有很多场景、很多同学在使用SD系列的模型,Stability AI这家公司也发布过很多有趣的模型,Stable Audio Open 1.0就是其中之一。

模型介绍    

Stable Audio Open 1.0 是 Stability AI 推出的开源音频生成模型,能够通过文本提示生成最长 47 秒的高质量音效和短音乐片段。它基于 Transformer 架构的潜在扩散技术,专为音乐制作和声音设计优化,可生成鼓点、乐器即兴片段、环境声、拟音等素材。用户可对模型进行微调,例如根据个性化鼓点录音生成新节奏。训练数据包含超 48 万条授权音频,生成内容可安全商用。

环境准备    

这里使用的运行环境是 ComfyUI,请将ComfyUI升级到最新版本。

没有ComfyUI的同学建议先使用云环境来运行,无需复杂且容易出错的环境配置,待有应用价值了,再到本地折腾也不迟。我的云镜像:https://haoee.com/applicationMarket/applicationDetails?appId=27&IC=XLZLpI7Q    

模型下载

·基础模型:https://huggingface.co/stabilityai/stable-audio-open-1.0

模型下载后放到基础模型目录,一般是 ComfyUI/models/checkpoints 目录。

·文本编码器模型:https://huggingface.co/google-t5/t5-base/tree/main

模型下载后放到clip目录,一般是 ComfyUI/models/clip 目录。

访问 huggingface 不方便的同学可以发消息"文生音频"到我的公众号"萤火AI绘画"即可获取相关模型。

工作流    

工作流特别简单,请看下图(文末下载):

我们可以看到,这个文生音频的工作流和生成图片的工作流样子差不多,也是要加载扩散模型、VAE模型和文本编码器模型,填写正向提示词和反向提示词,使用采样器和调度器进行生成,最后通过解码器输出音频数据,唯一看起来差别比较大的是这里设置的是音频长度,而不是图片尺寸。    

还有几个采样器的参数有点不同,也需要特别关注下:

·steps: 生成音频步数:10-150

·cfg_scale: 取值范围是1到15,默认值为6,值越高,生成的内容通常更紧密地符合给定的描述,但可能失去一些创造性。

·sampler_type: 采样类型,有dpmpp-3m-sde、dpmpp-2m-sde、heun、lms、dpmpp-2s-ancestral、dpm-2、dpm-fast六种采样类型。

再给大家分享几个提示词:

蛙声一片:

A summer night with many frogs croaking.

欢快乐声:

Joyful and rhythmic background music.

更多提示词见资源下载。

资源下载    

本文用到的插件、提示词、工作流和模型都已经整理好,下载地址:https://pan.quark.cn/s/5c1871bb716c

另外我还免费分享了几十条ComfyUI工作流,给我的公/众\号 "萤火AI绘画" 发消息 "工作流" 即可获取。

如果你需要全面学习AI绘画,获取更加好用的高级工作流,请点击下方链接或者扫码订阅小册:https://xiaobot.net/post/03340243-9df6-4ea0-bad6-9911a5034bd6    

 


以上就是本文的主要内容。后续我会把生成音频与图像视频进行结合,创作一些更有意思的内容,请及时关注,以免错过重要内容。    

没有评论:

发表评论

分分钟打造产品宣传网页,别再付费了

点击上方卡片关注 不要错过精彩文章 🎉 读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最希望,能给大家带来不一样的搭建思路和方法。  点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!🙏谢谢啦...