2026年6月21日星期日

AudioX-Turbo开源音频生成大模型 4步极速推理支持多模态输入

AudioX-Turbo是港科大与清华联合开源的统一音频生成框架，支持文本、视频、音频任意组合输入，4步扩散采样即可生成音效或音乐。适合开发者与创作者，模型权重及代码已开源，提供Gradio快速部署和Python API调用。

Tags:

音频生成AI

多模态音频模型

极速推理

开源项目

AI音效生成

先来看下面这个视频。

主要是听听每一个场景的配音。

这个视频中，风刮玻璃、狂野感的森林环境音和鸟叫声、火球发射后爆炸声音、布鞋踩在松软草原的声音。

这些一系列场景的配音都是 AI 生成的。

也就是通过今天要推荐的开源语音大模型： AudioX-Turbo。

开源项目简介

AI 视频生成这一年卷得离谱，Seedance、可灵啥的都把效果拉到了电影级。

但是在某些场景下不太能精准控制。

AI 音频这边也有一些尴尬现状：主流方案还在用几十步甚至上百步的扩散采样，生成一段 10 秒的音频要等好一阵。

港科大、清华联合 Noiz AI 刚开源了一个 AudioX-Turbo ，目标就是想解决极速推理与精准可控两大难题。

它是一个统一的 Anything-to-Audio 生成框架。

输入随便组合：纯文本、纯视频、纯音频，或者文本加视频、视频加音频、文本加音频都行。

输出都是声音，可以是音效、环境音，也可以是音乐。

开源地址：https://github.com/NoizAI/AudioX-Turbo论文：https://arxiv.org/abs/2606.12555模型权重：https://huggingface.co/HKUSTAudio/AudioX-Turbo

看看效果

文字生成音频：在键盘上打字

文字生成音频：烟花绽放两次，随后是一段寂静，然后钟声开始滴答作响

文字生成音乐：平滑的城市 R&B 节拍，带有柔和的律动

文字生成音乐：适合旅行视频的振奋人心的尤克里里曲调

视频转音频生成

视频转音乐生成

两大核心能力

一个模型干 6 件事

大多数音频生成模型都是单一任务，做文本生成音频的不会做视频生成音乐。

AudioX-Turbo 把这 6 种任务装进了一个模型：文本生成音频、文本生成音乐、视频生成音频、视频生成音乐、文本加视频生成音频、文本加视频生成音乐。

更牛的是生成音频很快，4 步出结果。

这是 AudioX-Turbo 最核心的能力。

技术路径走的是师生蒸馏：先用完整的多步扩散模型 AudioX-Base 当老师，再用 Distribution Matching Distillation 配合扩散判别器，把它压缩成 4 步就能出结果的 AudioX-Turbo。

对实际应用来说，响应延迟可以从分钟级降到秒级，做实时交互的 AI 音频工具有了可行性。

数据壁垒

训练数据是这类大模型项目的核心壁垒。

AudioX-Turbo 自建了一个叫 IF-caps-Pro 的数据集，规模大约 920 万条样本，通过两阶段的数据采集和标注流程构建。

这个规模在音频领域不算小。

社区里大多数开源音频模型要么用现成的5 万条 AudioCaps，要么用 5 千条的 MusicCaps，数据量级直接被 AudioX-Turbo 拉开了一个数量级。

怎么用起来

官方推荐 A100 或 H800，CUDA 12.1，DeepSpeed 训练路径还需要完整 CUDA toolkit。

普通个人玩家跑推理勉强，想完整复现训练基本要实验室级别。

安装步骤：

# Clone the repositorygit clone https://github.com/NoizAI/AudioX-Turbo.gitcd AudioX-Turbo
# Create a conda environmentconda create -n audiox-turbo python=3.8.20conda activate audiox-turbo
# Install media librariesconda install -c conda-forge ffmpeg libsndfile
# Install dependenciespip install -r requirements.txtpip install -e . --no-deps
pip install soundfile==0.12.1

模型权重托管在 HuggingFace，用 huggingface-cli 下载：

pip install -U "huggingface_hub[cli]"
# Inference checkpoints (student + VAE + Synchformer)huggingface-cli download HKUSTAudio/AudioX-Turbo \  audiox_turbo/audiox_turbo.ckpt pretransform/vae.ckpt synchformer/synchformer_state_dict.pth \  --local-dir checkpoints
# Training only: teacher / base modelhuggingface-cli download HKUSTAudio/AudioX-Turbo \  pretrained_ckpt/pretrained_ckpt.ckpt \  --local-dir checkpoints

推理可以走 Gradio 或者 Python API。

Gradio 一行命令部署服务：

python run_gradio.py  # http://localhost:7860python run_gradio.py --share # 生成公开链接

Python API 调用也不难。

核心是 load_audiox_turbo_model 加载模型，generate_diffusion_cond_dmd 跑 4 步生成，最后用 torchaudio.save 落盘。

仓库给了完整的示例代码，包括视频条件下的 Synchformer 特征提取、音频后处理、视频音频合并这些细节。

开源地址：https://github.com/NoizAI/AudioX-Turbo论文：https://arxiv.org/abs/2606.12555模型权重：https://huggingface.co/HKUSTAudio/AudioX-Turbo

点击下方卡片，关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接关注微信公众号：逛逛 GitHub ，后台对话聊天就行了：

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年6月21日星期日

AudioX-Turbo开源音频生成大模型 4步极速推理支持多模态输入

AudioX-Turbo是港科大与清华联合开源的统一音频生成框架，支持文本、视频、音频任意组合输入，4步扩散采样即可生成音效或音乐。适合开发者与创作者，模型权重及代码已开源，提供Gradio快速部署和Python API调用。

Tags:

音频生成AI

多模态音频模型

极速推理

开源项目

AI音效生成

先来看下面这个视频。

主要是听听每一个场景的配音。

这个视频中，风刮玻璃、狂野感的森林环境音和鸟叫声、火球发射后爆炸声音、布鞋踩在松软草原的声音。

这些一系列场景的配音都是 AI 生成的。

也就是通过今天要推荐的开源语音大模型： AudioX-Turbo。

AI 视频生成这一年卷得离谱，Seedance、可灵啥的都把效果拉到了电影级。

但是在某些场景下不太能精准控制。

AI 音频这边也有一些尴尬现状：主流方案还在用几十步甚至上百步的扩散采样，生成一段 10 秒的音频要等好一阵。

视频转音频生成

视频转音乐生成

数据壁垒

没有评论:

发表评论

免费大模型 API全景指南：20+平台白嫖攻略，从注册到上手

标签

2026年6月21日星期日

AudioX-Turbo开源音频生成大模型 4步极速推理支持多模态输入

AudioX-Turbo是港科大与清华联合开源的统一音频生成框架，支持文本、视频、音频任意组合输入，4步扩散采样即可生成音效或音乐。适合开发者与创作者，模型权重及代码已开源，提供Gradio快速部署和Python API调用。

Tags: 音频生成AI 多模态音频模型 极速推理 开源项目 AI音效生成

先来看下面这个视频。

主要是听听每一个场景的配音。

这个视频中，风刮玻璃、狂野感的森林环境音和鸟叫声、火球发射后爆炸声音、布鞋踩在松软草原的声音。

这些一系列场景的配音都是 AI 生成的。

也就是通过今天要推荐的开源语音大模型： AudioX-Turbo。

AI 视频生成这一年卷得离谱，Seedance、可灵啥的都把效果拉到了电影级。

但是在某些场景下不太能精准控制。

AI 音频这边也有一些尴尬现状：主流方案还在用几十步甚至上百步的扩散采样，生成一段 10 秒的音频要等好一阵。

视频转音频生成

视频转音乐生成

数据壁垒

没有评论:

发表评论

免费大模型 API全景指南：20+平台白嫖攻略，从注册到上手

Tags:

音频生成AI

多模态音频模型

极速推理

开源项目

AI音效生成