AI I024: 南大腾讯中科院开源首个纯扩散多模态模型Omni-Diffusion，统一文本/语音/图像生成

2026年3月15日星期日

南大腾讯中科院开源首个纯扩散多模态模型Omni-Diffusion，统一文本/语音/图像生成

南大/腾讯/中科院开源Omni-Diffusion，纯扩散多模态模型统一文本/语音/图像，7B参数并行解码效率高，在语音识别、视觉问答等任务上表现优异，已开源代码和论文，适合AI研究人员和开发者使用。

Tags:

多模态模型

扩散模型

Omni-Diffusion

开源AI

多模态生成

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

一句话总结：文本/语音/图像任意组合输入 → 任意模态输出，Omni-Diffusion 用统一掩码离散扩散模型直接建模多模态 token 联合分布，7B 参数实现理解与生成统一，采样效率反超自回归架构。

多模态大模型这两年进步飞快，但不知道大家有没有发现一个架构层面的「路径依赖」：

绝大多数 MLLM 仍以自回归（Autoregressive）为骨干，先生成文本再用额外解码器转图像/语音
这种「文本中心+外挂解码」范式导致模态对齐依赖后处理，跨模态生成易失真
自回归串行解码天生效率瓶颈，长序列生成延迟高

扩散模型（Diffusion）在图像/文本生成中已展现强大潜力，但将其作为多模态统一骨干的研究仍属空白。今天介绍的由南京大学、腾讯优图、中科院自动化所联合提出的Omni-Diffusion正是为打破这一范式而来。该工作首次提出完全基于掩码离散扩散模型，实现文本、语音、图像三模态的统一理解与生成，在多项基准上媲美甚至超越自回归方案。

unsetunset相关链接unsetunset

论文: https://arxiv.org/abs/2603.06577
主页: https://omni-diffusion.github.io
仓库: https://github.com/vita-mllm/omni-diffusion (已开源)

unsetunset论文介绍unsetunset

随着多模态智能的快速发展，传统的自回归架构逐渐显露出其局限性。自回归模型必须按顺序生成Token，难以实现高效的并行化生成，且在生成过程中难以关注全局信息。相比之下，掩码离散扩散模型（MDMs）支持并行解码，能够加速生成过程，并实现更精准的语义控制。因此，研究团队提出了Omni-Diffusion，旨在利用MDMs的优势，构建一个能够处理文本、图像、语音等多种模态的全模态大模型。

unsetunset方法概述unsetunset

架构概述。Omni-Diffusion 是一个基于掩码标记离散扩散模型的任意模态多模态系统。通过掩码标记预测对多模态离散标记的统一分布进行建模，Omni-Diffusion 能够理解和生成多种模态，包括文本、图像和语音。

Omni-Diffusion的核心思想是将所有模态的数据转化为离散的Token，并在这些Token组成的序列上进行掩码预测。具体方法包括：

模态的离散化（Tokenization）：

图像模态：采用MAGVIT-v2编码器，将图像压缩为8192种可能的离散Token。
语音模态：输入端使用SenseVoiceSmall提取语义特征，输出端利用GLM-4-Voice的分词器将语音转化为16384种离散Token。
文本模态：继承自基础语言模型的词表。

掩码离散扩散模型架构：

模型主干采用拥有70亿参数的Dream-7B，通过掩码Token预测（Mask Token Prediction）学习多模态Token的联合分布。训练时随机遮盖序列中的一定比例Token，并尝试预测这些被遮盖位置的原始内容。

三阶段渐进式训练：

第一阶段（视觉-语言预对齐）：让模型学会看图说话和文生图，对齐视觉和文本空间。
第二阶段（多模态联合对齐）：加入语音数据，让模型在视觉、语言、语音三者间建立联系。
第三阶段（能力强化）：在自建的SDVI数据集上进行微调，强化语音驱动的视觉交互能力。

推理优化：

位置惩罚（Position Penalty）：抑制序列后部的Token生成概率，打破镜像重复现象，提升画质。
特殊Token预填充：在生成语音时，预先埋入[begin-of-speech]标记，提升对话连贯性。
自适应Token长度分配：根据语音时长与文本长度的相关性，动态调整初始掩码长度。

unsetunset实验unsetunset

为了验证Omni-Diffusion的有效性，研究团队在多个权威榜单上进行了全面测试：

语音任务：在LibriSpeech榜单上，Omni-Diffusion的词错误率（WER）显著优于同为Any-to-Any架构的AnyGPT。
视觉理解与生成：在视觉问答（VQA）任务中，Omni-Diffusion在多个评测基准中拿到高分，甚至与一些专门做理解的视觉LLM不相上下。在文生图任务中，其CLIP Score也达到了较高水平。
采样效率：得益于并行解码，Omni-Diffusion在图像生成上表现出色，将采样步数从256步缩减到10步时，画质依然维持在较高水平。

unsetunset结论unsetunset

Omni-Diffusion的出现为多模态大模型的研究开辟了一条新路径。它证明了自回归并非通往全模态智能的唯一方案，通过巧妙地利用离散扩散模型的并行性和统一建模能力，同样可以构建出高性能的全模态AI。未来，随着技术的不断进步和应用场景的拓展，Omni-Diffusion有望在更多领域发挥重要作用，推动人工智能向更加智能、更加人性化的方向发展。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论