2026年3月15日星期日

南大腾讯中科院开源首个纯扩散多模态模型Omni-Diffusion,统一文本/语音/图像生成

南大/腾讯/中科院开源Omni-Diffusion,纯扩散多模态模型统一文本/语音/图像,7B参数并行解码效率高,在语音识别、视觉问答等任务上表现优异,已开源代码和论文,适合AI研究人员和开发者使用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

一句话总结:文本/语音/图像任意组合输入 → 任意模态输出,Omni-Diffusion 用统一掩码离散扩散模型直接建模多模态 token 联合分布,7B 参数实现理解与生成统一,采样效率反超自回归架构。

多模态大模型这两年进步飞快,但不知道大家有没有发现一个架构层面的「路径依赖」:

  • 绝大多数 MLLM 仍以自回归(Autoregressive)为骨干,先生成文本再用额外解码器转图像/语音
  • 这种「文本中心+外挂解码」范式导致模态对齐依赖后处理,跨模态生成易失真
  • 自回归串行解码天生效率瓶颈,长序列生成延迟高

扩散模型(Diffusion)在图像/文本生成中已展现强大潜力,但将其作为多模态统一骨干的研究仍属空白。今天介绍的由南京大学、腾讯优图、中科院自动化所联合提出的Omni-Diffusion正是为打破这一范式而来。该工作首次提出完全基于掩码离散扩散模型,实现文本、语音、图像三模态的统一理解与生成,在多项基准上媲美甚至超越自回归方案。

图片

unsetunset相关链接unsetunset

  • 论文: https://arxiv.org/abs/2603.06577
  • 主页: https://omni-diffusion.github.io
  • 仓库: https://github.com/vita-mllm/omni-diffusion (已开源)

unsetunset论文介绍unsetunset

图片

随着多模态智能的快速发展,传统的自回归架构逐渐显露出其局限性。自回归模型必须按顺序生成Token,难以实现高效的并行化生成,且在生成过程中难以关注全局信息。相比之下,掩码离散扩散模型(MDMs)支持并行解码,能够加速生成过程,并实现更精准的语义控制。因此,研究团队提出了Omni-Diffusion,旨在利用MDMs的优势,构建一个能够处理文本、图像、语音等多种模态的全模态大模型。图片

unsetunset方法概述unsetunset

图片架构概述。Omni-Diffusion 是一个基于掩码标记离散扩散模型的任意模态多模态系统。通过掩码标记预测对多模态离散标记的统一分布进行建模,Omni-Diffusion 能够理解和生成多种模态,包括文本、图像和语音。

Omni-Diffusion的核心思想是将所有模态的数据转化为离散的Token,并在这些Token组成的序列上进行掩码预测。具体方法包括:

模态的离散化(Tokenization):

  • 图像模态:采用MAGVIT-v2编码器,将图像压缩为8192种可能的离散Token。
  • 语音模态:输入端使用SenseVoiceSmall提取语义特征,输出端利用GLM-4-Voice的分词器将语音转化为16384种离散Token。
  • 文本模态:继承自基础语言模型的词表。

掩码离散扩散模型架构:

模型主干采用拥有70亿参数的Dream-7B,通过掩码Token预测(Mask Token Prediction)学习多模态Token的联合分布。 训练时随机遮盖序列中的一定比例Token,并尝试预测这些被遮盖位置的原始内容。

三阶段渐进式训练:

图片
  • 第一阶段(视觉-语言预对齐):让模型学会看图说话和文生图,对齐视觉和文本空间。
  • 第二阶段(多模态联合对齐):加入语音数据,让模型在视觉、语言、语音三者间建立联系。
  • 第三阶段(能力强化):在自建的SDVI数据集上进行微调,强化语音驱动的视觉交互能力。

推理优化:

  • 位置惩罚(Position Penalty):抑制序列后部的Token生成概率,打破镜像重复现象,提升画质。
  • 特殊Token预填充:在生成语音时,预先埋入[begin-of-speech]标记,提升对话连贯性。
  • 自适应Token长度分配:根据语音时长与文本长度的相关性,动态调整初始掩码长度。

unsetunset实验unsetunset

Omni-Diffusion 在文本到图像和语音到图像任务中生成的样本。
Omni-Diffusion 在文本到图像和语音到图像任务中生成的样本。
图片
图片
图片
图片

为了验证Omni-Diffusion的有效性,研究团队在多个权威榜单上进行了全面测试:

  • 语音任务:在LibriSpeech榜单上,Omni-Diffusion的词错误率(WER)显著优于同为Any-to-Any架构的AnyGPT。
  • 视觉理解与生成:在视觉问答(VQA)任务中,Omni-Diffusion在多个评测基准中拿到高分,甚至与一些专门做理解的视觉LLM不相上下。在文生图任务中,其CLIP Score也达到了较高水平。
  • 采样效率:得益于并行解码,Omni-Diffusion在图像生成上表现出色,将采样步数从256步缩减到10步时,画质依然维持在较高水平。

unsetunset结论unsetunset

Omni-Diffusion的出现为多模态大模型的研究开辟了一条新路径。它证明了自回归并非通往全模态智能的唯一方案,通过巧妙地利用离散扩散模型的并行性和统一建模能力,同样可以构建出高性能的全模态AI。未来,随着技术的不断进步和应用场景的拓展,Omni-Diffusion有望在更多领域发挥重要作用,推动人工智能向更加智能、更加人性化的方向发展。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

OpenClaw多Agent实战:打通飞书多Bot,实现全流程自动化

本教程详解OpenClaw配置多Agent绑定多个飞书Bot的完整步骤。通过修改配置文件、添加Agent、绑定渠道等操作,实现各Agent独立工作空间和权限,资源共享,灵活调用不同大模型。适合需要多机器人协同工作的OpenClaw用户,注意配置修改和重启步骤。 Tags: ...