2025年12月11日星期四

原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Xin He, Longhui Wei等

解读:AI生成未来
图片

论文链接:https://arxiv.org/pdf/2512.04810
项目链接:https://emma-umm.github.io/emma/

背景与动机

当前多模态大模型已经成为大模型领域最为重要的研究热点,尤其是随着OpenAI的GPT-4O展现出极强的多模交互生成能力,以及谷歌GEMINI依靠原生多模架构打了一场漂亮的大模型翻身仗,如何构建多模态统一架构已经成为2025年多模态大模型领域最为关心的课题。

尽管构建多模态统一架构已经成为了业界几乎所有大模型研究者的共识,但是如何构建多模态统一架构的路线目前仍然未收敛,比如1)直接利用开源的理解或生成专家模型然后中间设计桥接器来构建多模交互能力,典型代表工作比如UniWorldV1, Metaquery, OminiGen2等; 2)架构统一并进行端到端原生训练以激发多模能力,但其理解与生成任务优化目标不同。代表工作如字节的BAGEL,Mogao以及Deepseek的JanusFlow 3) 追求完美统一,优化目标一致,比如EMU系列和D-DiT。但无论哪种路线,围绕大家心中最为关键的一个问题就是,多模态统一架构所训练激发的能力到底能不能超过单独的多模态理解或者多模态生成模型,从而证明多模态统一架构所具备的优势?华为近期发布的高效多模态统一架构EMMA就给出了相关答案,是可以的!

先上结果

我们先来看结果,一句话总结:EMMA以4B MOE规模的大小在多模态理解、生成、编辑等榜单上力压当前各种7B大小的统一架构模型,远超BAGEL

图片再来看看与单独的专家模型对比。比如在多模态理解常常测评的11个榜单上,EMMA-4B模型要比Qwen3-VL-4B取得更好的结果。

图片

同时,在图像生成GenEval榜单上EMMA也获得了超高的分数。

图片

具体方法和实验细节

我们来看看EMMA到底通过什么方案来取得这么好的效果呢? 核心方案:

  1. 高效压缩,平衡理解与生成Token;采用32x高效压缩的生成编码器,使得与理解分支一致,保证理解与生成的token平衡,这个近期Meta的统一架构工作TUNA也提及到理解与生成token平衡。因此,1K分辨率的图像理解和生成编码器都会编码成1024个视觉token。
  2. Token Channel-wise拼接,降低视觉Token数;理解token 和生成token 直接通道拼接而不是token 数拼接,这样在做信息融合的时候避免token爆炸,有利于多模交互场景;
  3. 采用共享及解耦网络机制;在原生多模知识共享(这点大家可以参考对照生成需要REPA loss)的同时满足任务特异性建模(理解语义建模,生成需要语义和高频信息建模)
  4. 理解编码器siglip2改成专家混合架构mixpert,以应对多样的输入图像类型。

其整体架构图和训练细节如下。 基于上述方案,EMMA在满足高效的同时(例如编辑任务降低5倍视觉token)达到SOTA性能,相较于BAGEL7B有大幅提升。同时相较于Qwen3-VL-4B进行了对比在11个理解榜单取得了相当甚至更优的结果

图片
图片

可视化结果

最后我们再来看一些具体的可视化结果

图片
图片

是不是EMMA的生成能力相当能打?

总结

EMMA通过高效的编码器设计融合策略和网络结构语义共享及高层任务解耦机制,能够高效地完成原生多模态统一架构训练,最终配合上高质量的数据工程和训练方案EMMA能够在多模态理解、生成及编辑等榜单上大幅超过BAGEL。相较于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展现出具备竞争力的结果。EMMA进一步揭示了原生多模态统一架构的潜力,也证明了原生多模态统一架构是能够超越专有模型的,为后续多模态统一架构研究奠定坚实的基础。

参考文献

[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

AI画不出的左手,是因为我们给了它一个偏科的童年。

都是偏见 昨天刷到了一条非常有意思的推特。 是我关注的一个博主,Howie.Serious发的。 他发了一个很有趣的点,就是即使是世界上现在最牛逼的NanoBananaPro,在世界知识如此屌爆的情况下,AI,还是没有办法生成左手写字的图片。 这事特别有意思。 我立马用Gem...