2025年6月26日星期四

开源多模态生成模型新标杆!OmniGen2:支持视觉理解、文生图、图像编辑等任务,探索高级多模态生成!

由北京人工智能研究院提出的 OmniGen2 是一个统一的多模态生成模型,它将强大的视觉理解、文本到图像的合成




由北京人工智能研究院提出的 OmniGen2 是一个统一的多模态生成模型,它将强大的视觉理解、文本到图像的合成、基于指令的图像编辑以及主题驱动的上下文生成功能整合在一个框架内。它基于解耦架构,在保留高质量语言模型的同时,实现了细粒度且一致的视觉输出。除了生成功能之外,OmniGen2 还集成了多模态反射机制,使其能够分析、评估并迭代优化其输出,从而将推理和自我修正功能引入图像生成过程。凭借在生成和理解任务中均表现出色的优势,它在轻量级开源模型中树立了新的标杆。

图片

文本到图像生成

图片

图像编辑

图片

上下文生成

图片

相关链接

  • 论文:https://arxiv.org/pdf/2409.11340
  • 代码:https://github.com/VectorSpaceLab/OmniGen2
  • 模型:https://huggingface.co/OmniGen2/OmniGen2
  • 主页:https://vectorspacelab.github.io/OmniGen2
  • 试用:https://huggingface.co/spaces/OmniGen2/OmniGen2

论文介绍

图片大型语言模型 (LLM) 的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,一个能够在单一框架内处理各种任务的统一模型仍然鲜有开发。本文介绍了 OmniGen,一个用于统一图像生成的新型扩散模型。OmniGen 具有以下特点:

  1. 统一性:OmniGen 不仅具备文本到图像的生成能力,还原生支持各种下游任务,例如图像编辑、主题驱动生成和视觉条件生成。
  2. 简洁性:OmniGen 的架构高度简化,无需额外的插件。此外,与现有的扩散模型相比,它更加用户友好,可以通过指令端到端地完成复杂任务,无需额外的中间步骤,从而大大简化了图像生成工作流程。
  3. 知识迁移:得益于统一的学习模式,OmniGen 能够有效地跨不同任务迁移知识,管理未知任务和领域,并展现出新颖的能力。我们还探索了该模型的推理能力以及思维链机制的潜在应用。

模型架构

OmniGen2 采用双路径架构,分别使用自回归 Transformer 和扩散 Transformer 来生成文本和图像。它采用解耦设计,其中 ViT 编码器将视觉信息输入多模态大型语言模型 (MLLM) 以执行理解任务,而 VAE 编码器则专门为扩散解码器提供细粒度的视觉特征。这种分离保留了 MLLM 强大的语言建模能力,同时实现了高保真度和一致的图像生成,使该架构在文本到图像合成、图像编辑和上下文生成等任务中既高效又灵活。

图 1: OmniGen2 的架构。
图 1: OmniGen2 的架构。

多模态旋转位置嵌入:引入了一种新颖的Omni-RoPE,专门设计用于满足我们多样化和复杂任务的需求,特别是图像编辑和上下文生成,如图 2 所示。

图 2:Omni-RoPE的示意图。
图 2:Omni-RoPE的示意图。

它将位置信息分解为三个部分:

  1. 序列和模态标识符: 对于单个图像中的所有标记(将其视为语义单元)而言,它是恒定的,但在不同的图像之间却是唯一的。
  2. 二维空间高度坐标:表示图像标记的标准化垂直位置。
  3. 二维空间宽度坐标:表示图像标记的标准化水平位置。对于所有非图像标记,两个空间坐标设置为零。

这种双重机制使模型能够通过其独特的,而共享的局部空间坐标增强了图像编辑等任务的一致性。

模型功能

视觉理解

OmniGen2 利用强大的多模态大型语言模型 (MLLM) 来跨多种图像类型执行稳健的视觉理解。通过使用 ViT 编码器进行图像表示,并保持 MLLM 基本稳定,它在标准基准测试中实现了强劲的性能,同时保留了跨文本和视觉输入的语义对齐、对象识别和推理能力。

文本到图像生成

OmniGen2 支持高质量的文本转图像生成,具有强大的组合推理能力和较长的提示跟随功能。通过对基于扩散的图像解码器进行调节,使其能够将语言模型中的隐藏状态和 VAE 中的细粒度视觉特征结合起来,它可以生成忠实连贯的图像,并与复杂的自然语言描述紧密相关。图片

基于指令的图像编辑

该模型能够基于自然语言指令进行精准的局部图像编辑。凭借专用的编辑数据集和双路径架构,OmniGen2 可以进行细粒度的修改(例如对象操作、样式更改或运动编辑),同时保留未编辑区域并保持视觉真实感和一致性。图片

上下文生成(主题驱动)

OmniGen2 擅长基于主题的生成,它从参考图像中提取主题,并根据文本提示在新场景中重新渲染。通过基于视频数据专门设计的训练流程,该模型展现出卓越的主题一致性和语境整合能力,超越了这一新兴领域的现有开源模型。图片

多模态反射

OmniGen2 的一大特色在于其内置的反射机制,使其能够评估自身的输出,识别不足之处,并通过迭代改进生成更优的结果。该功能由图文分析和自我校正训练相结合而成,为生成带来了一种多模态推理,从而提升了可控性、可靠性和输出质量。图片


感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

让AI玩24小时被封杀的游戏,结局会怎样?

最近,Steam上的一款名为《捞女游戏》(后更名《情感反诈模拟器》)的游戏火爆出圈。 游戏售价 29 元,上线首日即跻身国区热销榜首,全球热销榜第三(超越《黑神话:悟空》),首周销量突破 37万份,上线 5 天就回本,玩家好评率 96%,成为现象级爆款。 这样的数据背后究竟是...