2025年6月3日星期二

图像定制大一统?字节提出DreamO,支持人物生成、 ID保持、虚拟试穿、风格迁移等任务,有效解决多泛化性冲突。

字节提出了一个统一的图像定制框架DreamO,支持人物生成、 ID保持、虚拟试穿、风格迁移等多项任务,不仅在广




字节提出了一个统一的图像定制框架DreamO,支持人物生成、 ID保持、虚拟试穿、风格迁移等多项任务,不仅在广泛的图像定制场景中取得了高质量的结果,而且在适应多条件场景方面也表现出很强的灵活性。现在已经可以支持消费级 GPU(16GB 或 24GB)上试用了,感兴趣的小伙伴可以试试~图片

综上所述,本文的贡献如下:

  • 我们提出了 DreamO,一个统一的图像定制框架。它通过在预训练的 DiT 模型上训练少量附加参数来实现各种复杂且多条件的定制任务。
  • 基于扩散模型中的表征对应关系,我们设计了一个特征路由约束,以增强一致性保真度,并实现多条件场景下的有效解耦。
  • 我们引入了一种渐进式训练策略,以促进在多任务和复杂任务设置下的收敛。此外,我们设计了一种占位符策略来建立文本描述和条件图像之间的对应关系。

大量实验表明,我们的方法不仅在广泛的图像定制场景中取得了高质量的结果,而且在适应多条件场景方面也表现出很强的灵活性。

效果展示

IP

图片

此任务与 IP-Adapter 类似,支持多种输入,包括角色、物体和动物。通过利用基于 VAE 的特征编码,DreamO 实现了比以往适配器方法更高的保真度,并在保留角色身份方面具有显著优势。

ID

图片

ID 指面部身份。与同时考虑人脸和衣着特征的 IP 任务不同,ID 任务仅关注面部特征。该任务与 InstantID 和 PuLID 类似。与之前的方法相比,DreamO 实现了更高的面部保真度,但比 SOTA 方法 PuLID 引入了更多的模型污染。

虚拟试穿

图片

此任务支持上衣、下装、眼镜和帽子等输入,并支持多件服装的虚拟试穿。值得注意的是,我们的训练集不包含多件服装或 ID+服装数据,但该模型对这些未见过的组合表现出良好的泛化能力。

风格迁移

图片

此任务与 Style-Adapter 和 InstantStyle 类似。请注意,样式一致性目前与其他任务相比不太稳定,并且在当前版本中,样式无法与其他条件组合使用。

多重条件

图片

可以使用多种条件(ID、IP、试穿)来生成更具创意的图像。得益于论文中提出的特征路由约束,DreamO 有效地缓解了多个实体之间的冲突和纠缠。

相关链接

  • 论文:https://arxiv.org/pdf/2504.16915
  • 代码:https://github.com/bytedance/DreamO
  • 试用:https://huggingface.co/spaces/ByteDance/DreamO
图片
图片

论文介绍

近年来,大量关于图像定制(例如身份、主题、风格、背景等)的研究展现了大规模生成模型中强大的定制能力。然而,大多数方法都是针对特定任务而设计的,这限制了它们在组合不同类型条件时的泛化能力。开发一个统一的图像定制框架仍然是一个悬而未决的挑战。

本文提出了 DreamO,这是一个旨在支持广泛任务并促进多种条件无缝集成的图像定制框架。具体而言,DreamO 利用扩散变换器 (DiT) 框架统一处理不同类型的输入。在训练过程中构建了一个包含各种定制任务的大规模训练数据集,并引入了特征路由约束,以便于从参考图像中精确查询相关信息。此外还设计了一种占位符策略,将特定的占位符与特定位置的条件相关联,从而能够控制生成结果中条件的位置。

此外,我们采用了一种渐进式训练策略,包含三个阶段:初始阶段专注于使用有限数据的简单任务,以建立基线一致性;全面训练阶段,以全面提升定制能力;最终质量校准阶段,以纠正低质量数据引入的质量偏差。大量实验表明,所提出的 DreamO 能够有效地高质量地执行各种图像定制任务,并灵活地集成不同类型的控制条件。

方法概述

DreamO 概述,它可以统一处理常用的一致性感知生成控制。
DreamO 概述,它可以统一处理常用的一致性感知生成控制。

图片主体驱动图像生成中交叉注意力图的可视化。第一行 显示了未使用路由约束训练的模型的结果,第二行 显示了使用路由约束训练的模型的结果。

占位符效应的可视化。
占位符效应的可视化。
DreamO渐进式训练流程。左栏显示了三个训练阶段。右栏显示了每个阶段训练后的生成能力。
DreamO渐进式训练流程。左栏显示了三个训练阶段。右栏显示了每个阶段训练后的生成能力。

实验结果

图片
图片
图片
图片

安装试用

# clone DreamO repo
git clone https://github.com/bytedance/DreamO.git
cd DreamO
# create conda env
conda create --name dreamo python=3.10
# activate env
conda activate dreamo
# install dependent packages
pip install -r requirements.txt
# 本地 Gradio 演示
python app.py
  • 对于拥有 24GB GPU 的用户,运行python app.py --int8以启用 int8-quantized 模型。

  • 对于拥有 16GB GPU 的用户,请运行python app.py --int8 --offload以启用 CPU 卸载和 int8 量化。请注意,CPU 卸载会显著降低推理速度,因此应仅在必要时启用。

结论

DreamO是一个统一的框架,用于在单个预训练的 DiT 框架内实现跨各种条件类型(例如身份、风格、主题和试穿)的广义图像定制。论文首先构建一个涵盖各种图像定制任务的大规模训练数据集。通过将所有条件类型集成到 DiT 输入序列中并引入特征路由约束,DreamO 确保了高保真一致性,同时有效地分离了异构控制信号。为了应对在复杂数据分布下学习强大的特定任务能力,同时保留基础模型(即 Flux)的生成先验的挑战,作者设计了一种渐进式训练策略。这种方法使模型能够逐步获得多样化的控制能力,同时保持基础模型的图像质量。大量实验表明,DreamO 能够高质量地执行各种图像定制任务。此外,其基于 LoRA 的轻量级设计允许以较低的计算成本实现高效部署。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 转载自:量子位 如有侵权,联系删稿 机器人的新大脑框架来了! 上海人工智能实验室联合多家单位提出了一种全新的 通用 具身智能大脑框架:Visual E...