2025年9月11日星期四

字节发布风格&主题优化定制模型 USO,任何场景+任意主题自由组合,高保真一致性输出,模型代码已开源。

字节推出的USO是一个统一的风格-主题优化定制模型,也是 UXO 家族的最新成员。

字节推出的USO是一个统一的风格-主题优化定制模型,也是 UXO 家族的最新成员。USO 可以在任何场景下自由组合任何主题和任何风格,输出具有高度主题/身份一致性和高度风格保真度的输出,同时确保自然、无塑性的肖像。项目的训练代码、推理脚本、模型权重和数据集都已经开源。

图片

unsetunset相关链接unsetunset

  • 项目:https://bytedance.github.io/USO/
  • 代码:https://github.com/bytedance/USO
  • 试用: https://huggingface.co/spaces/bytedance-research/USO
  • 模型: https://huggingface.co/bytedance-research/USO

unsetunset论文介绍unsetunset

图片

现有文献通常将风格驱动和主题驱动的生成视为两个互不相交的任务:前者优先考虑风格相似性,而后者则强调主题一致性,从而导致明显的对立。我们认为这两个目标可以在一个框架下统一,因为它们最终都涉及"内容"和"风格"的分离和重组,这是风格驱动研究中一个长期存在的主题。为此,我们提出了USO,一个用于风格驱动和主题驱动生成的统一框架。首先,我们构建了一个大规模三元组数据集,其中包含内容图像、风格图像及其对应的风格化内容图像。其次,我们引入了一种分离式学习方案,该方案通过两个互补的目标(风格对齐训练和内容-风格分离训练)同时对齐风格特征并将内容与风格分离。第三,我们结合了风格奖励学习范式来进一步提升模型的性能。

图片

unsetunset方法概述unsetunset

图片通过跨任务联合解构内容和风格,论文将风格驱动和主题驱动的生成统一在一个框架内。

图片提出的跨任务三元组管理框架的说明,该框架系统地生成布局保留和布局移位的三元组。

图片USO 训练框架图解。USO 将主题驱动和风格驱动的生成统一起来,分为两个阶段:第一阶段通过风格对齐训练对齐 SigLIP 嵌入,从而生成一个支持风格的模型;第二阶段解开条件编码器,并在三元组上进行训练,以实现联合条件生成。最后,一个风格奖励学习范式监督这两个阶段,从而生成一个更强大的统一模型。

unsetunset实验结果unsetunset

图片
图片
图片

unsetunset结论unsetunset

USO是一个能够实现主题驱动、风格驱动以及风格-主题联合驱动的统一生成框架。论文引入了一种跨任务协同解耦范式,该范式首先构建一个系统的三元组策展流程,然后对策展的三元组进行渐进式风格对齐和内容-风格解耦训练。此外还提出了一种风格-奖励学习范式来进一步提升性能。论文构建了 USO-Bench,这是一个统一的基准测试集,可为现有方法提供特定任务和联合评估。最后,大量的实验表明,USO 在主题驱动、风格驱动以及它们联合的风格-主题驱动任务上取得了新的最佳成果,展现出卓越的主题一致性、风格保真度和文本可控性。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

鸿蒙的全面进击:“天工计划”十亿重磅加码,打造AI全场景新生态

鸿蒙正在消融设备壁垒、让AI成为无处不在的生态级能力。 克雷西 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 在AI重塑操作系统的关键赛道上,鸿蒙再次亮出颠覆性进展。 在华为全联接大会2025上,鸿蒙操作系统5展示了其更强大的AI全场景能力, 包括"小艺任务...