2026年3月16日星期一

华为Capybara:图像视频生成与编辑的统一模型

华为小艺团队推出Capybara统一视觉创作模型,可同时实现图像与视频的生成及编辑(T2I/T2V/I2V)。通过多模态上下文学习,灵活组合文本、图像、视频条件,支持长视频编辑。面向AI研究者与开发者。

Tags:

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:该工作出自华为小艺香港研究团队,该团队长期聚焦视觉生成、理解与Agent相关领域。

解读:AI生成未来
图片

技术报告:https://github.com/xgen-universe/Capybara/blob/main/assets/docs/tech_report.pdf 
项目链接https://lllydialee.github.io/Capybara-Project-Page/ 
huggingface链接:https://huggingface.co/xgen-universe/Capybara 

图片
图片
图片
图片

亮点直击

  • 统一的视觉创作模型 Capybara: 针对当前视觉内容创作领域高度碎片化(单一模态、功能割裂、接口不兼容)的问题,本文提出了Capybara,一个统一的视觉创作基础模型。该模型能够在单一框架下同时支持图像/视频的生成与编辑任务。
  • 实现了真正的多模态统一接口: Capybara的核心创新在于其共享的多模态条件接口。单个模型能够接收包含文本、图像、视频在内的多种模态上下文输入,并通过改变输入的上下文和指令来实现多样化的创作行为,无需切换架构或训练多个专用模型。
  • 整合并统一了四大类核心创作任务: 本文将分散的创作功能统一到一个框架下,包括: 1.  文本到图像/视频生成。 2.  上下文生成:基于草图、主体参考、起始帧等视觉条件进行生成。 3.  基于指令的编辑:通过文本指令编辑图像/视频,并首次将密集预测任务视为其特例。 4.  上下文编辑:由额外的视觉参考、风格示例或多模态上下文驱动的编辑,如关键帧传播。
  • 重构了视觉创作的范式:本文将视觉创作重新定义为在统一主干网络下对文本条件和多模态示例的组合。这种设计不仅支持静态和动态内容创作,还能灵活地组合文本意图与视觉上下文。
  • 展示了强大的可扩展性与应用潜力:该框架能够自然扩展到长视频编辑,在高吞吐量支持下可进一步实现流式视频编辑。其统一的接口还支持组合式的多模态工作流程,例如在一个请求中混合使用图像和视频作为参考,以同时捕捉身份、运动和结构信息,实现更灵活的创作。

总结速览

解决的问题

当前视觉内容创作领域存在高度碎片化的问题:现有工作多聚焦于单一模态(如图像或视频)或仅实现部分创作功能(如仅生成或仅编辑)。这导致解决方案彼此割裂、接口互不兼容,且上下文条件(如草图、参考帧)往往作为任务特定的附加模块引入,难以构建一个支持多样化多模态输入、具备统一创作流程的单一系统。

提出的方案

提出Capybara,一个统一的视觉创作基础模型。该模型通过共享的多模态条件接口,将分散的生成与编辑任务整合到单一框架中。其核心设计是:单个模型接收包含文本、图像和视频的多模态上下文输入,并通过改变所提供的上下文和指令来表达多样化的创作任务,无需切换架构或训练独立的专用模型。

应用的技术

  • 统一的条件接口:将视觉创作统一到单一的条件包中,包含(1)文本输入、(2)主要视觉上下文(图像/视频/起始帧)、(3)可选辅助条件(风格示例/草图/深度图等)。
  • 多模态上下文学习:支持在统一主干网络下,对文本条件和多模态示例进行组合。
  • 四大任务框架:通过同一接口支持(1)文本到图像/视频生成、(2)基于视觉上下文的生成(如草图/参考帧)、(3)基于指令的编辑(文本引导的编辑,含密集预测)、(4)上下文编辑(视觉参考驱动的编辑,如关键帧传播)。

达到的效果

  • 功能统一:成功将生成与编辑、图像与视频任务统一于单一模型,实现了跨模态的一致性变换。
  • 灵活创作:能够灵活组合文本意图与视觉上下文,支持静态(图像)和动态(视频)内容的创作。
  • 强扩展性:框架自然扩展到长视频编辑,高吞吐量下可支持流式视频编辑;同时支持组合式多模态工作流(如在单次请求中混合图像/视频作为参考),为灵活的多任务创作提供了基础。

数据

为支持统一的视觉创作,构建了一个联合的图像-视频语料库,为文本到图像/视频生成、上下文生成、基于指令的编辑以及上下文编辑提供训练信号。因此,我们的数据既包含用于从零开始的合成的标准文本-图像/视频对,也包含包含文本与视觉输入的上下文丰富的元组:用于基于参考主体的图像/视频生成的主体参考、用于基于条件控制的图像/视频生成(例如,草图、布局、姿态、深度/边缘图)的视觉提示或结构化控制、用于图像生成视频的以起始帧为条件的剪辑、用于基于指令编辑的成对源-指令-目标示例,以及用于上下文编辑的参考驱动的编辑元组(源加上一个或多个视觉范例)。对于传播任务,从 TV2V 数据集中随机采样数据作为我们的训练数据。

采用系统性的多阶段处理工作流程,将异构的原始数据集合转化为高质量的训训练数据。该流程包括:(1)质量过滤:使用自动化分类器移除有缺陷的内容(模糊、伪影、有害材料)和额外叠加元素(水印、字幕);(2)语义去重:通过基于嵌入的聚类保留多样化、非冗余的样本;(3)分布再平衡:确保在主体类别、场景类型和视觉属性上有足够的代表性;(4)密集重述:使用在高质量标注上训练的双语(中文/英文)视觉语言模型,生成对动态元素(运动、摄像机运动)和静态特征(外观、美学、风格)的详细描述。特别是针对编辑任务,我们开发了大规模合成流程,以生成配对数据(源图像/视频、编辑结果、指令)。

模型设计与训练

图片

统一架构:将理解与生成解耦

为了构建一个统一的视觉创作模型,核心挑战在于接收各种上下文输入:文本、图像和视频,并将它们融合到一个能够驱动生成和编辑的单一条件空间中。因此,我们选择了一种双流解耦架构,将多模态理解与基于扩散的合成分离开来:一个语义感知模块专注于处理用户输入和对多模态上下文进行推理,而一个视觉融合模块则将对齐后的语义和视觉特征整合到去噪主干网络中,以进行高保真度合成。通过将理解与生成在结构上解耦,避免强制一组模块同时执行高层级解释和低层级去噪,从而使单个模型能够通过简单地改变提供的上下文和指令来支持多样化的创作任务。

语义模块 提出的语义模块将各种条件(例如,文本、图像和视频)整合到一个统一的潜在表示中。该模块执行上下文推理以提取特定于意图的特征,同时在结构上与去噪网络保持隔离。这种设计提供了一个强大的语义先验,指导生成过程严格遵循用户的创作意图。

视觉模块 视觉模块负责扩散去噪过程以及精细像素级条件的精确整合。作为对来自语义模块的高层级指导的补充,视觉模块整合了细粒度的视觉条件。这种架构将生成能力导向忠实的重建和时空一致性,确保在统一框架内严格遵守多模态约束。

扩散变换器主干网络 本模型从预训练的 Hunyuan-Video 1.5 初始化,继承了其变分自编码器、扩散变换器架构和时空建模能力。在此基础之上,我们引入了一种双流解耦建模设计:语义模块将所有条件输入处理成统一的表示,而视觉模块则专注于处理低层级特征。这种架构修改使得灵活的多条件建模成为可能,同时保留了预训练带来的强大生成先验。

训练策略

为了建立一个统一的视觉生成框架,采用了一种渐进的三阶段训练方案。该策略旨在系统地应对与统一各种任务和条件信号相关的独特挑战。训练轨迹使模型从稳健的重建发展到广泛的多任务泛化,最终实现高保真度的指令对齐。

第一阶段:重建与上下文生成训练。 从强大的生成先验(从 HunyuanVideo-1.5 初始化)开始。目标是确保语义模块产生的条件信号能够被视觉模块可靠地使用而不会导致性能下降,这对于未编辑区域必须保持一致的编辑任务尤其关键。此外,我们还训练了标准和上下文生成任务(基于参考主体的图像/视频生成、基于条件控制的图像/视频生成、图像生成视频)的混合,以引入像素级条件能力。

第二阶段:编辑任务训练。 在第一阶段为生成任务建立了稳定的多模态条件接口之后,我们将训练扩展到在相同统一框架下的编辑任务。具体来说,我们引入了基于指令的编辑(文本引导的图像/视频编辑),包括作为特例的密集预测,其中指令要求生成与输入内容对齐的结构化输出。我们进一步扩展到由额外视觉参考、风格/主体示例以及结构化或区域特定引导驱动的上下文编辑(基于参考的图像/视频编辑、跨视频编辑),并包含了传播序列,其中稀疏的已编辑关键帧监督着跨更长视频的时间一致性变化传递。

第三阶段:质量微调。 最后,执行质量微调以改善在生成和编辑任务中的指令遵循度、视觉保真度和时间稳定性。此阶段侧重于困难案例,如细粒度的编辑局部性、身份/外观保持、复杂的多模态约束以及长程时间一致性。我们收集更高质量和更难处理的示例,并应用有针对性的微调以减少伪影并加强输入与输出之间的对齐。

智能体辅助的视觉创作

对于迭代式视频编辑,采用了一种包含智能体在环的闭环流程:规划 → 编辑 → 评估/诊断 → 优化。智能体将高层级意图转化为编辑计划,定义要更改的内容(内容/风格/运动)和要保留的内容,并附带关于身份、局部性和时间范围的约束。然后,它调用视频编辑器(例如,文本到视频/视频到视频,可选择使用遮罩/框、参考或按片段调度)来生成候选剪辑片段。

一个评估模块使用一小组指标对结果进行评分——目标对齐度、主体一致性、时间稳定性和约束满足度——并输出结构化反馈,指出不正确的更改以及出现伪影的位置。智能体将此反馈转化为更精确的指令和更新的控制项(提示词修改、强度调度、时间窗口、区域约束、锚点),并进行几轮迭代,直到指标稳定或达到阈值。这是通过显式诊断进行的迭代式引导,而不是一次性提示。

结论

Capybara,一个统一的视觉创作基础模型,它有效地弥合了静态与动态内容生成之间的鸿沟。通过统一从文本到图像到复杂视频编辑的多种范式,Capybara在精确的指令遵循、结构稳定性和逼真的视觉质量方面表现出色。展示了在原生统一架构、内在的3D感知机制以及全面的多任务训练策略方面的核心技术革新,这些技术被有效地整合在一起,构建了一个稳健且通用的系统。它在处理复杂多条件场景、维持符合物理规律的时间连贯性,以及为全视觉创作实现无缝的专业级工作流程方面,展现出了卓越的能力。

参考文献

[1]CAPYBARA: A Unified Visual Creation Model

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

Fish Audio S2开源TTS:多说话人+指令跟随,登顶HuggingFace热榜

Fish Audio S2是开源语音合成系统,支持多说话人切换、多轮对话和自然语言指令控制情感韵律,生产级流式推理首音频 Tags: TTS 语音合成 多说话人 指令跟随 HuggingFace 点击下方名片关注AIGC Studio公...