添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
由上海交通大学、快手以及南洋理工大学提出的 VINO 是一款统一的视觉生成器,旨在实现图像和视频的生成与编辑。VINO 基于单一架构,集成了高级文本指令、参考图像和视频上下文,能够创建高质量且极具灵活性的视觉内容。VINO 擅长生成与用户提示相符的内容,使其成为各种创意任务的理想之选。
图像生成
视频生成
定制视频生成
图像编辑
图像参考视频编辑
由参考视频驱动的视频生成
相关链接
论文:https://arxiv.org/abs/2601.02358 代码:https://github.com/SOTAMak1r/VINO-code/ 项目:https://sotamak1r.github.io/VINO-web/
介绍
统一视觉生成器 VINO 不依赖特定任务模型或独立模态模块,采用共享扩散骨干网络,以文本、图像和视频为条件,在一个模型下实现广泛视觉创建与编辑任务。VINO 结合视觉语言模型与多模态扩散转换器,多模态输入经编码指导扩散过程。为训练该系统,引入多阶段训练流程。经测试,VINO 在多种基准测试中表现优异,展现出强大视觉质量、忠实指令执行等优势,凸显了可扩展统一视觉生成途径及交错式上下文计算的巨大潜力。
方法概述
VINO流程概述。我们的统一框架基于交错的全模态上下文生成图像,该上下文联合编码系统提示、提示/指令、参考图像/视频以及可学习标记。冻结的视觉模型(VLM)处理文本指令和视觉参考信息,生成多模态嵌入,这些嵌入通过可学习标记(紫色)进行增强,并由特殊标记(视觉起始标记和视觉结束标记)分隔。这些交错的多模态表示被输入到MMDiT模块,MMDiT模块还接收来自参考图像或视频的VAE潜在变量。MMDiT模型基于完整的多模态上下文进行去噪,使VINO能够在单一的统一架构中执行图像和视频生成以及基于指令的编辑。
实验结果
结论
VINO是一个统一的视觉生成器,能够在单一框架下执行图像和视频的生成与编辑。通过精心设计模型组件和一个能够接受交错式全模态上下文的条件化管道,VINO 可以无缝集成异构输入并处理广泛的视觉任务。大量的对比实验证明了该方法的有效性和强大的性能。此外,渐进式的训练策略使模型能够在保留其基础视频骨干的生成优势的同时,获得强大的多任务处理能力,最终生成一个连贯统一的视觉生成器。VINO 为多对多视觉生成提供了一个灵活、可扩展的基础,并为更通用的多模态生成系统铺平了道路。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论