添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
字节提出聚焦无遮罩视频插入任务,针对数据稀缺、主体-场景平衡及插入协调三大挑战,给出创新解决方案。先是打造新数据流水线InsertPipe,开发统一框架OmniInsert,引入条件特定特征注入机制、渐进式训练策略等保持主体 - 场景平衡,用"插入偏好优化"等方法增强插入协调性,还推出全面基准测试InsertBench,经评估OmniInsert性能优于先进闭源商业方案,代码即将发布。
各种视频插入结果
给定任何参考,OmniInsert 都会将主题无缝插入到原始场景中,在各种场景中展现出稳健性。
视频插入比较
与其他方法相比,OmniInsert 表现出较强的主从平衡和插入协调能力。
相关链接
主页:https://phantom-video.github.io/OmniInsert 代码:https://github.com/Phantom-video/OmniInsert 论文:https://arxiv.org/pdf/2509.17627
论文阅读
OmniInsert:通过扩散变换器模型实现任意参考的无掩模视频插入
基于扩散模型的视频插入技术的最新进展令人瞩目。然而,现有方法依赖于复杂的控制信号,但在主体一致性方面存在困难,限制了其实际应用。本文聚焦于无遮罩视频插入任务,旨在解决三个关键挑战:数据稀缺、主体-场景平衡以及插入协调。
为了解决数据稀缺问题,论文提出了一种新的数据流水线InsertPipe,用于自动构建多样化的跨对数据。基于该数据流水线,论文开发了OmniInsert,这是一个新颖的统一框架,用于从单个和多个主体参考进行无遮罩视频插入。
具体而言,为了保持主体-场景平衡,论文引入了一种简单而有效的条件特定特征注入机制,以明确地注入多源条件,并提出了一种新颖的渐进式训练策略,使模型能够平衡来自主体和源视频的特征注入。同时设计了以主体为中心的损失函数来提升主体的细节外观。为了进一步增强插入的协调性,提出了一种"插入偏好优化"方法,通过模拟人类偏好来优化模型,并在引用过程中加入一个上下文感知的重述器模块,将主题无缝地融入到原始场景中。
为了解决该领域缺乏基准的问题,论文推出了InsertBench,这是一个全面的基准测试,涵盖了各种场景和精心挑选的主题。InsertBench上的评估表明,OmniInsert的性能优于最先进的闭源商业解决方案。代码即将发布。
方法概述
InsertPipe 概述。它由三个数据构建管道组成:Real Pipe、Rendering Pipe 和 Gen Pipe。
无遮罩视频插入是一项具有挑战性的任务,需要准确保留主体身份 和背景一致性。一种简单的解决方案是沿时间维度注入参考的 VAE 特征,或在图像块化后连接参考视觉标记。然而,这些方法会带来高昂的计算开销,并且无法考虑不同条件下不同的对齐要求:参考视频需要与潜在噪声进行逐帧对齐,而主体参考则需要 完整的时间特征交互。
实验结果
结论
本文对无遮罩视频插入任务进行了全面的研究。为了解决数据稀缺问题,论文引入了一个新的数据管道 InsertPipe 来生成多样化的配对数据。此外开发了一个全新的统一框架 OmniInsert,该框架利用了条件特定特征注入机制,并结合了渐进式训练策略和以主体为中心的损失函数,以实现主体-场景平衡。此外论文提出了一种插入偏好优化方法和一个上下文感知的重述器模块,以增强插入的协调性。最后,为了解决缺乏基准测试的问题,论文构建了 InsertBench,实验表明 OmniInsert 的性能优于闭源商业解决方案。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论