添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!
扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
由浙江大学,vivo移动通信有限公司联合提出的 Any-to-Bokeh 是一个新颖的一步式视频散景框架,可将任意输入视频转换为时间连贯、具有深度感知的散景效果。
相关链接
论文:https://arxiv.org/abs/2505.21593 代码:https://github.com/vivoCameraResearch/any-to-bokeh 主页:https://vivocameraresearch.github.io/any2bokeh/
介绍
近年来,基于扩散的编辑模型取得了显著进展,实现了逼真的相机模拟和基于图像的散景效果,但视频散景的探索仍处于起步阶段。现有的视频编辑模型无法显式控制焦点平面或调整散景强度,限制了其在可控光学效果方面的应用。此外,由于缺乏时间建模和泛化能力,简单地将基于图像的散景方法扩展到视频通常会导致时间闪烁和边缘模糊过渡不理想。
为了应对这些挑战,论文提出了一种新颖的一步式视频散景框架,该框架可以将任意输入视频转换为时间连贯且具有深度感知的散景效果。该方法利用了一种通过逐渐加宽的深度采样函数构建的多平面图像(MPI)表示,为深度相关的模糊合成提供了明确的几何指导。通过将一步式视频扩散模型与MPI层相结合,并利用来自预训练模型(例如稳定视频扩散模型)的强大3D先验信息,提出的方法能够在各种场景中实现逼真且一致的散景效果。此外引入了一种渐进式训练策略,以增强时间一致性、深度鲁棒性和细节保留。大量实验表明,该方法能够生成高质量、可控的散景效果,并在多个评估基准上取得了最先进的性能。
方法
Any-to-Bokeh 的两个关键组成部分:
(a) 一步式视频散景模型架构:接收任意视频输入以及相对于焦平面的视差,以实现散景效果。 (b) MPI 空间模块:使用 MPI 掩模。
为了引导 MPI 注意力机制关注焦平面不同深度的区域,从而实现散景渲染。此外,通过交叉注意力机制注入高层语义信息,以保留更多语义结构。用户可自定义模糊强度。 通过包埋注入。 2. 渐进式训练策略:
我们采用三阶段训练策略来提高时间一致性、深度鲁棒性和精细细节保留。 第一阶段:训练整个 U-Net 和适配器。 第二阶段:对扰动进行时间块细化。 第三阶段:微调 VAE 解码器。
实验结果
真实视频帧的定性结果。为了突出差异放大了红色和绿色区域。红色箭头指示对焦不正确的区域。
DAVIS 数据集生成的散景效果可视化图。黄色十字代表焦点对象。
结论
本文提出了首个用于可控视频散景的单步扩散框架。通过引入注入显式场景几何信息的MPI引导条件化机制,该方法实现了更高质量、时间一致性更高的散景效果。此外引入了一种渐进式训练策略,增强了鲁棒性和细节保留,显著提升了散景质量。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论