AI I024: 浙大&VIVO推出首个可控视频虚化生成模型Any-to-Bokeh,可将任意输入视频转换为连贯有深度感知的散景效果。

2025年12月18日星期四

浙大&VIVO推出首个可控视频虚化生成模型Any-to-Bokeh,可将任意输入视频转换为连贯有深度感知的散景效果。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

由浙江大学,vivo移动通信有限公司联合提出的 Any-to-Bokeh 是一个新颖的一步式视频散景框架，可将任意输入视频转换为时间连贯、具有深度感知的散景效果。

介绍

近年来，基于扩散的编辑模型取得了显著进展，实现了逼真的相机模拟和基于图像的散景效果，但视频散景的探索仍处于起步阶段。现有的视频编辑模型无法显式控制焦点平面或调整散景强度，限制了其在可控光学效果方面的应用。此外，由于缺乏时间建模和泛化能力，简单地将基于图像的散景方法扩展到视频通常会导致时间闪烁和边缘模糊过渡不理想。

为了应对这些挑战，论文提出了一种新颖的一步式视频散景框架，该框架可以将任意输入视频转换为时间连贯且具有深度感知的散景效果。该方法利用了一种通过逐渐加宽的深度采样函数构建的多平面图像（MPI）表示，为深度相关的模糊合成提供了明确的几何指导。通过将一步式视频扩散模型与MPI层相结合，并利用来自预训练模型（例如稳定视频扩散模型）的强大3D先验信息，提出的方法能够在各种场景中实现逼真且一致的散景效果。此外引入了一种渐进式训练策略，以增强时间一致性、深度鲁棒性和细节保留。大量实验表明，该方法能够生成高质量、可控的散景效果，并在多个评估基准上取得了最先进的性能。