2025年10月25日星期六

视频风格迁移来了!PickStyle:使用上下文风格适配器进行视频到视频风格转换。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

利用扩散模型做视频风格迁移,想保留原视频内容的同时渲染成指定风格,但面临缺乏配对视频数据监督的难题。为此论文提出PickStyle框架,用风格适配器增强预训练网络,靠配对静态图像数据训练,还通过构建合成训练片段弥合差距,引入CS-CFG确保风格迁移与内容保留。实验表明,该方法能实现优质视频转换,优于现有方法。

图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2510.07546
  • 主页:https://pickstyle.pickford.ai

unsetunset论文介绍unsetunset

图片利用扩散模型来解决视频风格迁移的任务,其目标是在保留输入视频上下文的同时,将其渲染成文本提示指定的目标风格。一个主要的挑战是缺乏用于监督的配对视频数据。

论文提出的PickStyle是一个视频到视频的风格迁移框架,它使用风格适配器增强预训练的视频扩散主干网络,并利用具有源-风格对应关系的配对静态图像数据进行训练。PickStyle将低秩适配器插入条件模块的自注意力层,从而实现运动-风格迁移的高效特化,同时保持视频内容和风格之间的高度一致性。

为了弥合静态图像监督和动态视频之间的差距,通过应用模拟摄像机运动的共享增强技术,从配对图像构建合成训练片段,确保保留时间先验。此外,我们引入了上下文-风格无分类器引导(CS-CFG),这是一种将无分类器引导分解为独立文本(风格)和视频(上下文)方向的新颖方法。 CS-CFG 确保生成的视频在有效迁移风格的同时保留上下文。跨基准测试的实验表明,该方法实现了时间连贯、风格忠实且内容保留的视频转换,在质量和数量上均超越现有基准方法。

unsetunset方法概述unsetunset

图片PickStyle 的训练和推理流程。在训练过程中(左图),风格图像和上下文图像均通过运动增强技术转换为具有合成摄像机运动的视频标记和上下文标记;基于 DiT 的 PickStyle 模型结合上下文风格适配器,根据上下文标记对视频标记进行加噪和去噪。在推理过程中(右图),对上下文视频和风格描述进行编码,并在文本、上下文和空值条件下进行迭代去噪,其中提出的 CS-CFG 对空值上下文应用时空置换,以生成最终的风格化视频。

unsetunset实验结果unsetunset

图片乐高和动漫风格中 PICKSTYLE、Control-a-Video、Rerender、FRESCO 和 FLATTEN 的定性比较。图片

图片

unsetunset结论unsetunset

PICKSTYLE 是一个基于 VACE 构建的视频到视频风格迁移框架,它配备了上下文风格适配器和新颖的 CS-CFG 机制。尽管训练数据集相对有限,PICKSTYLE 仍能在渲染多样化目标风格的同时有效地保留运动和上下文。通过利用合成运动增强训练对和噪声初始化策略, 它实现了优于现有方法的卓越风格保真度、时间稳定性和感知质量。除了量化改进之外,PICKSTYLE 还能在不同风格中始终如一地呈现连贯的色彩再现和忠实的几何图形,同时避免了基于图像的方法中常见的时间闪烁和混合伪影。这些结果表明,即使在受限监督下,PICKSTYLE 也能提供高质量的风格迁移,并为未来可控视频风格化的研究奠定坚实的基础。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!

AI生成未来知识星球免费开放! 点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:UniWorld团队 解读:AI生成未来 论文链接:https://arxi...