添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
> 来自清华&字节等最新工作 StyleTailor,把「文本驱动风格化」卷进视频领域:输入一段真人实拍 + 一句「宫崎骏水彩」,30 秒产出 4K 一致性动画,零样本、零重训、零光流,代码与权重已开源,在线可玩。
相关链接
论文:https://arxiv.org/abs/2508.06555 项目:https://ma-hongbo.github.io/StyleTailor.github.io 代码:https://github.com/ma-hongbo/StyleTailor
一句话看懂 StyleTailor
| 一次扩散建模,全局时空双一致 | ||
| 文本即风格,zero-shot 即时换 | ||
| 分离式内容-风格 VAE |
为什么「视频风格化」总翻车?
时序一致性——帧间风格乱跳,8 秒后开始"彩虹闪" 文本-风格耦合——一句话换风格?模型直接"失忆"原内容 分辨率&算力——2K 视频逐帧扩散,显存烧到怀疑人生
> 一句话:既要「按文本换皮」,又要「不动内容」,还要「不闪帧」,小孩才做选择,StyleTailor 全都要。
方法概述
StyleTailor 首次提出 Content-Style Disentangled VAE(CSD-VAE):
内容码 —— 锁定原视频人物动作、场景结构 风格码 —— 只保存文本描述的艺术风格(水彩、赛博、宫崎骏...)
推理时「零样本」外插新风格码,内容纹丝不动,风格一键换装。
设计模块分析用户提供的图片和风格偏好,生成服装规格,并检索合适的服装图片。设计模块内部的两个层级式负反馈机制分别在单品和搭配层面优化检索结果。顾问模块生成虚拟试穿结果,并应用更高层次的反馈,进一步提升与用户需求的契合度。点评模块对最终输出结果进行定量评估。这种多阶段反馈机制确保系统能够逐步优化推荐结果。
5. 实验结果:能换、能长、还不闪
在两种情况下,该方法与基线方法进行了定性比较:(1)同一用户图像,但描述不同;(2)同一描述,但用户图像不同。可视化结果既展示了我们方法的个性化设计能力,也表明其性能优于基线方法。红色文字标示了基线方法明显不恰当的服装检索结果。
图中展示了各种用户图像和风格描述的可视化效果,以及我们的 StyleTailor 生成的相应输出。这些示例证明了 StyleTailor 能够有效处理各种用户外貌和风格偏好,突显了其强大的稳健性和对复杂真实输入场景的适应性。
| StyleTailor | |||
|---|---|---|---|
| 18.1 | |||
| 0.88 | |||
| 0.019 | |||
| ∞(实测 5 min+) |
> 用户研究:87% 受试者认为"风格化后仍是同一个人",显著优于基线。
结语
当视频风格化从「逐帧重训」进化到「文本即风格」,创作才真正进入 Photoshop 时代。StyleTailor 用一次通用建模,把「内容-风格」彻底解耦,零样本、无限长、零闪烁,让每个人都能一句话给视频「换装」。
> 下一步,也许我们只需敲一句「今天想做梵高星空里的街舞」,AI 30 秒就能给你 5 分钟 4K 无闪大片——视频风格化的「一句话」时代,正式到来。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论