2026年4月8日星期三

新加坡国立大学开源视频编辑模型Kiwi-Edit 支持物体替换/风格迁移/局部重绘

新加坡国立大学ShowLab团队开源的Kiwi-Edit是一款统一视频编辑框架,支持通过自然语言进行物体替换、风格迁移、局部重绘等操作。该模型在720p分辨率下提供高质量时间一致的编辑效果,已开源代码、模型和数据集。适合设计师、开发者和AI爱好者提升视频编辑效率。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

由新加坡国立大学ShowLab团队最新开源的重磅项目Kiwi-Edit,是一个统一且完全开源的框架,用于使用自然语言进行指令引导和参考引导的视频编辑。Kiwi-Edit 支持高质量、时间一致的全局和局部编辑,并在720p 分辨率下提供强大的开放模型性能,同时发布了代码、模型和数据集。无论你是设计师、开发者还是AI爱好者,Kiwi-Edit都能让你的图像/视频编辑工作流效率翻倍!

图片
图片

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2603.02175
  • 源码:https://github.com/showlab/Kiwi-Edit
  • 主页:https://showlab.github.io/Kiwi-Edit/
  • 模型:https://huggingface.co/collections/linyq/kiwi-edit
  • 数据集:https://huggingface.co/datasets/linyq/kiwi_edit_training_data/tree/main
  • 试用:https://huggingface.co/spaces/linyq/KiwiEdit图片

unsetunset论文介绍unsetunset

图片在视频生成领域,传统方法往往难以在强大的生成能力与精细的编辑指令理解之间找到平衡。Omni-Video 2通过引入多模态大模型(MLLM)作为“理解外挂”,结合显式语义锚定、非侵入式适配器及混合数据策略,成功实现了生成与编辑的统一,为视频创作领域带来了革命性的突破。

unsetunset方法概述unsetunset

核心架构

图片Kiwi-Edit 结合了多模态线性模型 (LLM) 和视频扩散变换器。给定源视频、编辑指令以及可选的参考图像,该模型可以生成时间上一致、外观和结构可控的编辑视频。

  • 语义指导: MLLM 提取指令和参考特征,以指导应该编辑的内容。
  • 结构保持:将源视频潜能注入生成过程,以保持运动和场景布局的稳定性。
  • 参考保真度:参考视觉标记有助于传递所需的风格和外观细节。

训练

采用一套简单的三阶段课程来训练 Kiwi-Edit:对齐、教学微调和参考指导微调。这种循序渐进的策略提高了稳定性,并使 Kiwi-Edit 在教学和参考编辑环境中都能表现出色。

  • 第一阶段:使 MLLM 和扩散骨干网络之间的多模态表示对齐。
  • 第二阶段:使用大型图像/视频数据进行规模化指导式编辑。
  • 第三阶段:增加参考引导训练,以实现精确的视觉控制。

训练数据集

图片论文构建了一个自动化流程,将指令三元组转换为参考引导的训练四元组。图片

  • 原始样本池:来自 Ditto-1M、ReCo 和 OpenVE-3M 的 370 万个样本。
  • 第一阶段:使用 EditScore 进行质量筛选。(也用于仅供教学的培训。)
  • 第二阶段:教学感知基础和分段。
  • 第三阶段:局部和背景编辑的参考图像合成。
  • 第四阶段:语义验证和全局去重。 最终参考视频编辑数据集: 477K 个高质量四元组,任务覆盖均衡,发布供研究使用

图片RefVIE 统计数据和示例可视化。(a) 编辑任务类型分布。(b) 视频时长分布。(c) 不同编辑类别的示例参考图像。

unsetunset实验unsetunset

定量评估

  • OpenVE-Bench
    图片

使用 OpenVE-Bench(由 Gemini-2.5-Pro 评估)对五种编辑类别进行评估:全局样式、背景更改、局部更改、局部删除和局部添加。Kiwi-Edit(Stage-3 Instruct-Reference)在开源方法中获得了最佳的总体得分。

  • RefVIE-Bench
    图片

在 RefVIE-Bench 上报告了主体参考和背景参考的评估分数。该表总结了主体引导的身份/时间/物理一致性、背景引导的参考相似性/抠图/视频质量以及总分。

在 Image Edit Score (IES) 和 CLIP Score 等关键指标上全面超越现有SOTA方法(如InstructPix2Pix, MagicBrush等)。 编辑成功率提升约 25%,特别是在涉及大尺度结构变化的任务中表现优异。

图片

  • 定性对比 一致性:在非编辑区域几乎看不出任何痕迹,背景保持完美。 真实性:生成的物体光影自然,与周围环境融合度极高。 多样性:对于同一指令,能生成多种合理且高质量的变体。
  • 用户研究 在盲测中,专业设计师对  生成结果的偏好度高达 82%。 用户反馈其操作直观,对复杂指令的理解能力远超预期。 结论

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

新加坡国立大学开源视频编辑模型Kiwi-Edit 支持物体替换/风格迁移/局部重绘

新加坡国立大学ShowLab团队开源的Kiwi-Edit是一款统一视频编辑框架,支持通过自然语言进行物体替换、风格迁移、局部重绘等操作。该模型在720p分辨率下提供高质量时间一致的编辑效果,已开源代码、模型和数据集。适合设计师、开发者和AI爱好者提升视频编辑效率。 Tags: ...