2025年6月12日星期四

AI界的"六边形战士"!港科大×字节提出ComfyMind:生成/编辑/推理三连冠,开源领域再掀狂潮

由香港科技大学、字节跳动提出的一款基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind,旨在实现稳健且可扩展的通用生成功能。




由香港科技大学、字节跳动提出的一款基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind,旨在实现稳健且可扩展的通用生成功能。在 ComfyBench、GenEval 和 Reason-Edit 基准测试集对 ComfyMind 进行了生成、编辑和推理任务评估。结果表明,ComfyMind 的性能始终优于现有的开源基准测试集,并达到了与 GPT-Image-1 相当的性能。

图片

文本到图像生成

图片
图片

推理生成

图片
图片

图像编辑

图片
图片
图片

视频生成

生成一段8秒海边篝火燃烧的高清视频

生成一段8秒的煎蛋在煎锅里滋滋作响的高质量视频

生成一段 4 秒的高清视频,视频中一位长着翅膀的女人在荒原上空盘旋

相关链接

  • 论文:https://arxiv.org/pdf/2505.17908
  • 代码:https://github.com/EnVision-Research/ComfyMind
  • 主页:https://litaoguo.github.io/ComfyMind.github.io
  • 试用:https://envision-research.hkust-gz.edu.cn/ComfyMind

论文介绍

图片

随着生成模型的快速发展,通用生成作为一种在单一系统中统一跨模态多样化任务的有前景的方法,越来越受到关注。尽管取得了这些进展,现有的开源框架往往仍然脆弱,由于缺乏结构化的工作流规划和执行级反馈,难以支持复杂的实际应用。为了突破这些限制,论文基于 ComfyUI 平台推出了 ComfyMind,这是一个旨在实现稳健且可扩展的通用生成能力的协作式 AI 系统。

ComfyMind 引入了两项核心创新:

  • 语义工作流接口 (SWI),它将低级节点图抽象为以自然语言描述的可调用功能模块,从而实现高级组合并减少结构性错误;
  • 具有局部反馈执行的搜索树规划机制,将生成建模为一个分层决策过程,并允许在每个阶段进行自适应校正。这些组件共同提升了复杂生成工作流的稳定性和灵活性。

在 ComfyBench、GenEval 和 Reason-Edit 基准测试集对 ComfyMind 进行了生成、编辑和推理任务评估。结果表明 ComfyMind 的性能始终优于现有的开源基准测试集,并达到了与 GPT-Image-1 相当的性能。ComfyMind 为开源通用生成式 AI 系统的开发开辟了一条充满希望的道路。

方法概述

图片

ComfyMind 流程概览。根据用户指令,系统首先解析任务并将其委托给规划代理。规划代理逐步探索语义搜索树,其中每个节点提出候选工作流,并根据执行结果接收本地反馈。

实验结果

图片在具有挑战性的 GenEval 案例上进行定性比较。在计数、颜色、位置和属性绑定等约束条件下,只有我们的方法成功满足所有指令, 明显优于 SD3、Janus-Pro 和 GPT-Image-1。图片如表2所示,得益于快速优化工作流程和局部反馈执行的集成,该系统取得了0.90的总分。这一结果比所有基线高出SD3 +0.16分,比Janus-Pro-7B +0.10分。此外,该系统在六个维度中的五个维度以及总分上都超过了GPT-Image-1。这些结果表明基于ComfyUI的系统不仅具有强大的通用性,而且能够整合各种开放模型的优势,在图像合成领域取得了最先进的性能。图片

结论

ComfyMind 是一个基于 ComfyUI 平台构建的全新框架,旨在解决通用视觉生成 AI 中的关键挑战。ComfyMind 将视觉内容创建概念化为一个模块化、语义结构化的规划过程,并将基于树的规划与局部反馈执行相结合,从而提升了多阶段工作流的稳定性和鲁棒性。该框架性能超越了之前的开源方法,并在 ComfyBench、GenEval 和 Reason-Edit 基准测试中取得了与 GPT-Image-1 相当的结果。ComfyMind 为复杂的生成任务提供了一条通往可扩展开源解决方案的光明道路。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

集成 R1 后的 GroundingDINO 究竟强在哪?一文带你看清 DINO-R1 的性能变革

导读在开始今天的分享之前,我们不妨先思考一个问题:为什么大语言模型,如 GPT 系列、DeepSeek 等   导读 在开始今天的分享之前,我们不妨先思考一个问题:为什么大语言模型,如 GPT 系列、DeepSeek 等,在数学推理、代码生成等任务中能够展现出强大的泛化能力和...