2025年3月29日星期六

DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!




在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。

不仅如此,CogView4还具备极高的灵活性,支持生成任意宽高比的图片,同时接受任意长度的提示词输入,满足用户多样化的创作需求。更令人期待的是,后续还将开源对应的Controlnet、Comfyui支持及模型微调工具,为用户带来更加便捷、高效的创作体验。

在DPG-Bench基准测试中,CogView4凭借卓越的表现荣获综合评分第一,彰显了其在图像生成领域的强大实力。今年,图像模型领域终于迎来了新的突破,而CogView4无疑是这场变革中的佼佼者。

CogView4主要特点总结如下:

  • 支持中英双语提示词输入,擅长理解和遵循中文提示词
  • 首个能够在画面中生成汉字的开源文生图模型
  • 支持生成任意宽高的图片以及任意长度提示词输入

相关链接

  • 论文:https://arxiv.org/pdf/2403.05121
  • 项目:github.com/THUDM/CogView4
  • 模型:huggingface.co/THUDM/CogView4-6B
  • 试用:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

效果展示

推理要求与模型介绍

  • 分辨率:宽度和高度必须介于512px和之间2048px,可被 整除32,并且确保最大像素数不超过2^21px。
  • 精度:BF16 / FP32(不支持 FP16,因为它会导致溢出,从而导致图像完全变黑) 使用BF16精度为batchsize=4进行测试,内存使用情况如下表所示:

模型指标

DFG-Bench

GenEval

T2I-CompBench

Chinese Text Accuracy Evaluation



感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

别傻了!养生赛道哪有不用AI获取流量的,不过要变现,还是要看谈单转化

今天有个好久没联系的伙伴问我:"指挥官,有没有做过AI赋能大健康的项目? 今天有个好久没联系的伙伴问我:"指挥官,有没有做过AI赋能大健康的项目?" 我听完笑了,翻看聊天记录,他是24年初就加了我微信,将近两年了,还在AI的门外犹犹豫豫。 先甩两...