2025年4月11日星期五

图像生成DeepSeek时刻?智象未来开源文生图模型HiDream-I1,17B参数,GenEval和DPG基准测试第一名!




来自国内的AI初创公司智象未来(HiDream.ai)开源了一个新的文生图模型:HiDream-I1。HiDream-I1是一个拥有17B参数的新型开源图像生成模型,能够在几秒钟内实现最先进的图像生成质量。 HiDream-l1提供三个版本:

  • 完整版(HiDream-I1-Full)适合高质量生成;
  • 蒸馏版(HiDream-I1-Dev)平衡效率与效果;
  • 极速版(HiDream-11-Fast)适合实时生成需求。

主要特点

  • ✨卓越画质:可在多种风格(包括照片级写实、卡通、艺术等)中呈现卓越效果。达到最先进的 HPS v2.1 评分,符合人类的偏好。
  • 🎯一流的即时跟进:在 GenEval 和 DPG 基准测试中取得业界领先的分数,超越所有其他开源模型。
  • 🔓开源: 根据 MIT 许可发布,以促进科学进步并实现创造性创新。
  • 💼商业友好:生成的图像可以自由用于个人项目、科学研究和商业应用。

相关链接

  • 代码:https://github.com/HiDream-ai/HiDream-I1
  • 主页:https://vivago.ai/home
  • 试用:https://huggingface.co/HiDream-ai/HiDream-I1-Full

技术原理

  • 扩散模型技术:HiDream-l1采用扩散模型技术,通过逐步去除噪声来生成图像。使模型能在细节渲染和图像一致性方面表现出色,生成的图像在色彩还原、边缘处理和构图完整性上都具有高质量。

  • 混合专家架构(MoE):HiDream-l1使用了混合专家架构(MoE)的的DiT模型,结合了双流MMDiTblock与单流DiTblock。通过动态路由机制高效分配计算资源,使模型在处理复杂任务时能够更灵活地利用计算能力。

  • 多种文本编码器集成:为了提升语义理解能力,HiDream-l1集成了;多种文本编码器,包括OpenCLIPViT-bigG、OpenAI CLIP ViT-L、T5-XXL和Llama-3.1-8B-Instruct。能更准哇确地理解文本描述,生成更符合用户需求的图像。

  • 大规模预训练策略:开发团队采用了大规模预训练策略,使HiDrearm-l1在生成速度与质量之间找到了绝佳平衡点。通过这种方式,模型能在短时间内生成高质量的图像,同时保持较高的生成效率。

  • 优化机制:HiDream-l1采用了Flash Attention等优化机制,进进一步提升了生成图像的速度和质量。使模型在实际应 用中更加高效,能快速响应用户的生成请求。

评估指标

快速开始

确保安装Flash Attention。建议使用 CUDA 12.4 版本进行手动安装。

pip install -r requirements.txt

克隆 GitHub 仓库:

git clone https://github.com/HiDream-ai/HiDream-I1

运行推理脚本来生成图像:

For full model inference

python ./inference.py --model_type full

For distilled dev model inference

python ./inference.py --model_type dev

For distilled fast model inference

python ./inference.py --model_type fast

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

ComfyUI一键批量高清无损放大图片,For循环实现图片批量处理

前几天跟大家介绍了在ComfyUI中如何用4种方法对图片进行高清放大,具体方法请见文章:4种方法,ComfyU 前几天跟大家介绍了在ComfyUI中如何用4种方法对图片进行高清放大,具体方法请见文章: 4种方法,ComfyUI最强图片高清放大工作流,无损放大,细节补全 ,轻松...