AI I024: 图像生成DeepSeek时刻？智象未来开源文生图模型HiDream-I1，17B参数，GenEval和DPG基准测试第一名！

2025年4月11日星期五

来自国内的AI初创公司智象未来（HiDream.ai）开源了一个新的文生图模型：HiDream-I1。HiDream-I1是一个拥有17B参数的新型开源图像生成模型，能够在几秒钟内实现最先进的图像生成质量。 HiDream-l1提供三个版本:

扩散模型技术:HiDream-l1采用扩散模型技术,通过逐步去除噪声来生成图像。使模型能在细节渲染和图像一致性方面表现出色,生成的图像在色彩还原、边缘处理和构图完整性上都具有高质量。
混合专家架构(MoE):HiDream-l1使用了混合专家架构(MoE)的的DiT模型,结合了双流MMDiTblock与单流DiTblock。通过动态路由机制高效分配计算资源,使模型在处理复杂任务时能够更灵活地利用计算能力。
多种文本编码器集成:为了提升语义理解能力,HiDream-l1集成了;多种文本编码器,包括OpenCLIPViT-bigG、OpenAI CLIP ViT-L、T5-XXL和Llama-3.1-8B-Instruct。能更准哇确地理解文本描述,生成更符合用户需求的图像。
大规模预训练策略:开发团队采用了大规模预训练策略,使HiDrearm-l1在生成速度与质量之间找到了绝佳平衡点。通过这种方式,模型能在短时间内生成高质量的图像,同时保持较高的生成效率。
优化机制:HiDream-l1采用了Flash Attention等优化机制,进进一步提升了生成图像的速度和质量。使模型在实际应用中更加高效,能快速响应用户的生成请求。

确保安装Flash Attention。建议使用 CUDA 12.4 版本进行手动安装。

pip install -r requirements.txt

克隆 GitHub 仓库：

git clone https://github.com/HiDream-ai/HiDream-I1

运行推理脚本来生成图像：

For full model inference

python ./inference.py --model_type full

For distilled dev model inference

python ./inference.py --model_type dev

For distilled fast model inference

python ./inference.py --model_type fast

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～