2025年2月18日星期二

英伟达开源4K图像生成模型Sana,可在16G显存电脑部署,支持ComfyUI和LoRA训练。



英伟达开源了一个可以直接生成 4K 图片的模型 Sana。 Sana-0.6B 可以在 16GB 的笔记本电脑 GPU 上部署。生成 1024 × 1024 分辨率的图像只需不到 1 秒钟。官方已经支持了 Comfyui,而且放出了 Lora 训练工具。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2410.10629
  • 主页:https://nvlabs.github.io/Sana

unsetunset论文介绍unsetunset

Sana是一个文本到图像的框架,可以高效地生成分辨率高达 4096 × 4096 的图像。Sana 可以以极快的速度合成具有强大文本-图像对齐功能的高分辨率、高质量图像,可在笔记本电脑的 GPU 上部署。

核心设计包括:

  • 深度压缩自动编码器:与仅将图像压缩 8 倍的传统 AE 不同,我们训练了一个可以将图像压缩 32 倍的 AE,从而有效减少了潜在标记的数量。 - 线性 DiT:我们用线性注意力取代了 DiT 中的所有原始注意力,这在高分辨率下效率更高,且不会牺牲质量。
  • 仅解码器的文本编码器:我们用现代仅解码器的小型 LLM 取代了 T5 作为文本编码器,并设计了具有上下文学习的复杂人工指令以增强图像-文本对齐。 高效的训练和采样:我们提出了 Flow-DPM-Solver 来减少采样步骤,并通过高效的字幕标记和选择来加速收敛。

因此,Sana-0.6B 与现代巨型扩散模型(例如 Flux-12B)相比极具竞争力,其体积小 20 倍,测量吞吐量快 100 多倍。此外,Sana-0.6B 可以部署在 16GB 笔记本电脑 GPU 上,生成 1024 × 1024 分辨率图像只需不到 1 秒。Sana 可以以低成本实现内容创建。

unsetunset提高效率的几个核心设计细节unsetunset

  • 深度压缩自动编码器: 我们引入了一种新的 深度压缩自动编码器 (DC-AE),将缩放因子大幅增加到 32。与 AE-F8 相比,我们的 AE-F32 输出的潜在标记减少了 16 倍,这对于高效训练和生成超高分辨率图像(例如 4K 分辨率)至关重要。
  • 高效的线性 DiT: 我们引入了一种新的线性 DiT,取代了香草二次注意力,并将复杂度从 O(N2) 降低到O(N)。Mix-FFN 在 MLP 中使用 3×3 深度卷积,增强了 token 的局部信息。线性注意力实现与香草相当的结果,将 4K 生成的延迟提高了 1.7 倍。Mix-FFN 还消除了位置编码 (NoPE) 的需要,并且没有质量损失,标志着第一个没有位置嵌入的 DiT。
  • 仅解码器的小型 LLM 作为文本编码器: 我们使用仅解码器的 LLM Gemma 作为文本编码器,以增强提示中的理解和推理。与 CLIP 或 T5 不同,Gemma 提供了卓越的文本理解和指令遵循能力。我们解决了训练不稳定性问题,并设计了复杂的人工指令 (CHI) 来利用 Gemma 的上下文学习,改善图像-文本对齐。
  • 高效的训练和推理策略: 我们提出了自动标记和训练策略来提高文本与图像的一致性。多个 VLM 生成不同的重新字幕,基于 CLIPScore 的策略选择高 CLIPScore 字幕以增强收敛和对齐。此外,与 Flow-Euler-Solver 相比,我们的Flow-DPM-Solver将推理步骤从 28-50 减少到 14-20,性能更佳。

unsetunset总体表现unsetunset

我们在表 1 中将 Sana 与最先进的文本到图像扩散模型进行了比较。对于 512 × 512 分辨率,Sana-0.6 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍,并且在 FID、Clip Score、GenEval 和 DPG-Bench 中的表现明显优于它。对于 1024 × 1024 分辨率,Sana 比大多数具有 <3B 参数的模型要强得多,并且在推理延迟方面表现出色。即使与最先进的大型模型 FLUX-dev 相比,我们的模型也能实现具有竞争力的性能。例如,虽然 DPG-Bench 上的准确率相当,GenEval 上的准确率略低,但 Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍。

unsetunsetComfyUI 使用unsetunset

作者已经开发了插件来将 Sana 与 ComfyUI 集成。

  • 插件:https://github.com/Efficient-Large-Model/ComfyUI_ExtraModels
  • GitHub:https://github.com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui.md
  • ComfyUI:https://github.com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui.md

unsetunsetSana-LoRA Dreamboothunsetunset

Sana-LoRA 由 diffusers 支持。查看我们的 指南 来训练您的自定义模型。我们在下面展示了 Sana-LoRA 微调过程中的一些示例。

  • 链接:https://github.com/NVlabs/Sana/blob/main/asset/docs/sana_lora_dreambooth.md

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

一键生成电影级分镜,轻松实现人物一致性,多图融合爽到爆,谷歌Gemini强大功能加持,非常适合制作AI广告和电商宣传

不需要本地部署,不需要会员,只需要一段简单的提示词,就可以生成完整的视频故事板,还可以用文字轻松编辑图片,保持人物一致性,多张图片轻松融合到一个场景,制作电影质感的AI视频,呈现多个稳定角色和产品,非常适合制作AI广告和电商宣传。 不需要本地部署,不需要会员,只需要一段简单的...