黑森林实验室推出FLUX.2 [klein]系列模型,实现亚秒级图像生成与编辑,且支持消费级硬件(如RTX 3090)。该系列包含4B(开源)和9B版本,提供文本生成图像、图像编辑及多参考合成功能,兼顾高质量与低延迟,并发布了量化版本以优化性能。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
黑森林实验室发布了 FLUX.2 [klein] 模型系列,这是迄今为止速度最快的图像模型。FLUX.2 [klein] 将图像生成和编辑功能集成在一个紧凑的架构中,提供一流的图像质量,端到端推理速度低至不到一秒。它专为需要实时生成图像且不牺牲质量的应用而设计,并且可以在仅配备 13GB 显存的消费级硬件上运行。
主要特点
亚秒级推理:在现代硬件上,可在 0.5 秒内生成或编辑图像。 逼真的输出效果和高度多样性,尤其是在基础版本中。 统一生成和编辑:在单一模型中实现文本转图像、图像编辑和多引用支持,同时提供前沿性能。 可在消费级GPU上运行:4B型号可容纳约13GB显存(RTX 3090/4070及以上)。 对开发者友好且易于使用:40亿个模型采用Apache 2.0许可,90亿个模型采用开放权重。完全开放的权重可用于自定义和微调。 API 和开放权重:可用于生产环境的 API 或在本地使用完整权重运行。
文生图
图像编辑
相关链接
模型:https://huggingface.co/black-forest-labs/FLUX.2-klein-9B 博客:https://bfl.ai/blog/flux2-klein-towards-interactive-visual-intelligence 代码:https://github.com/black-forest-labs/flux2 试用:https://bfl.ai/models/flux-2-klein#try-demo
FLUX.2 [klein] 模型系列
FLUX.2 [klein] 9B
旗舰级小型模型。在文本转图像、单引用编辑和多引用生成方面,重新定义了质量与延迟的帕累托最优解。其性能可媲美甚至超越规模为其五倍的模型,且耗时不到半秒。该模型基于 90 亿流模型和 80 亿 Qwen3 文本嵌入器构建,并精简为 4 个推理步骤。
以亚秒级的速度,融合多张输入图像,混合各种概念,并迭代处理复杂的合成图像,同时保持顶尖的质量。此前没有任何一款速度如此之快的模型能够做到如此出色。
FLUX.2 [klein] 4B:
完全开源,遵循 Apache 2.0 协议。这是我们最易于使用的型号,可在 RTX 3090/4070 等消费级 GPU 上运行。体积小巧却功能强大:支持 T2I、I2I 和多参考架构,性能远超其体积。专为本地开发和边缘部署而设计。
许可证:Apache 2.0
FLUX.2 [klein] Base 9B / 4B:
全容量基础模型。未经提炼,保留完整的训练信号,实现最大灵活性。非常适合微调、LoRa 训练、研究以及对控制比速度更为重视的自定义流程。输出多样性高于提炼模型。
量化版本
还发布了所有 [klein] 变体的 FP8 和 NVFP4 版本,这些版本是与 NVIDIA 合作开发的,旨在优化 RTX GPU 上的推理性能。功能相同,占用空间更小,并且兼容更多硬件。
FP8:速度提升高达 1.6 倍,显存占用减少高达 40%。 NVFP4:速度提升高达 2.7 倍,显存占用减少高达 55% 在 RTX 5080/5090 和 T2I 上进行基准测试,分辨率为 1024×1024。 适用相同的许可证:4B 变体采用 Apache 2.0 许可证,9B 变体采用 FLUX NCL 许可证。
性能比较
FLUX.2 [klein] 在文本转图像、图像转图像单引用和多引用任务中,以 Elo 评分对比延迟(上图)和显存占用(下图)。FLUX.2 [klein] 的画质与 Qwen 相当甚至更优,而延迟和显存占用却远低于 Qwen,并且在统一的模型中同时支持文本转图像生成和(多引用)图像编辑,性能也优于 Z-Image。基础版本牺牲了一些速度,换取了完全的自定义和微调功能,使其更适合研究和针对特定用例进行调整。速度测试在 GB200 显卡上进行,使用 bf16 色彩空间。
使用教程
安装Diffuser库
pip install -U diffusers
运行下面代码
import torch
from diffusers import Flux2KleinPipeline
device = "cuda"
dtype = torch.bfloat16
pipe = Flux2KleinPipeline.from_pretrained("black-forest-labs/FLUX.2-klein-9B", torch_dtype=dtype)
pipe.enable_model_cpu_offload() # save some VRAM by offloading the model to CPU
prompt = "A cat holding a sign that says hello world"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=1.0,
num_inference_steps=4,
generator=torch.Generator(device=device).manual_seed(0)
).images[0]
image.save("flux-klein.png")感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论