AI I024: FLUX。2 [klein] 发布：亚秒级AI图像生成，13GB显存即可运行

2026年1月19日星期一

FLUX。2 [klein] 发布：亚秒级AI图像生成，13GB显存即可运行

黑森林实验室推出FLUX.2 [klein]系列模型，实现亚秒级图像生成与编辑，且支持消费级硬件（如RTX 3090）。该系列包含4B（开源）和9B版本，提供文本生成图像、图像编辑及多参考合成功能，兼顾高质量与低延迟，并发布了量化版本以优化性能。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

黑森林实验室发布了 FLUX.2 [klein] 模型系列，这是迄今为止速度最快的图像模型。FLUX.2 [klein] 将图像生成和编辑功能集成在一个紧凑的架构中，提供一流的图像质量，端到端推理速度低至不到一秒。它专为需要实时生成图像且不牺牲质量的应用而设计，并且可以在仅配备 13GB 显存的消费级硬件上运行。

主要特点

亚秒级推理：在现代硬件上，可在 0.5 秒内生成或编辑图像。
逼真的输出效果和高度多样性，尤其是在基础版本中。
统一生成和编辑：在单一模型中实现文本转图像、图像编辑和多引用支持，同时提供前沿性能。
可在消费级GPU上运行：4B型号可容纳约13GB显存（RTX 3090/4070及以上）。
对开发者友好且易于使用：40亿个模型采用Apache 2.0许可，90亿个模型采用开放权重。完全开放的权重可用于自定义和微调。
API 和开放权重：可用于生产环境的 API 或在本地使用完整权重运行。

unsetunset文生图unsetunset

unsetunset图像编辑unsetunset

unsetunset相关链接unsetunset

模型：https://huggingface.co/black-forest-labs/FLUX.2-klein-9B
博客：https://bfl.ai/blog/flux2-klein-towards-interactive-visual-intelligence
代码：https://github.com/black-forest-labs/flux2
试用：https://bfl.ai/models/flux-2-klein#try-demo

unsetunsetFLUX.2 [klein] 模型系列unsetunset

FLUX.2 [klein] 9B

旗舰级小型模型。在文本转图像、单引用编辑和多引用生成方面，重新定义了质量与延迟的帕累托最优解。其性能可媲美甚至超越规模为其五倍的模型，且耗时不到半秒。该模型基于 90 亿流模型和 80 亿 Qwen3 文本嵌入器构建，并精简为 4 个推理步骤。

以亚秒级的速度，融合多张输入图像，混合各种概念，并迭代处理复杂的合成图像，同时保持顶尖的质量。此前没有任何一款速度如此之快的模型能够做到如此出色。

FLUX.2 [klein] 4B：

完全开源，遵循 Apache 2.0 协议。这是我们最易于使用的型号，可在 RTX 3090/4070 等消费级 GPU 上运行。体积小巧却功能强大：支持 T2I、I2I 和多参考架构，性能远超其体积。专为本地开发和边缘部署而设计。

许可证：Apache 2.0

FLUX.2 [klein] Base 9B / 4B：

全容量基础模型。未经提炼，保留完整的训练信号，实现最大灵活性。非常适合微调、LoRa 训练、研究以及对控制比速度更为重视的自定义流程。输出多样性高于提炼模型。

unsetunset量化版本unsetunset

还发布了所有 [klein] 变体的 FP8 和 NVFP4 版本，这些版本是与 NVIDIA 合作开发的，旨在优化 RTX GPU 上的推理性能。功能相同，占用空间更小，并且兼容更多硬件。

FP8：速度提升高达 1.6 倍，显存占用减少高达 40%。
NVFP4：速度提升高达 2.7 倍，显存占用减少高达 55%
在 RTX 5080/5090 和 T2I 上进行基准测试，分辨率为 1024×1024。
适用相同的许可证：4B 变体采用 Apache 2.0 许可证，9B 变体采用 FLUX NCL 许可证。

unsetunset性能比较unsetunset

FLUX.2 [klein] 在文本转图像、图像转图像单引用和多引用任务中，以 Elo 评分对比延迟（上图）和显存占用（下图）。FLUX.2 [klein] 的画质与 Qwen 相当甚至更优，而延迟和显存占用却远低于 Qwen，并且在统一的模型中同时支持文本转图像生成和（多引用）图像编辑，性能也优于 Z-Image。基础版本牺牲了一些速度，换取了完全的自定义和微调功能，使其更适合研究和针对特定用例进行调整。速度测试在 GB200 显卡上进行，使用 bf16 色彩空间。

unsetunset使用教程unsetunset

安装Diffuser库

pip install -U diffusers

运行下面代码

import torch
from diffusers import Flux2KleinPipeline

device = "cuda"
dtype = torch.bfloat16

pipe = Flux2KleinPipeline.from_pretrained("black-forest-labs/FLUX.2-klein-9B", torch_dtype=dtype)
pipe.enable_model_cpu_offload()  # save some VRAM by offloading the model to CPU

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=1.0,
    num_inference_steps=4,
    generator=torch.Generator(device=device).manual_seed(0)
).images[0]
image.save("flux-klein.png")

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024