添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
2024年,FLUX.1以全球最火开源图像模型证明AI可赋能创意,但受限于架构,在风格迁移、多图融合等场景中力不从心。如今FLUX.2强势登场,采样速度提升3倍,更突破性支持10图跨场景参考与4K超清输出,将应用从个人创作推向广告、影视等高精度领域。设计师可一键完成「角色换装+品牌适配+光影优化」,效率较前代提升5倍;企业API成本低至$0.03/张,让AI生成从「实验」变为「标配」。这场开源驱动的进化,正重新定义生产力边界。
文生图示例
图像编辑示例
相关链接
主页:https://bfl.ai/blog/flux-2 模型:https://huggingface.co/collections/black-forest-labs/flux2 代码:https://github.com/black-forest-labs/flux2 API:https://docs.bfl.ai/
从 FLUX.1 到 FLUX.2
精准、高效、可控、极致逼真——FLUX.1展现了媒体模型作为强大创意工具的潜力,而FLUX.2则展示了前沿技术如何革新制作流程。通过彻底改变生成经济模式,FLUX.2将成为我们创意基础设施中不可或缺的一部分。输出多样性:FLUX.2 能够生成高度精细、逼真的图像,以及具有复杂排版的图表,分辨率最高可达 4MP。
FLUX.2-dev特点
多参考支持:可同时参考多达 10 张图片,并保持当今最佳的字符/产品/风格一致性。 图像细节和照片级真实感:更丰富的细节、更清晰的纹理和更稳定的光照,适用于产品拍摄、可视化和类似摄影的用途。 文本渲染:复杂的排版、信息图表、表情包和带有清晰细小文本的 UI 模型现在可以在生产环境中可靠地运行。 增强提示遵循能力:提高对复杂、结构化指令的遵守能力,包括多部分提示和组成限制。 世界知识:更加注重现实世界的知识、光照和空间逻辑,从而产生更加连贯的场景和预期的行为。 更高分辨率和更灵活的输入/输出比例:支持高达 4MP 分辨率的图像编辑。 FLUX.2 的所有版本都支持从文本和多个参考资料编辑图像,并且所有版本都集成在一个模型中。
现已上市
FLUX.2 系列产品涵盖了从完全托管、可用于生产环境的 API 到开发者可以自行运行的开放式检查点等一系列模型产品。下图概述了 FLUX.2 [pro]、FLUX.2 [flex]、FLUX.2 [dev] 和 FLUX.2 [klein] 如何在性能和控制之间取得平衡。
FLUX.2 [pro]:媲美顶级封闭式模型的卓越图像质量,在快速贴合和视觉保真度方面与其他模型不相上下,同时还能以更快的速度和更低的成本生成图像。速度与质量完美平衡。→ 现已在BFL Playground、BFL API以及我们的合作伙伴处发布。
FLUX.2 [flex]:可控制模型参数,例如步数和引导比例,使开发者能够全面掌控质量、响应速度和速度。该模型在渲染文本和精细细节方面表现出色。→ 现已可通过bfl.ai/play、BFL API以及我们的合作伙伴获取。
FLUX.2 [dev]:基于 FLUX.2 基础模型的 32 位数开放权重模型。它是目前功能最强大的开放权重图像生成和编辑模型,将文本到图像合成和图像编辑功能与单个检查点中的多个输入图像相结合。
FLUX.2 [klein](即将推出):开源的 Apache 2.0 模型,基于 FLUX.2 基础模型精简而成。与同等规模的从零开始训练的模型相比,它功能更强大,对开发者更友好,并具备与其教师模型相同的诸多功能。加入 Beta 测试。
FLUX.2 - VAE:一种用于潜在表示的新型变分自编码器,可在可学习性、质量和压缩率之间实现优化平衡。该模型是所有 FLUX.2 流程骨干网络的基础。FLUX.2 - VAE 已在 HF 上发布,采用 Apache 2.0 许可证。
使用可变步长生成设计: FLUX.2 [flex] 提供了一个"步长"参数,可在排版精度和延迟之间进行权衡。从左到右:6 步、20 步、50 步。
通过可变步长控制图像细节: FLUX.2 [flex] 提供了一个"步长"参数,用于在图像细节和延迟之间进行权衡。从左到右:6 步、20 步、50 步。
FLUX.2 系列产品以极具竞争力的价格提供最先进的图像生成质量,在各个性能级别中都提供了最佳价值。
对于开放权重图像模型,FLUX.2 [dev] 树立了新的标准,在文本到图像生成、单引用编辑和多引用编辑方面均取得了领先的性能,始终以显著优势超越所有开放权重替代方案。
部署教程
下面是FLUX.2 [dev]以及示例代码,可以基于diffuser库来使用。对于在消费级显卡(如 RTX 4090 或 RTX 5090)上进行本地部署,可参阅 GitHub 页面上的扩散器文档。
教程:https://github.com/black-forest-labs/flux2
例如,以下是在 RTX 4090 上使用远程文本编码器加载 4 位量化模型的方法:
import torch
from diffusers import Flux2Pipeline
from diffusers.utils import load_image
from huggingface_hub import get_token
import requests
import io
repo_id = "diffusers/FLUX.2-dev-bnb-4bit"#quantized text-encoder and DiT. VAE still in bf16
device = "cuda:0"
torch_dtype = torch.bfloat16
def remote_text_encoder(prompts):
response = requests.post(
"https://remote-text-encoder-flux-2.huggingface.co/predict",
json={"prompt": prompts},
headers={
"Authorization": f"Bearer {get_token()}",
"Content-Type": "application/json"
}
)
prompt_embeds = torch.load(io.BytesIO(response.content))
return prompt_embeds.to(device)
pipe = Flux2Pipeline.from_pretrained(
repo_id, text_encoder=None, torch_dtype=torch_dtype
).to(device)
prompt = "Realistic macro photograph of a hermit crab using a soda can as its shell, partially emerging from the can, captured with sharp detail and natural colors, on a sunlit beach with soft shadows and a shallow depth of field, with blurred ocean waves in the background. The can has the text `BFL Diffusers` on it and it has a color gradient that start with #FF5733 at the top and transitions to #33FF57 at the bottom."
#cat_image = load_image("https://huggingface.co/spaces/zerogpu-aoti/FLUX.1-Kontext-Dev-fp8-dynamic/resolve/main/cat.png")
image = pipe(
prompt_embeds=remote_text_encoder(prompt),
#image=[cat_image] #optional multi-image input
generator=torch.Generator(device=device).manual_seed(42),
num_inference_steps=50, #28 steps can be a good trade-off
guidance_scale=4,
).images[0]
image.save("flux2_output.png")感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论