2026年2月5日星期四

Alibaba's Qwen-Image 2512 Turbo : Generate 4 2K Images in 5 Seconds, 40x Faster。

Summary: Alibaba's new Qwen-Image 2512 Turbo model slashes image generation steps from 80-100 to just 2, boosting speed 40x. This open-source model on HuggingFace & ModelScope delivers high-quality 2K images in seconds using novel distillation & adversarial training.

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

在AI生成图像的领域里,速度与质量的平衡一直是研究者们追求的终极目标。传统扩散模型往往需要数十步甚至上百步的前向计算,才能生成一张令人满意的图片,用户不得不长时间盯着进度条发呆。然而,阿里近日宣布了一项革命性突破——他们成功将Qwen最新开源模型的SOTA压缩水平从80-100步骤骤降至2步,实现了速度的飞跃,让AI生图真正进入了"眨眼之间"的时代。

图片

想象一下,以往需要近一分钟才能生成的2K级高清大图,现在仅需5秒钟,你就能拿到4张!这不仅仅是速度上的提升,更是对AI生图效率的一次彻底革新。阿里智能引擎团队通过创新的蒸馏方案,将Qwen-Image模型的生成步数大幅压缩,同时保证了生成图像的高质量。目前,这一突破性成果已经通过Checkpoint的形式发布至HuggingFace和ModelScope平台,供全球开发者下载体验。

unsetunset效果示例unsetunset

一位二十岁左右的中国女大学生,留着利落的短发,散发着温柔的艺术气息。头发自然垂落,半遮住脸颊,更添几分俏皮可爱。她肤色白皙,五官精致,略带羞涩却又透着一丝自信,嘴角微微上扬,带着青春的活力。她身穿露肩上衣,露出一侧肩膀,身材比例匀称。照片是近距离自拍:她占据了画面的主体,背景则是她的宿舍——上铺铺着洁白床单的整齐床铺,书桌上摆放着整齐的文具,还有木质的橱柜和抽屉。照片是用智能手机在柔和均匀的自然光线下拍摄的,色调自然,清晰度高,呈现出明亮活泼的氛围,充满了青春的活力。Qwen Image 2512 40 Steps

Our 4 Steps Turbo LoRA (V3.0)
Our 4 Steps Turbo LoRA (V3.0)
Our 2 Steps Turbo LoRA (V1.0)
Our 2 Steps Turbo LoRA (V1.0)

unsetunset相关链接unsetunset

  • HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
  • ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps
  • 试用:https://wuli.art/generate
图片

unsetunset技术揭秘:从样本空间到概率空间的智慧转变unsetunset

早期蒸馏方案往往受限于轨迹蒸馏的"细节困境",即模型在低迭代步数下难以生成高质量、细节丰富的图像。阿里智能引擎团队没有走老路,而是选择了从样本空间到概率空间的智慧转变。他们借鉴了DMD2算法的核心思想,将约束从直接对齐样本转换为在概率空间中进行指导,通过Reverse-KL Loss设计,让模型自己生成图片并接受教师模型的指导,哪里不对改哪里。

这种转变不仅显著提升了生成图片的细节性和合理性,还解决了传统轨迹蒸馏中图像模糊、细节扭曲的问题。同时,团队还通过热启动(PCM蒸馏)缓解了分布退化问题,进一步提升了模型的生成质量。

unsetunset对抗学习:引入真实数据先验,细节表现再升级unsetunset

为了进一步提升模型在细节上的表现能力,阿里智能引擎团队还引入了对抗学习(GAN)机制。通过真实数据混合策略、特征提取器引入以及Loss权重调整等改进措施,对抗训练不仅提升了模型的泛化度和训练稳定性,还显著增强了生成图像的画面质感和细节表现。

unsetunset开放共享,共创AI生图新未来unsetunset

阿里智能引擎团队的这一突破,不仅仅是对自身技术实力的一次展示,更是对AI生图领域的一次重要贡献。他们始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM在内的多项优秀开源项目。未来,他们期待与开源社区共同成长,将更先进的工程能力转化为触手可及的创作工具。

现在,这一革命性的2步生成模型已经集成到呜哩AI平台上,无论你是专业设计师、内容创作者还是AI爱好者,都能通过呜哩AI平台轻松体验到AI生图的极致效率与魅力。

阿里智能引擎团队的这一突破,无疑为AI生图领域树立了新的标杆。他们用实际行动证明,通过不断创新与优化,AI生图不仅能够更快,还能更好。未来,我们有理由相信,AI生图将在更多领域发挥重要作用,为我们的生活带来更多惊喜与可能。

unsetunset快速开始unsetunset

  • Diffsynth-Engine:https://github.com/modelscope/DiffSynth-Engine
  • Example Code:
import math
from diffsynth_engine import fetch_model, QwenImagePipeline, QwenImagePipelineConfig

# Create pipeline
config = QwenImagePipelineConfig.basic_config(
    model_path=fetch_model("Qwen/Qwen-Image-2512", path="transformer/*.safetensors"),
    encoder_path=fetch_model("Qwen/Qwen-Image-2512", path="text_encoder/*.safetensors"),
    vae_path=fetch_model("Qwen/Qwen-Image-2512", path="vae/*.safetensors"),
    offload_mode="cpu_offload",
)
pipe = QwenImagePipeline.from_pretrained(config)

# Load our turbo LoRA
pipe.load_lora(
    path=fetch_model("Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps", path="Wuli-Qwen-Image-2512-Turbo-LoRA-2steps-V1.0-bf16.safetensors"),
    scale=1.0,
    fused=True,
)

# Change scheduler config
scheduler_config = {
    "exponential_shift_mu": math.log(2.5),
    "use_dynamic_shifting": True,
    "shift_terminal": 0.7155
}
pipe.apply_scheduler_config(scheduler_config)

# Sample image
output = pipe(
    prompt="a young girl with flowing long hair, wearing a white halter dress and smiling sweetly. The background features a blue seaside where seagulls fly freely.",
    cfg_scale=1,
    num_inference_steps=2,
    seed=42,
    width=1328,
    height=1328
)
output.save("output.png")

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

腾讯开源HunyuanImage-3。0-Instruct,支持智能提示词增强与图像创意编辑,并推出高效蒸馏版本

该模型基于多任务指令微调,具备原生多模态理解与思维链优化能力,可实现高质量图生图与多图融合生成

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

图片

2026年1月26日,腾讯混元团队在图像3.0(HunyuanImage 3.0)发布后,进一步基于图像3.0的Base模型,引入了图生图的多任务数据进行指令微调和后训练,正式发布并开源混元图像3.0-Instruct版本(HunyuanImage 3.0-Instruct)。支持智能提示词增强和图像到图像生成用于创意编辑。此外还发布了蒸馏版本 HunyuanImage-3.0-Instruct-Distil 用于高效部署(推荐8步采样)。

图片

unsetunset推理级图片编辑,随心而变unsetunset

原生多模态模型能够先分析用户输入图像内容和编辑指令,通过思维链优化编辑行为,提升整体编辑效果图片图片

unsetunset多图融合,无限可能unsetunset

图片

支持最多三张图像输入的图像融合和参考图一致性生成

unsetunset相关链接unsetunset

图片
  • 论文:https://arxiv.org/pdf/2509.23951
  • 模型:https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
  • 代码:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

unsetunset方法概述unsetunset

使用MoE LLM作为底模,为模型引入图像理解和生成的能力。对于图像理解任务,使用VAE+ViT拼接而成的joint feature作为图像输入;对于图像生成任务,基于Transfusion的思路将Diffusion图像建模引入LLM架构。通过多个模态不同任务的混合训练,可以激发MoE架构的潜能,提高模型的泛化能力。Hunyuanlmage3.0正是模型中的图像生成部分。图片针对多模态图文交织数据,针对性地设计了attentiion mask和2D位置编码,通过attention mask来隔离噪声图像和干净图像,使得富文本序列上不同图像之间互不影响,通过使用兼容LLM底模原本的1DRoPE的2DRoPE来促进图像结构的学习和收敛。图片原生思维链生成:为了发挥原生多模态模型的优势,我们为每一个图生图数据都构建了思维链过程。引导模型先分析原图的特征,然后进一步拆解用户的指令,并结合原图特征的分析结构用户的编辑指令,最后再组合成一个更加复杂、系统的细粒度编辑指令,包含了如何执行需要变化的图像区域的修改,以及原图中什么样的特征需要进一步去进行保留。最终模型进一步会将用户的指令扩展为一个复杂、详细的结构化指令,如图中所示,扩展的结构化指令首先描述结果图像的内容,并在其中表明了图像内容和用户输入图的关系。最后,再最终分别描述结果图和用户输入图的分别的关联关系。图片

unsetunset效果展示unsetunset

基于复杂场景理解的创意T2I生成

Prompt: 3D 毛绒质感拟人化马,暖棕浅棕肌理,穿藏蓝西装、白衬衫,戴深棕手套;疲惫带期待,坐于电脑前,旁置印 "HAPPY AGAIN" 的马克杯。橙红渐变背景,配超大号藏蓝粗体 "马上下班",叠加米黄 "Happy New Year" 并标 "(2026)"。橙红为主,藏蓝米黄撞色,毛绒温暖柔和。图片

图片
图片
图片
图片

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

Alibaba's Qwen-Image 2512 Turbo : Generate 4 2K Images in 5 Seconds, 40x Faster。

Summary: Alibaba's new Qwen-Image 2512 Turbo model slashes image generation steps from 80-100 to just 2, boosting speed 40x. This open-s...