该模型基于多任务指令微调,具备原生多模态理解与思维链优化能力,可实现高质量图生图与多图融合生成
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
2026年1月26日,腾讯混元团队在图像3.0(HunyuanImage 3.0)发布后,进一步基于图像3.0的Base模型,引入了图生图的多任务数据进行指令微调和后训练,正式发布并开源混元图像3.0-Instruct版本(HunyuanImage 3.0-Instruct)。支持智能提示词增强和图像到图像生成用于创意编辑。此外还发布了蒸馏版本 HunyuanImage-3.0-Instruct-Distil 用于高效部署(推荐8步采样)。
推理级图片编辑,随心而变
原生多模态模型能够先分析用户输入图像内容和编辑指令,通过思维链优化编辑行为,提升整体编辑效果
多图融合,无限可能
支持最多三张图像输入的图像融合和参考图一致性生成
相关链接
论文:https://arxiv.org/pdf/2509.23951 模型:https://huggingface.co/tencent/HunyuanImage-3.0-Instruct 代码:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
方法概述
使用MoE LLM作为底模,为模型引入图像理解和生成的能力。对于图像理解任务,使用VAE+ViT拼接而成的joint feature作为图像输入;对于图像生成任务,基于Transfusion的思路将Diffusion图像建模引入LLM架构。通过多个模态不同任务的混合训练,可以激发MoE架构的潜能,提高模型的泛化能力。Hunyuanlmage3.0正是模型中的图像生成部分。针对多模态图文交织数据,针对性地设计了attentiion mask和2D位置编码,通过attention mask来隔离噪声图像和干净图像,使得富文本序列上不同图像之间互不影响,通过使用兼容LLM底模原本的1DRoPE的2DRoPE来促进图像结构的学习和收敛。
原生思维链生成:为了发挥原生多模态模型的优势,我们为每一个图生图数据都构建了思维链过程。引导模型先分析原图的特征,然后进一步拆解用户的指令,并结合原图特征的分析结构用户的编辑指令,最后再组合成一个更加复杂、系统的细粒度编辑指令,包含了如何执行需要变化的图像区域的修改,以及原图中什么样的特征需要进一步去进行保留。最终模型进一步会将用户的指令扩展为一个复杂、详细的结构化指令,如图中所示,扩展的结构化指令首先描述结果图像的内容,并在其中表明了图像内容和用户输入图的关系。最后,再最终分别描述结果图和用户输入图的分别的关联关系。
效果展示
基于复杂场景理解的创意T2I生成
Prompt: 3D 毛绒质感拟人化马,暖棕浅棕肌理,穿藏蓝西装、白衬衫,戴深棕手套;疲惫带期待,坐于电脑前,旁置印 "HAPPY AGAIN" 的马克杯。橙红渐变背景,配超大号藏蓝粗体 "马上下班",叠加米黄 "Happy New Year" 并标 "(2026)"。橙红为主,藏蓝米黄撞色,毛绒温暖柔和。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论