添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
2025年9月28日,腾讯开源首个开源商用级原生多模态生图模型Hunyuan Image 3.0,它也是目前参数量最大的开源生图模型,参数规模高达80B。其中每个 token 在推理过程中激活了 130 亿个参数。其效果完全媲美业界旗舰闭源模型。
无论是插画师、设计师还是创作者,这款工具都能将您的工作流程从数小时缩短至数分钟。HunyuanImage 3.0 可以为教育内容生成复杂的文本、细致的漫画、富有表现力的表情符号以及生动有趣的插图。
效果展示
世界知识推理
具有基于世界知识推理的原生多模态模型,目前主要开放生图能力。
极致美学
具有精确的语义理解能力,能够实现超长的文本语义理解,整体美学接近商业级模型。
精确文字生成,超长文本渲染
相关链接
论文:https://arxiv.org/pdf/2509.23951 主页:https://hunyuan.tencent.com/image/zh?tabIndex=0 代码:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0 模型:https://huggingface.co/tencent/HunyuanImage-3.0
论文介绍
Hunyuan Image 3.0 是一个原生多模态模型,它将多模态理解和生成统一在一个自回归框架内,其图像生成模块已公开发布。依赖于几个关键组件,包括细致的数据管理、先进的架构设计、原生的思想链模式、渐进式模型预训练、积极的模型后训练,以及支持大规模训练和推理的高效基础架构。凭借这些进步成功训练了一个混合专家 (MoE) 模型,该模型总共包含超过 800 亿个参数,推理过程中每个标记激活了 130 亿个参数,使其成为迄今为止规模最大、性能最强大的开源图像生成模型。
方法概述
我用MoE LLM作为底模,为模型引入图像理解和生成的能力。对于图像理解任务,使用VAE+ViT拼接而成的joint feature作为图像输入;对于图像生成任务,基于Trarnsfusion的思路将Diffusion图像建模引入LLM架 构。通过多个模态不同任务的混合训练,可以激发MoE架构的潜能,提高模型的泛化能力。Hunyuanlmage3.0正 是模型中的图像生成部分。
针对多模态图文交织数据,针对性地设计了attention mask和2D位置编码,通过attention mask来隔离噪声图像和 干净图像,使得富文本序列上不同图像之间互不影响,通过使用兼容LLM底模原本的1DRoPE的2DRoPE来促进图 像结构的学习和收敛。
渐进式的训练范式:整体训练范式遵循pretraining、instruction tuning、SFT和RL后训练的顺序。pretraining阶段 遵循从低分辨率到高分辨率、从低质到高质、从图像对到富】文本的策略,并精细控制每个阶段的多任务比例, 以实现最优的训练效果;instruction tuning阶段我们构造了思维镇生图的文生图数据和文生文数据,激发模型的推 理和改写能力。SFT阶段和RL后续呢阶段我们采用高质、高美感的数据,并结合DPO、GRPO的RL算法来提升模型 整体的美学效果和美感。最终实现一个带有"LLM大脑",同时具有"艺术细胞"的原生多模态模型。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论