2026年1月20日星期二

📱手机端1。8秒出高清图!SnapGen++移动AI图像生成新突破

这项研究提出了首个可在移动设备运行的扩散变换器模型SnapGen++,仅用1.8秒生成1024x1024高清图像,质量媲美云端大模型。其采用自适应稀疏注意力、弹性训练框架与知识蒸馏技术,实现了在资源受限设备上的高效高质量图像生成,为边缘AI应用开辟了新道路。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

由Snap公司、墨尔本大学等提出的 SnapGen++ 是第一个扩散变换器 (DiT) 模型 ( 0.4B ),可以在移动设备上仅用1.8 秒生成高保真图像 ( 1024x1024 ),在 DPG Bench 上达到85.2% ,在 GenEval 上达到0.70。

图片

unsetunset相关链接unsetunset

图片
  • 论文: https://arxiv.org/abs/2601.08303
  • 主页: https://snap-research.github.io/snapgenplusplus

unsetunset介绍unsetunset

扩散变换器(DiT)的最新进展为图像生成树立了新的标准,但由于其高昂的计算和内存成本,仍然难以在设备端部署。本文提出了一种高效的DiT框架,专为移动和边缘设备量身定制,在严格的资源约束下实现了变换器级别的图像生成质量。我们的设计融合了三个关键组件。首先,我们提出了一种紧凑的DiT架构,并采用自适应的全局-局部稀疏注意力机制,以平衡全局上下文建模和局部细节保留。其次,我们提出了一种弹性训练框架,该框架在一个统一的超网络中联合优化不同容量的子DiT,使单个模型能够动态调整,从而在不同的硬件上实现高效推理。最后,我们开发了K-DMD(知识引导分布匹配蒸馏),这是一种分步蒸馏流水线,它将DMD目标与来自少步教师模型的知识迁移相结合,从而生成高保真度、低延迟(例如,4步)的图像,适用于实时设备端应用。这些贡献共同实现了可扩展、高效、高质量的扩散模型,可部署在各种硬件上。

unsetunset方法概述unsetunset

图片

DiT由三个阶段组成:下行、中行和上行(左图)。下行和上行模块在高分辨率潜在文本上进行操作,并使用提出的自适应稀疏自注意力(ASSA)层(右图)。中行模块在经过2x2窗口下采样的潜在文本上进行操作,并使用标准的自注意力(SA)层。模块中的其他层包括用于根据输入文本条件进行调制的交叉注意力(CA)层和前馈(FFN)层。ASSA层包含两个并行的注意力处理分支:(i)用于整体结构的粗粒度键值压缩,以及(ii)用于细粒度块状邻域注意力特征的提取。

unsetunset弹性训练unsetunset

图片

论文设计了一种弹性扩散变换(Elastic DiT)框架,使单个扩散变换器能够根据可用计算资源灵活扩展其容量。提出了一种结构分解方法,允许不同宽度的子网络之间共享参数,通过沿隐藏维度对注意力层和前馈神经网络(FFN)层的投影矩阵进行切片,从单个超网络中采样出不同大小的子网络。在训练过程中,对子网络进行均匀采样,并使用超网络的输出对其进行监督。此外对所有粒度都使用标准扩散损失。这使得训练更加稳定,并赋予子网络知识。

unsetunsetSnapGen++弹性训练图unsetunset

多级蒸馏

图片

遵循 SnapGen 流程,首先进行大规模预训练和知识蒸馏 (KD),以显著提升小型学生模型的容量。KD 完成后,执行步蒸馏以实现高效推理。为了稳定步蒸馏,提出了知识引导的 DMD (K-DMD),它通过引入来自少步教师模型的知识蒸馏 (KD) 目标,扩展了基于 DMD 的步蒸馏。

unsetunset定量比较unsetunset

与现有 T2I 模型在各种基准测试中的比较:测试结果基于 DPG-Bench、GenEval、T2I-CompBench 和 CLIP (COCO) 数据集。吞吐量/帧率(采样/秒)是在单块 80GB A100 GPU 上使用适用于 1024x1024 图像的最大批处理大小进行测量的。延迟(毫秒)是在 iPhone 16 Pro Max 上进行一次前向传播测量的。图片

unsetunset定性结果unsetunset

少量步骤可视化:比较我们的微型(0.3B)、小型(0.4B)和完整(1.6B)模型在28步(不使用K-DMD)和4步(使用K-DMD)设置下生成的图像。角落里的数字表示DPG/GenEval评分。图片

图片

unsetunset结论unsetunset

本文提出了一种高效的扩散变换器,将基于变换器的图像生成技术应用于移动和边缘设备。通过自适应的全局-局部稀疏注意力机制,模型在资源受限的情况下实现了优异的质量-效率平衡。

弹性训练框架支持跨异构硬件的动态扩展,而K-DMD则从少量步骤的教师模型中提取高保真知识,从而实现快速、高质量的图像生成。大量实验表明,我们的模型在移动设备上高效运行的同时,也能达到接近服务器级的图像生成质量。这些进展使得扩散变换器能够应用于实际的设备端部署,为边缘设备上可扩展的生成智能铺平了道路。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

离线翻译神器Argos Translate:40+语种,无网也能精准翻译

开源离线翻译工具Argos Translate,支持40余种语言本地互译,无需网络连接。智能语言转换功能实现间接翻译,兼顾隐私与便捷,是出行、无网络环境的翻译利器。 推荐阅读: 70.9K Star!官方ai开发指南!建议收藏! 推荐:一个识别、翻译、阅读与智能分析工具!强到...