Tiktok提出TiTok的项目,可以大幅提高图像的生成和模型训练速度。512×512分辨率图像生成速度比DiT-XL/2快了 410 倍,训练速度上,使用32个符号的TiTok-L-32比使用256个符号提速4.5倍。因此,它可以显著加快采样过程的速度。传统方法通常把图像压缩成一个二维的表示,但TiTok把图像压缩成一个一维的离散序列。尽管只用了很少的符号,例如32个,但TiTok仍然能很好地重建原始图像,生成高质量的新图像。
相关链接
论文地址:https://arxiv.org/pdf/2406.07550
代码:https://yucornetto.github.io/projects/titok.html(即将推出)
论文阅读
一幅图像价值 32 个用于重建和生成的标记
亮点
我们引入了 TiTok,一种新颖的一维图像标记框架,它打破了二维标记方法中存在的网格限制,从而带来了更加灵活和紧凑的图像潜在表示。
所提出的 TiTok 可以将256 × 256 的图像标记为少至32 个离散标记,从而显著加快生成过程的速度(比扩散模型快数百倍),同时保持最先进的生成质量。
我们进行了一系列实验来探索很少研究的一维图像标记的特性,为高效和有效的图像表示的紧凑潜在空间铺平了道路。
摘要
生成模型的最新进展凸显了图像标记化在高分辨率图像高效合成中的关键作用。标记化将图像转换为潜在表示,与直接处理像素相比,它减少了计算需求,并提高了生成过程的有效性和效率。先前的方法(例如 VQGAN)通常使用具有固定下采样因子的 2D 潜在网格。然而,这些 2D 标记化在管理图像中固有的冗余方面面临挑战,其中相邻区域经常显示相似性。
为了解决这个问题,我们引入了基于Transformer的 1-Dimensional Tok enizer (TiTok),这是一种将图像标记为 1D 潜在序列的创新方法。TiTok 提供了更紧凑的潜在表示,与传统技术相比,它产生了更高效、更有效的表示。例如,256 × 256 × 3 的图像可以减少到仅32 个离散标记,与先前方法获得的 256 或 1024 个标记相比有显著减少。尽管 TiTok 结构紧凑,但它的性能却可以与最先进的方法相媲美。
具体来说,使用相同的生成器框架,TiTok 达到了1.97 gFID,在 ImageNet 256 × 256 基准上比 MaskGIT 基线高出 4.21 。在更高的分辨率下,TiTok 的优势更加明显。在 ImageNet 512 × 512 基准测试中,TiTok 不仅优于最先进的扩散模型 DiT-XL/2(gFID 2.74 vs. 3.04),而且还将图像标记减少了64倍,从而使生成过程提高了 410 倍。我们表现最佳的变体可以显著超越 DiT-XL/2(gFID 2.13 vs. 3.04),同时仍能以快74 倍的速度生成高质量样本。
方法
使用(c)TiTok框架进行图像重建(a)和生成(b)
TiTok包含一个编码器Encoder,一个量化器Quant和一个解码器Decoder。图像补丁与一些latent tokens通过视觉变压器(ViT)编码器。然后对latent tokens进行矢量量化。latent tokens连同mask tokens被送入ViT解码器重建图像。
实验
1D标记化属性探测实验
不同TiTok变体的初步实验结果。我们在(a) ImageNet-1K重建方面进行了全面的探索。(b) ImageNet-1K线性探测。(c)ImageNet-1K一代。(d) MaskGIT-ViT作为生成器和的训练和推理吞吐量。
TiTok作为标记器(在A100 gpu上进行评估,推理包括使用TiTok- b的去标记步骤)。
TiTok和现有技术在ImageNet 256 x 256和 512 × 512代基准。加速与DiT-XL/2进行比较结果。采样速度(包括去标记化)是用A100 GPU测量的。
主要实验结果
使用ADM评估ImageNet-1K 256 × 256生成结果。†:训练于OpenImages‡: 训练于OpenImages, LAION-Aesthetics-Humans。P:生成器的参数。S:采样步骤。T:吞吐量以浮点32精度的A100上每秒采样数表示。
可视化
我们尝试了不同数量的潜在标记和标记器模型大小,发现扩展标记器大小是实现紧凑图像潜在表示的一种有前途的途径。
使用 TiTok-L-32 对生成的样本进行可视化。
结论
在本文中,我们探索了用于重建和生成的紧凑1D标记化TiTok自然图像。与现有的二维VQ模型将图像潜在空间视为二维模型不同网格,我们提供了一个更紧凑的公式,将图像标记为一维潜在序列。拟议的TiTok可以用比常用的2D少8到64倍的token来表示图像分词器。
此外,紧凑的一维令牌不仅显著改善了生成模型 训练和推理吞吐量,但也在ImageNet基准上实现了有竞争力的FID。我们希望我们的研究能够为更有效的图像表示方向提供一些启示。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论