2025年5月11日星期日

字节提出高效文生图新框架FlowTok,可实现文本和图像无缝衔接比,比PixArt 快3倍!

字节提出了一个精简却强大的框架FlowTok,通过将图像编码为紧凑的一维 token 表示,实现文本和图像之间




字节提出了一个精简却强大的框架FlowTok,通过将图像编码为紧凑的一维 token 表示,实现文本和图像之间的无缝衔接。FlowTok内存效率极高,所需的训练资源显著减少,采样速度也显著提升,同时性能可与最先进的模型相媲美。

相关链接

  • 论文:https://arxiv.org/pdf/2503.10772
  • 代码:https://github.com/bytedance/1d-tokenizer
  • 主页:https://tacju.github.io/projects/flowtok.html

论文介绍

FlowTok:无缝跨文本和图像标记
FlowTok:无缝跨文本和图像标记

跨模态生成的核心在于连接不同的模态。传统方法将文本模态视为一种调节信号,逐步引导去噪过程从高斯噪声过渡到目标图像模态,而我们探索了一种更简单的范式——通过流匹配直接在文本和图像模态之间演化。这需要将两种模态投影到共享的潜在空间中,但由于它们本质上不同的表示形式,这带来了巨大的挑战:文本高度语义化,编码为一维标记,而图像在空间上具有冗余性,表示为二维潜在嵌入。

为了解决这个问题,论文引入了 FlowTok,这是一个极简框架,通过将图像编码为紧凑的一维标记表示,无缝地在文本和图像之间流动。与先前的方法相比,这种设计在 256 的图像分辨率下将潜在空间大小缩小了 3.3 倍,从而无需复杂的调节机制或噪声调度。此外,FlowTok 还可以在相同的公式下自然地扩展到图像到文本的生成。 FlowTok 采用以紧凑型 1D 标记为中心的精简架构,具有很高的内存效率,需要的训练资源少得多,并且采样速度更快,同时提供与最先进模型相当的性能。

模态间的直接流动

文本作为条件 vs. 模态间直接流动。上图:传统的文本到图像生成依赖于扩散过程,其中文本作为条件信号来引导去噪过程。下图:提出的 FlowTok 通过将文本和图像模态投影到一个共享的紧凑一维潜在空间,实现了文本和图像模态间的直接流动,从而促进了两者的无缝生成。
文本作为条件 vs. 模态间直接流动。上图:传统的文本到图像生成依赖于扩散过程,其中文本作为条件信号来引导去噪过程。下图:提出的 FlowTok 通过将文本和图像模态投影到一个共享的紧凑一维潜在空间,实现了文本和图像模态间的直接流动,从而促进了两者的无缝生成。

FlowTok 框架概述

FlowTok 概览。FlowTok 是一个极简框架,它能够实现一维文本 token 和图像 token 之间的无缝流动,适用于文本转图像和图像转文本的生成。上图:对于文本转图像的生成,输入文本由 CLIP 文本编码器编码为 Tinit ∈ R N×C,然后将其投影到低维潜在空间,形成文本 token ZT ∈ R N×D,再通过流匹配转换为相同形状的图像 token ZI ∈ R N×D,并由一维图像 VAE 解码器解码生成最终图像。下图:对于图像转文本的生成,输入图像由一维图像 VAE 编码器编码为 ZI,通过流匹配映射到 ZT,最后通过文本解码器解码为文本。与依赖二维噪声和图像潜在向量(例如,256 分辨率图像的 32 × 32 × 4)并以文本为条件的传统方法不同,我们的直接一维变换(即 77 × 16)实现了 3.3 倍的压缩率,显著降低了内存成本,加快了训练速度,并实现了更快的推理。
FlowTok 概览。FlowTok 是一个极简框架,它能够实现一维文本 token 和图像 token 之间的无缝流动,适用于文本转图像和图像转文本的生成。上图:对于文本转图像的生成,输入文本由 CLIP 文本编码器编码为 Tinit ∈ R N×C,然后将其投影到低维潜在空间,形成文本 token ZT ∈ R N×D,再通过流匹配转换为相同形状的图像 token ZI ∈ R N×D,并由一维图像 VAE 解码器解码生成最终图像。下图:对于图像转文本的生成,输入图像由一维图像 VAE 编码器编码为 ZI,通过流匹配映射到 ZT,最后通过文本解码器解码为文本。与依赖二维噪声和图像潜在向量(例如,256 分辨率图像的 32 × 32 × 4)并以文本为条件的传统方法不同,我们的直接一维变换(即 77 × 16)实现了 3.3 倍的压缩率,显著降低了内存成本,加快了训练速度,并实现了更快的推理。

实验结果

文生图结果
文生图结果
图生文结果
图生文结果

文本到图像生成实验结果

图像到文本生成实验结果

结论

论文介绍的FlowTok是一个精简但功能强大的框架,可实现一维文本和图像标记之间的无缝直接流动。通过精心设计的关键模块和损失函数,FlowTok将两种模态投影到统一的一维潜在空间,同时保留语义信息,从而在同一公式下实现文本到图像和图像到文本的生成。这种设计使FlowTok具有极高的内存效率,在训练期间仅需8块A100 GPU即可支持8K的批处理大小。此外,它的简洁性加速了收敛——在8块A100 GPU上大约20天内,FlowTok的性能可与需要更长训练时间的先进模型相媲美。精简的设计还使采样速度比现代文本到图像生成模型快10倍以上。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

GPT-5研发内幕首曝!OpenAI首席研究官:AGI指日可待

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 转载自:新智元 如有侵权,联系删稿 GPT-5到哪一步了? 最近,GPT-4.1核心研究员Michelle Pokrass透露,构建GPT-5的挑战在...