字节提出了一个精简却强大的框架FlowTok,通过将图像编码为紧凑的一维 token 表示,实现文本和图像之间
字节提出了一个精简却强大的框架FlowTok,通过将图像编码为紧凑的一维 token 表示,实现文本和图像之间的无缝衔接。FlowTok内存效率极高,所需的训练资源显著减少,采样速度也显著提升,同时性能可与最先进的模型相媲美。
相关链接
论文:https://arxiv.org/pdf/2503.10772 代码:https://github.com/bytedance/1d-tokenizer 主页:https://tacju.github.io/projects/flowtok.html
论文介绍
跨模态生成的核心在于连接不同的模态。传统方法将文本模态视为一种调节信号,逐步引导去噪过程从高斯噪声过渡到目标图像模态,而我们探索了一种更简单的范式——通过流匹配直接在文本和图像模态之间演化。这需要将两种模态投影到共享的潜在空间中,但由于它们本质上不同的表示形式,这带来了巨大的挑战:文本高度语义化,编码为一维标记,而图像在空间上具有冗余性,表示为二维潜在嵌入。
为了解决这个问题,论文引入了 FlowTok,这是一个极简框架,通过将图像编码为紧凑的一维标记表示,无缝地在文本和图像之间流动。与先前的方法相比,这种设计在 256 的图像分辨率下将潜在空间大小缩小了 3.3 倍,从而无需复杂的调节机制或噪声调度。此外,FlowTok 还可以在相同的公式下自然地扩展到图像到文本的生成。 FlowTok 采用以紧凑型 1D 标记为中心的精简架构,具有很高的内存效率,需要的训练资源少得多,并且采样速度更快,同时提供与最先进模型相当的性能。
模态间的直接流动
FlowTok 框架概述
实验结果
文本到图像生成实验结果
图像到文本生成实验结果
结论
论文介绍的FlowTok是一个精简但功能强大的框架,可实现一维文本和图像标记之间的无缝直接流动。通过精心设计的关键模块和损失函数,FlowTok将两种模态投影到统一的一维潜在空间,同时保留语义信息,从而在同一公式下实现文本到图像和图像到文本的生成。这种设计使FlowTok具有极高的内存效率,在训练期间仅需8块A100 GPU即可支持8K的批处理大小。此外,它的简洁性加速了收敛——在8块A100 GPU上大约20天内,FlowTok的性能可与需要更长训练时间的先进模型相媲美。精简的设计还使采样速度比现代文本到图像生成模型快10倍以上。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论