2025年8月12日星期二

ICML 2025 I 快手&上交提出统一多模态生成理解模型Orthus:多模态理解/图像编辑/图文交织生成一键搞定。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!

图片

在ICML25上,快手、上交联合提出统一多模态生成理解模型Orthus——基于自回归Transformer的无损图文交错生成新范式。Orthus 不仅在多个视觉理解指标上超越了Chameleon和Show-o等竞争模型,还在图像编辑、图文交错生成等任务上展现了强大的能力。目前代码已开源。

图片

Orthus是一个统一的多模态模型,在AR建模原则下处理离散文本标记和无损连续图像特征。与现有技术不同,Orthus首次同时享有以下三大优势:

  • 单个变压器内 AR 和扩散的统一建模
  • 用于理解和生成的无损视觉信号
  • 无缝跨模态学习和混合模态生成

Orthus 擅长根据文本提示生成图像,根据视觉输入回答问题,甚至能够创作长篇图文交织的内容。以下是 Orthus 生成的一些示例。

图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2412.00127
  • 代码:https://github.com/zhijie-group/Orthus
  • 模型:https://huggingface.co/SJTU-Deng-Lab/Orthus-7B-instruct

unsetunsetOrthus 如何工作?unsetunset

给定图像和文本,Orthus 将离散文本标记(来自标记器)和连续的逐块图像特征(来自视觉编码器)嵌入到同一表示空间中,然后调用 AR Transformer 主干网络对模态间和模态内特征进行建模,并生成一系列输出向量。这些向量被路由到特定模态的头部,其中语言建模头部以分类方式预测下一个文本标记,而扩散头部通过条件扩散建模预测下一个图像块特征。在推理过程中,Orthus 根据特殊过渡标记的指示,自回归地预测下一个文本标记或图像块。图片

unsetunsetOrthus 与现有的统一多模式模型有何不同?unsetunset

与完全 AR 模型(左)相比,Orthus(右)采用连续图像特征,消除了 VQ 造成的信息丢失。 与 AR-扩散混合模型(中)相比,Orthus(右)将扩散从 Transformer 主干中分离出来,避免了视觉理解的噪声干扰,并通过直接的 AR 来表征模态之间的相关性。

图片

unsetunset实验结果unsetunset

图片Orthus 混合图文理解与生成的定性结果。左图:在 Instruct-Pix2Pix (Brooks et al., 2023) 上微调后的图像编辑结果。值得注意的是,Orthus 展现了情境学习能力,当提供示例而非明确的指令时,Orthus 能够成功执行图像编辑,而这些指令并未包含在训练数据集中。右图:在 StoryStream 数据集上微调后的交错故事书创作结果。结果表明,Orthus 在生成逻辑连贯、相关性高的交错图文方面表现出色。图片

图片

图片在视觉理解基准上进行评估。Und. 和 Gen. 分别表示"理解"和"生成"。使用外部预训练扩散模型的模型标有 *,Chameleon† 使用与 Orthus 相同的数据集进行后训练。粗体和下划线的结果分别表示最佳结果和次佳结果。这些结果对应于精确匹配准确率。图片左图:Show-o、Chameleon 和 Orthus 基于相同提示生成的图像对比。Orthus 生成的样本包含更多细节。右图:Orthus 的文本转图像图库。图片

unsetunset结论unsetunset

Orthus是一个用于交错图像文本理解和生成的统一多模态模型。Orthus 通过将共享 Transformer 主干网络的输出路由到特定模态的 Head,跨模态生成内容。它对视觉信号的连续处理能够保持输入的完整性,其针对离散文本标记和连续图像特征的统一 AR 建模方法使其在各种多模态理解和生成基准测试中表现出色。 在未来的工作中,我们计划通过扩展 Orthus 的参数大小并利用更大的交错数据集来扩展其性能,从而最大限度地发挥其潜力。此外,我们还旨在通过整合其他模态(包括视频和音频)来扩展其多模态能力。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

6 个 yyds 的 GitHub 开源项目,太优质了。

01 AI 加持的截图工具 AI 增强版截图开源工具。 能识别图中的公式、表格、代码,甚至翻译图片文字。 截个数学公式自动转 LaTeX 代码,拍张表格变 Excel,外语菜单秒翻译。 开源地址:https://github.com/xyTom/snippai 公式识别: 提...