2025年2月26日星期三

CoT推理赋能文生图!港中文首次提出文生图的o1推理和inference scaling新范式。



OpenAI的o1模型凭借思维链(Chain-of-Thought, CoT)技术,在推理能力上实现了质的飞跃,引领了大模型理解领域的新风尚。然而,这一创新的火花能否照亮图像生成领域?近日,来自香港中文大学、北京大学及上海AI Lab的科研团队,系统地探索了"CoT 推理+文生图"的结合与潜力。

通过精心设计的Verify和Reinforce方案,不仅验证了CoT推理与文生图结合的无限可能,更揭示了这一融合策略在提升自回归图像生成质量上的显著成效。

相关链接

  • 论文:https://arxiv.org/pdf/2501.13926
  • 代码:https://github.com/ZiyuGuo99/Image-Generation-CoT
  • 模型:https://huggingface.co/ZiyuG/Image-Generation-CoT

论文介绍

图像生成中的推理

数学中的 LLM 和 LMM 广泛探索了思路链 (CoT) 推理。然而,这种策略是否可以应用于验证和强化图像生成场景仍是一个悬而未决的问题。在这个项目首次全面研究了 CoT 推理增强自回归图像生成的潜力。

论文重点关注三种 CoT 推理技术:

  • 扩展测试时间计算以进行验证(ORM、PRM 以及我们提出的 PARM 和 PARM++)
  • 通过直接偏好优化 (DPO)调整模型偏好
  • 整合这些技术以达到互补效果

结果表明这些方法可以有效地调整和组合,以显著提高图像生成性能

此外,鉴于奖励模型在研究结果中起着关键作用,论文提出了潜在评估奖励模型( PARM )和PARM ++,专门用于自回归图像生成:

  1. PARM通过潜在评估方法自适应地评估每个生成步骤,融合现有奖励模型的优势。
  2. PARM++进一步引入了反射机制,使生成模型能够自我纠正之前不令人满意的图像。

在 GenEval 基准上显著提高了 +24%,超过 Stable Diffusion 3 +15%。

开始使用

安装

  1. 克隆存储库:
git clone https://github.com/ZiyuGuo99/Image-Generation-CoT.git
cd Image-Generation-CoT
  1. 创建 conda 环境:
conda create -n img_cot python=3.10
conda activate img_cot

请按照此处的说明安装 PyTorch 和 TorchVision 依赖项。

  1. 安装其他依赖项:
pip install -r requirements.txt
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection; git checkout 2.x
pip install -v -e .
git clone https://github.com/LLaVA-VL/LLaVA-NeXT && cd LLaVA-NeXT && pip install -e ".[train]"

结论

论文研究了 CoT 推理策略在自回归图像生成中的适应性和潜力。通过系统调查证明了不同的推理策略可以有效地改善图像生成,例如测试时间验证、偏好对齐及其集成。根据观察进一步引入了两种用于自回归图像生成的定制奖励模型,称为潜在评估奖励模型 (PARM) 和 PARM++,它们评估了自适应奖励评分的逐步生成,并结合了用于自我校正图像生成的反射机制。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

保姆教程:扣子本地部署,配置模型,本地工作流构建

介绍怎样建立本地的工作流       扣子终于来源了,哈哈,之前一直是线上玩,没办法本地部署,大家都觉得不能在企业应用保密性不好,这次扣子直接来源了,企业也可以本地部署自己的扣子平台,相对dify和n8n,扣子的优势是显而易见的,生态也比较完善,今天就给大家分享一下,扣子本地...