2025年3月12日星期三

迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型!




本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。

论文介绍

近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。然而,如何让AI真正"看懂"世界,并更好地对齐人类偏好,仍是一个核心挑战。现有的奖励模型往往过于专门化,难以跨任务泛化,限制了视觉模型在不同场景下的适应性。

为此,该工作提出——UnifiedReward,首个统一的视觉奖励模型,能够同时评估图像/视频的生成与理解,支持成对排序(pairwise ranking)和单样本评分(pointwise scoring),并通过直接偏好优化(DPO)对齐视觉模型的输出,使其更符合人类审美与认知!

🔥 为什么需要 UnifiedReward?

✅ 缺乏通用的视觉奖励模型:现有方法多为特定任务设计,难以适应多样化的视觉场景。我们希望打造一个通用模型,同时覆盖多模态生成与理解任务。

✅ 多任务学习的协同增强效应: 提升图像理解,有助于更精准地评估图像生成质量; 更细粒度的图像评估能力,有助于视频评估,提升帧级质量判断。

🏗 UnifiedReward 是如何工作的?

该方法包含三个关键阶段:

  1. 统一奖励模型训练 通过构建大规模的统一偏好数据集来训练一个通用的视觉奖励模型,采用成对排序和单样本评分策略,统一学习评估图像/视频的生成与理解任务。

  2. 高质量偏好数据构建 利用训练好的奖励模型,通过以下三步筛选偏好数据:

    • 生成候选数据:使用VLM/Diffusion 生成N 份数据;
    • 成对排序:将N 份数据两两成对,由奖励模型筛选优选样本和被拒样本;
    • 逐点评分:在优选组中选最高分,在被拒组中选最低分,构建最终的高质量偏好数据对。
  3. 生成/理解模型偏好对齐 利用构建的偏好数据,通过直接偏好优化(DPO)微调VLM/Diffusion模型,对齐其输出,使其更加符合人类偏好。

构造的大规模统一偏好数据集

🎯 实验结果如何?

✅ UnifiedReward 超越了现有视觉奖励模型,在多个主流评测基准上取得 SOTA 结果! ✅ 多任务学习带来了显著的跨任务增强效果:联合学习图像/视频的生成与理解任务,可以让模型在多个领域相互促进,取得更好的评估效果! ✅ DPO 微调显著提升了视觉模型的表现,使其输出更符合人类偏好,提升了生成质量与理解能力。

🌟 开源与项目地址

UnifiedReward 的代码、数据与模型已全面开源!

  • 🔗 项目主页:https://codegoat24.github.io/UnifiedReward/
  • 📄 论文 PDF:https://arxiv.org/pdf/2503.05236
  • 💻 GitHub 代码:https://github.com/CodeGoat24/UnifiedReward
  • 🤗 Huggingface 预训练模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • 📊 Huggingface 训练数据:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

🌍 期待 UnifiedReward 能为视觉大模型的偏好对齐提供更强大的工具,拓宽奖励模型的应用边界,使其在多种视觉任务中展现更强适应性、泛化性与高效性!! 🚀



感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

2种方法制作完美人物一致性图片,生成带运镜效果的首尾帧AI视频,ComfyUI教程

今天我们主要用两种方法生成人物一致性图片,这两种方法生成的图片在人物一致性保持方面都特别好。 今天我们主要用两种方法生成人物一致性图片,这两种方法生成的图片在人物一致性保持方面都特别好。 然后我们再用这两张图片制作带运镜效果的首尾帧视频。 一、生成一张写实人物的侧视图 这里用...