添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
之前不少AI生成的图像画风"油腻",效果不尽人意,而这一难题或许迎来了转机。近期腾讯在开源领域动作频频、势头迅猛,其最新发布的图像模型算法SRPO表现亮眼,直接登上了Hugging Face趋势榜首,甚至在趋势榜前3中占据2席,实力不容小觑。
此前利用可区分奖励机制让扩散模型与人类偏好对齐的方法,存在计算成本高、需持续离线调整奖励模型等难题。腾讯提出的SRPO算法中的直接对齐(Direct-Align)方法,预先定义噪声先验,通过插值恢复图像,避免过度优化;还引入语义相对偏好优化,能在线调整奖励,减少对离线微调的依赖。该算法不仅让优化更稳定、计算要求更低,还能快速提升模型性能、避免奖励黑客攻击,具备可控微调潜力,有望改善AI生图"油腻"问题。
效果展示
相关链接
论文:https://arxiv.org/abs/2509.06942 主页:https://tencent.github.io/srpo-project-page GitHub:https://github.com/Tencent-Hunyuan/SRPO Hugging Face:https://huggingface.co/tencent/SRPO
介绍
近期研究已证明,利用可区分的奖励机制,将扩散模型与人类偏好直接对齐是有效的。然而,这些方法面临两个主要挑战:
它们依赖于多步降噪和梯度计算来计算奖励分数,这在计算上非常昂贵,因此优化过程只能局限于几个扩散步骤; 为了达到理想的美学质量,例如照片级真实感或精准的光照效果,它们通常需要持续离线调整奖励模型。
为了突破多步降噪的局限性,论文提出了直接对齐 (Direct-Align) 方法,该方法预先定义噪声先验,并通过插值有效地从任意时间步长恢复原始图像,利用扩散状态是噪声和目标图像之间插值的方程,有效避免了后期时间步长的过度优化。此外论文还引入了语义相对偏好优化 (SRPO),其中奖励被表示为文本条件信号。这种方法能够根据正向和负向的提示增强来在线调整奖励,从而减少对离线奖励微调的依赖。通过优化去噪和在线奖励调整对 FLUX.1.dev 模型进行微调,将其人工评估的真实感和美学质量提高了 3 倍以上。
关键贡献
直接对齐
论文引入了一种新的扩散微调采样策略,可以有效地恢复高噪声图像,从而使优化过程更加稳定且计算要求更低,尤其是在初始时间步长期间。
训练速度更快
通过仅推出单张图像并直接使用解析梯度进行优化(这是与 GRPO 的关键区别),我们的方法在不到 10 分钟的训练时间内显著提升了 FLUX.1.dev 的性能。为了进一步加快这一过程,我们的方法支持完全用小型真实图像数据集取代在线推出;我们发现,只需不到 1500 张图像就足以有效训练 FLUX.1.dev。
避免奖励黑客攻击
论文改进了直接基于奖励信号进行反向传播的方法(例如 ReFL 和 DRaFT)的训练策略。此外,我们直接使用负奖励对模型进行正则化,无需 KL 散度或单独的奖励系统。这种方法在多种不同奖励下实现了相当的性能,提升了 FLUX.1.dev 的感知质量,且不会出现奖励黑客攻击问题,例如颜色过拟合或过饱和度偏好。
可控微调的潜力
论文工作是在线强化学习中首次将动态可控的提示增强直接纳入奖励模型,从而能够在奖励模型范围内在线调整对风格的奖励偏好。
方法概述
为了在扩散过程的早期阶段实现精确的奖励分配,我们使用真实噪声先验和单步去噪操作,从中间的噪声图像重建出干净的图像。具体来说,我们首先生成干净图像并注入高斯噪声,从而建立一个在任何扩散时间步长下恢复图像的闭式表达式。Direct-Align 流程包含四个关键阶段:(0) 生成用于训练的图像;(1) 向图像中注入噪声;(2) 执行单步去噪或反演操作;以及 (3) 恢复图像。SRPO 通过在评分之前引入两个分支——惩罚和奖励——来修改奖励模型,这两个分支分别评估去噪和反演过程。
实验结果
交叉奖励表现(无奖励黑客攻击)
灯光和风格控制
消融实验
结论
论文提出了一种新颖的强化学习 (RL) 框架,用于将文本到图像 (T2I) 模型与细粒度的人类偏好对齐,从而实现细粒度的偏好调整,而无需 l 微调奖励。该方法解决了现有方法的两个主要局限性。首先克服了采样瓶颈,使 RL 算法能够应用于后期清晰图像生成之外。其次重新审视了奖励信号的设计,以实现更灵活、更有效的偏好调节。通过全面的实验评估,证明了我们的方法在图像真实感和与人类审美偏好的契合度方面均优于最先进的 (SOTA) 方法。与 DanceGRPO 相比,该框架将训练效率提高了 75 倍以上。这是第一项系统地增强大规模扩散模型真实感的研究。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论