2026年4月2日星期四

PixelSmile开源:AI人脸表情细粒度编辑,连续控制如Photoshop

复旦大学与阶跃星辰开源PixelSmile模型,实现人脸细粒度表情编辑。支持12类目标表情的连续强度控制,减少相近情绪混淆,同时保持人物身份一致性。提供FFE数据集与FFE-Bench评估框架,适用于真人及动漫图像。

Tags:

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Jiabin Hua,Wei Cheng等

解读:AI生成未来
复旦大学与阶跃星辰最新研究开源,聚焦人脸的细粒度表情编辑,把表情编辑真正做出了 PhotoShop 编辑的感觉!
图片

亮点直击

  • 语义重叠的系统性分析。揭示并形式化了面部表情之间存在的结构化语义重叠,证明这种结构化语义重叠,而非单纯的分类错误,是导致识别与生成式编辑任务失败的主要原因。
  • 数据集与基准测试。构建了FFE数据集,一个包含12类表情类别及连续情感标注的大规模跨领域数据集,并建立了FFE-Bench多维度评估体系,专门用于评估结构混淆性、表情编辑准确性、线性可控性以及表情编辑与身份保留之间的权衡关系。
  • PixelSmile框架。提出了一种基于扩散模型的新型框架,通过全对称联合训练与文本隐空间插值技术,有效解耦了重叠的情感表征,实现了非纠缠且线性可控的表情编辑。

别的 AI 图像编辑已经很强了,但一旦任务落到人脸的细粒度表情编辑上,问题还是会立刻暴露出来:要么改不动,要么改不对,要么改着改着连脸都一起崩了。最近,复旦大学与阶跃星辰联合推出 PixelSmile,把这件事往前推了一大步。它不仅能够围绕 12 个目标表情做更细致的编辑,还能连续控制表情强度,把表情编辑真正做出了 PhotoShop 编辑的感觉。除此之外,这套能力还延伸到了动漫风格图像,并进一步展示了自然的表情组合效果。

图片

直接看效果

先直接看效果,看看 PixelSmile 到底把表情编辑做到了什么程度。

图片

PixelSmile 不是只能"改出一个表情",而是已经能把表情编辑做得更细、更稳、更丰富。无论是真人图像还是二次元角色,它都能给出清晰的目标表情变化;更重要的是,这种变化不是一张图突然跳到另一张图,而是可以沿着同一个方向连续推进,直接做出动态视频一样的顺滑效果。

连 Nano Banana Pro 都做不好的难题

除了连续可控之外,PixelSmile 的另一个关键结果,是它更好地处理了细粒度表情里的语义混淆问题。

人脸表情并不是几个完全割裂的按钮。惊讶和恐惧、愤怒和厌恶,本来就很接近,所以很多通用模型一旦进入细粒度表情编辑,就很容易出现两类问题:要么目标表情本身就混了,编辑出来不够准;要么为了把表情做明显,连人物身份也一起带偏了。

PixelSmile 想解决的正是这两个问题。一方面,它希望把目标表情做得更清楚,减少相近情绪之间的串扰;另一方面,它又尽量把人物身份保留下来,而不是靠把整张脸改掉来换取更强的表情变化。

图片

和其他模型放在一起看时,这个差异会更明显。像 Nano Banana Pro 和 GPT-Image-1.5 这样的强通用模型,在细粒度表情编辑里依然会遇到同样的问题:要么表情编辑存在混淆,要么一旦把表情拉强,人物身份一致性就会明显下降。

连续可控,把单图编辑做出了动图效果

单图编辑成多图并不难,难的是让这些图之间真的形成一条自然、平滑、可控的变化曲线。过去很多线性编辑模型在连续表情控制上都会出现各种问题:要么目标表情不够准,要么人脸越改越不像原来的人,要么控制看起来只是机械地加大一个统一程度。PixelSmile 的亮点就在于,它把连续控制、表情准确性和身份保持更稳地放在了一起。

图片

为什么 AI 编辑做不到这种看似简单的要求

人脸表情并不是严格割裂的几个按钮。真实的情绪变化更像一条连续曲线,很多相近情绪天然存在重叠区域。也正因为如此,表情编辑并不像"换个滤镜"那么简单。

如果模型没有真正学会这些细微边界,就很容易出现两个常见问题。第一,目标表情不够准,惊讶里混着恐惧,厌恶里混着愤怒。第二,为了把表情做明显,模型会把脸本身也一起改掉,最后虽然表情变了,但人已经不像原来那个人了。

图片

所以这件事真正难的,从来不是"能不能改出一个表情",而是能不能把表情改对、改细,还不要把人一起改掉。

除了编辑,还能组合出新表情

除了对单一目标表情做连续控制,PixelSmile 还天然支持表情混合。

这意味着它不是单独记住每个表情独立的样子,而是完全理解了构成表情内基本的五官特征。比如惊讶和开心叠在一起,更接近"惊喜";厌恶和开心混在一起,也会呈现出一种更微妙的"礼貌的嫌弃"。这类结果更灵活,也更符合真实情绪并不总是完全单一的直觉。

图片

首个统一的表情编辑评估框架

PixelSmile 不只是给出了一个模型,也把这个方向里长期缺失的数据和评测基础设施一起补了起来。

其中,FFE 是首个为细粒度表情编辑提供连续表情分数标注的数据集,不再只用简单的离散标签去描述表情,而是第一次用连续分数去刻画更细的情绪变化。

与之配套的 FFE-Bench,则是首个统一的表情编辑评估框架,不再只看结果图"像不像""好不好看",而是把表情是否编辑准确、控制是否稳定、身份是否保持这些真正关键的问题,第一次放进同一套标准里去衡量。

图片
图片

更全面的体验

PixelSmile 已经公开了论文、代码、模型、Benchmark 和 Demo,想进一步了解方法细节、直接上手体验,或者看看完整效果,都可以从下面这些入口进入。

  • 项目页:https://ammmob.github.io/PixelSmile/
  • 论文:https://arxiv.org/abs/2603.25728
  • GitHub:https://github.com/Ammmob/PixelSmile
  • 模型:https://huggingface.co/PixelSmile/PixelSmile
  • Benchmark:https://huggingface.co/datasets/PixelSmile/FFE-Bench
  • Demo:https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo

结语

PixelSmile 最吸引人的地方,不只是把人脸表情编辑做得更丰富,而是把这件事真正往可控、可用的方向推了一步。12 个目标表情的连续控制、相近情绪之间更少的混淆、尽量稳定的身份保持,再加上动漫编辑和表情混合这些更直观的能力,让它不再只是"能改表情",而是开始接近真正可调的人脸表情编辑。

更重要的是,这项工作还同时补上了连续表情分数数据和统一评估框架,让这个方向第一次有了更系统的数据与 Benchmark 支撑。对于关注 AIGC、人像编辑和可控生成的读者来说,PixelSmile 是一个很值得继续关注的工作。

参考文献

[1] PixelSmile: Toward Fine-Grained Facial Expression Editing

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

一键生成20秒长视频

Tags: