AI I024: PixelSmile开源：AI人脸表情细粒度编辑，连续控制如Photoshop

2026年4月2日星期四

PixelSmile开源：AI人脸表情细粒度编辑，连续控制如Photoshop

复旦大学与阶跃星辰开源PixelSmile模型，实现人脸细粒度表情编辑。支持12类目标表情的连续强度控制，减少相近情绪混淆，同时保持人物身份一致性。提供FFE数据集与FFE-Bench评估框架，适用于真人及动漫图像。

Tags:

人脸表情编辑

细粒度控制

扩散模型

开源AI

连续生成

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Jiabin Hua，Wei Cheng等

解读：AI生成未来

复旦大学与阶跃星辰最新研究开源，聚焦人脸的细粒度表情编辑，把表情编辑真正做出了 PhotoShop 编辑的感觉！

亮点直击
语义重叠的系统性分析。揭示并形式化了面部表情之间存在的结构化语义重叠，证明这种结构化语义重叠,而非单纯的分类错误,是导致识别与生成式编辑任务失败的主要原因。
数据集与基准测试。构建了FFE数据集,一个包含12类表情类别及连续情感标注的大规模跨领域数据集,并建立了FFE-Bench多维度评估体系，专门用于评估结构混淆性、表情编辑准确性、线性可控性以及表情编辑与身份保留之间的权衡关系。
PixelSmile框架。提出了一种基于扩散模型的新型框架，通过全对称联合训练与文本隐空间插值技术，有效解耦了重叠的情感表征，实现了非纠缠且线性可控的表情编辑。

别的 AI 图像编辑已经很强了，但一旦任务落到人脸的细粒度表情编辑上，问题还是会立刻暴露出来：要么改不动，要么改不对，要么改着改着连脸都一起崩了。最近，复旦大学与阶跃星辰联合推出 PixelSmile，把这件事往前推了一大步。它不仅能够围绕 12 个目标表情做更细致的编辑，还能连续控制表情强度，把表情编辑真正做出了 PhotoShop 编辑的感觉。除此之外，这套能力还延伸到了动漫风格图像，并进一步展示了自然的表情组合效果。

直接看效果

先直接看效果，看看 PixelSmile 到底把表情编辑做到了什么程度。

PixelSmile 不是只能"改出一个表情"，而是已经能把表情编辑做得更细、更稳、更丰富。无论是真人图像还是二次元角色，它都能给出清晰的目标表情变化；更重要的是，这种变化不是一张图突然跳到另一张图，而是可以沿着同一个方向连续推进，直接做出动态视频一样的顺滑效果。

连 Nano Banana Pro 都做不好的难题

除了连续可控之外，PixelSmile 的另一个关键结果，是它更好地处理了细粒度表情里的语义混淆问题。

人脸表情并不是几个完全割裂的按钮。惊讶和恐惧、愤怒和厌恶，本来就很接近，所以很多通用模型一旦进入细粒度表情编辑，就很容易出现两类问题：要么目标表情本身就混了，编辑出来不够准；要么为了把表情做明显，连人物身份也一起带偏了。

PixelSmile 想解决的正是这两个问题。一方面，它希望把目标表情做得更清楚，减少相近情绪之间的串扰；另一方面，它又尽量把人物身份保留下来，而不是靠把整张脸改掉来换取更强的表情变化。

和其他模型放在一起看时，这个差异会更明显。像 Nano Banana Pro 和 GPT-Image-1.5 这样的强通用模型，在细粒度表情编辑里依然会遇到同样的问题：要么表情编辑存在混淆，要么一旦把表情拉强，人物身份一致性就会明显下降。

连续可控，把单图编辑做出了动图效果

单图编辑成多图并不难，难的是让这些图之间真的形成一条自然、平滑、可控的变化曲线。过去很多线性编辑模型在连续表情控制上都会出现各种问题：要么目标表情不够准，要么人脸越改越不像原来的人，要么控制看起来只是机械地加大一个统一程度。PixelSmile 的亮点就在于，它把连续控制、表情准确性和身份保持更稳地放在了一起。

为什么 AI 编辑做不到这种看似简单的要求

人脸表情并不是严格割裂的几个按钮。真实的情绪变化更像一条连续曲线，很多相近情绪天然存在重叠区域。也正因为如此，表情编辑并不像"换个滤镜"那么简单。

如果模型没有真正学会这些细微边界，就很容易出现两个常见问题。第一，目标表情不够准，惊讶里混着恐惧，厌恶里混着愤怒。第二，为了把表情做明显，模型会把脸本身也一起改掉，最后虽然表情变了，但人已经不像原来那个人了。

所以这件事真正难的，从来不是"能不能改出一个表情"，而是能不能把表情改对、改细，还不要把人一起改掉。

除了编辑，还能组合出新表情

除了对单一目标表情做连续控制，PixelSmile 还天然支持表情混合。

这意味着它不是单独记住每个表情独立的样子，而是完全理解了构成表情内基本的五官特征。比如惊讶和开心叠在一起，更接近"惊喜"；厌恶和开心混在一起，也会呈现出一种更微妙的"礼貌的嫌弃"。这类结果更灵活，也更符合真实情绪并不总是完全单一的直觉。

首个统一的表情编辑评估框架

PixelSmile 不只是给出了一个模型，也把这个方向里长期缺失的数据和评测基础设施一起补了起来。

其中，FFE 是首个为细粒度表情编辑提供连续表情分数标注的数据集，不再只用简单的离散标签去描述表情，而是第一次用连续分数去刻画更细的情绪变化。

与之配套的 FFE-Bench，则是首个统一的表情编辑评估框架，不再只看结果图"像不像""好不好看"，而是把表情是否编辑准确、控制是否稳定、身份是否保持这些真正关键的问题，第一次放进同一套标准里去衡量。

更全面的体验

PixelSmile 已经公开了论文、代码、模型、Benchmark 和 Demo，想进一步了解方法细节、直接上手体验，或者看看完整效果，都可以从下面这些入口进入。

项目页：https://ammmob.github.io/PixelSmile/
论文：https://arxiv.org/abs/2603.25728
GitHub：https://github.com/Ammmob/PixelSmile
模型：https://huggingface.co/PixelSmile/PixelSmile
Benchmark：https://huggingface.co/datasets/PixelSmile/FFE-Bench
Demo：https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo

结语

PixelSmile 最吸引人的地方，不只是把人脸表情编辑做得更丰富，而是把这件事真正往可控、可用的方向推了一步。12 个目标表情的连续控制、相近情绪之间更少的混淆、尽量稳定的身份保持，再加上动漫编辑和表情混合这些更直观的能力，让它不再只是"能改表情"，而是开始接近真正可调的人脸表情编辑。

更重要的是，这项工作还同时补上了连续表情分数数据和统一评估框架，让这个方向第一次有了更系统的数据与 Benchmark 支撑。对于关注 AIGC、人像编辑和可控生成的读者来说，PixelSmile 是一个很值得继续关注的工作。

参考文献

[1] PixelSmile: Toward Fine-Grained Facial Expression Editing

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

没有评论:

发表评论

订阅：博文评论 (Atom)