AI I024
2026年4月3日星期五
加州大学×Adobe发布FaceCam:CVPR 2026单视频精准相机控制,无需4D数据实现电影级运镜
FaceCam是加州大学与Adobe联合提出的AI系统,仅需单个输入视频和目标相机轨迹,即可生成具有精确相机控制的人像视频。它采用尺度感知相机条件化方法,通过面部特征点表示目标相机,无需任何4D合成数据训练,即可保持主体身份与运动信息,同时避免几何畸变。适合短视频创作者、AI研究人员及影视制作爱好者,提供高视觉质量且可控的运镜效果。
Tags:
FaceCam仅需单个输入视频和目标相机轨迹即可生成具有精确相机控制的人像视频。我们引入了尺度感知相机条件化方法,通过渲染的面部特征点来表示目标相机,从而实现精确的相机姿态控制。我们的方法在保持高视觉质量的同时,保留了主体身份和运动信息,且无需任何4D合成数据进行训练。
unsetunset相关链接unsetunset
项目:https://www.wlyu.me/FaceCam 论文:https://arxiv.org/pdf/2603.05506 代码:https://github.com/weijielyu/FaceCam
unsetunset论文介绍unsetunset
论文提出了一种名为FaceCam 的系统,该系统能够根据可定制的相机轨迹生成单目人像视频输入。近年来,基于大型视频生成模型的相机控制方法取得了显著进展,但由于相机表示尺度模糊或 3D 重建误差,人像视频中常常会出现几何畸变和视觉伪影。为了克服这些局限性,我们提出了一种针对人脸的尺度感知 相机变换表示方法,该方法无需依赖 3D 先验信息即可提供确定性的条件。我们使用多视角演播室拍摄视频和自然场景下的单目视频训练视频生成模型,并引入了两种相机控制数据生成策略: 合成相机运动和 多镜头拼接,以便在推理时能够利用静态训练相机,同时泛化到动态连续的相机轨迹。在 Ava-256 数据集和各种自然场景视频上的实验表明, FaceCam在相机可控性、视觉质量、身份保持和运动保持方面均表现出色。
unsetunset方法unsetunset
尺度感知相机调节
尺度模糊的相机表示。现有的相机控制方法使用外部参数对相机进行编码。在单目图像捕捉中,度量深度不可观测,场景只能通过全局相似性来确定,而尺度和平移均未知。因此,同一幅图像可以呈现无限多种三维构型,使得从目标姿态重新渲染成为欠定问题,并导致漂移和控制性差。
尺度感知相机表示。我们通过图像空间点对应关系对相机进行编码。利用二维对应关系,可以估计两个未标定视图之间的基本矩阵,并结合已知的相机内参,恢复全局尺度范围内的相对位姿。人像视频自然地通过面部特征点提供了此类对应关系,因此我们使用栅格化的二维特征点图作为相机表示。
训练数据生成
使用仅包含静态摄像机的多视角人体视频数据集,在演播室拍摄的数据集上训练我们的网络。为了在推理阶段实现动态摄像机轨迹,我们引入了两种数据生成策略:合成摄像机运动和多镜头拼接。训练阶段通过多镜头拼接产生的非连续摄像机姿态变化,在推理阶段能够很好地泛化为连续的摄像机轨迹,而无需依赖任何用于训练的4D合成数据。
训练和推理流程
训练过程。从目标视频的锚帧中提取面部特征点作为相机条件。源视频、目标视频和相机条件通过变分自编码器(VAE)编码成潜在变量,然后输入到扩散变换器(DTI)中预测目标潜在变量,并使用流匹配损失函数进行优化。
推理过程。 使用一个生成的通用头部三维模型,将其沿目标摄像机轨迹渲染,并检测面部特征点作为摄像机运动状态。扩散变换器的输出潜在值由变分自编码器(VAE)解码器解码,从而获得摄像机控制的视频。我们观察到,尽管该模型仅使用不连续的摄像机姿态变化进行训练,但在推理过程中,它能够泛化到连续的摄像机轨迹。
unsetunset结论unsetunset
论文进一步提出了一种数据生成流程,该流程从静态多视角工作室拍摄的视频和未标记的自然场景视频中引导,通过合成摄像机运动和多镜头拼接,在推理过程中实现连续的摄像机轨迹,而无需显式的 3D 监督。在 Ava-256 数据集和各种自然场景视频上的实验表明,该系统具有最先进的摄像机可控性、更强的身份和运动保持能力以及更高的视觉质量,验证了我们的表示和数据策略。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
阿里Wan2。7文生图实测:活人感面部细节+3K超长文本+框选修改
阿里发布Wan2.7-image文生图模型,实测支持3K Token超长文本渲染(准确生成《出师表》全文),面部细节高精度定制实现"活人感"效果,避免千人一面。新增调色盘功能可提取参考图主色调,框选修改实现精准局部重绘。适合设计师、电商团队及AI创作者提升生图可控性与效率。
Tags:
2026年文生图这条赛道,已经看的人都有点麻了。
不是因为没啥进步,而是因为更新普遍太过密集。
好像每隔两周就会有新模型出来,说自己刷了XX榜,超了某某海外对手。
但实际体验下来,面对大多数文生图模型,我其实并没有多么强烈的更新感触。
因为大多数的更新,无非是模型本身的精度提高,生图效果在前代基础上更好看一点点的常规版本迭代。
直到今天,阿里突然把 Wan2.7-image的发布页面推到我面前。
我才忽然意识到,原来文生图它还能再卷,甚至是朝着对标基础大模型的卷。
为什么这么说?
因为阿里这回好像是吃了秤砣铁了心。
非得对标AI基础大模型,开始卷起了上下文长度!
直接给自家模型配置直接拉满到3K Token的超长文本,以及一大堆在前代基础上增加的全新功能。
所以我也直接去实测了一遍,它的几个核心功能及真实场景。
AI生图的活人感
这次阿里宣称的活人感这个词,说实话,我一开始是不太信的。
不是针对 Wan2.7-image,是整个 AI 生图行业看多后,会感觉有一种诡异的标准感。
无论是眼距鼻梁,还是轮廓皮肤。
就是你看完一张AI图,你再看十张,会感觉人物帅的太标准,美的也太标准,反而有种说不上来的诡异感。
举个栗子,我先用一套固定的提示词,先去测了一手nano banana,
说实话,出来的效果虽说不难看,多瞅瞅还有点小帅。
但我是真没怎么感觉到,提示词中写的所谓鹅蛋脸+丹凤眼。
因为我一开始的想法,是想要仿照那种XX补课班的名师天团,就是那种教育机构会挂在宣传主页上的那种。
背景贼拉干净,打光专业,然后人物效果气质各异,还不能千人一面。
但nano bananan出图给我的第一感觉,某公司年轻的行政办公主任,而且看久了确实有点不像真人。
五官有些过度平均,笑容略僵,反倒没了活人的味道。
于是,我又测了一手Wan2.7-image的效果,还是刚刚那一套提示词,没有添加任何多余修饰。
没想到,这回的效果反倒是让我有些意外。
同一套提示词,四张图,几乎每张图的鹅蛋脸+丹凤眼,都带着比较独特的面部特点。
尤其是我最满意的这张,颇有一种大力王憋笑的奇妙感觉。
然后,我又用这张图测了一下生成富有真实感的生活照,阿里wan2.7的效果也是同样出色。
这下,名师从工作照再到生活照,连朋友圈塑造也有了🤣。
当然,这是得益于阿里Wan2.7-image这回的更新,针对精准的面部细节做了更高精度的细节优化。
同时,不光是在前代模型的基础上做了迭代,甚至开始支持从骨相,眼眸到五官细微处的全方位高度定制。
可以像调参数一样,一步步把脸型调到你想要的方向。
也就是说你描述的越具体,理解的越精准,生成出的才是你真正想要的那张脸,而不是单纯符合模型平均值的标准脸形。
说的再通俗一些,就是过去你写面部棱角分明,高颜值帅气。
但现在,你可以具体到比如脸型大小,眼睛形状,颧骨高度,鼻梁大小,皮肤肤质,胡子拉碴等等等等。
而且我是真觉得,阿里这回绝对是针对亚洲人面孔做了单独优化。
有些图真感觉能直接挂小红书,一键打造赛博人设。
甚至针对电商团队,像这回更新的多主体一致性,也最大⽀持到了9张图参考。
像什么样板照,商拍图效果更是直接轻松拿捏。
针对一些细节,我直接一句简单要求,不加多余修饰
你还真别说,就这么简单一句拍出来模特感效果确实挺不错。
但这下活人感是拉满了,可顺带着连真人模特一块卷死😭。
3K超长文本
然后是这回的超长文本渲染,
实话讲,先不提文本长度,单是AI生图的中文文字渲染问题,都是这个行业长期以来的老大难。
内容模糊混乱,动不动直接漏写错写的情况,我已经都习以为常了。
甚至连 Nano Banana 这种文字表现相对稳定的模型,中文渲染也时不时出个岔子。
然后Wan2.7-image 这次宣称,把文本渲染上限直接拉满到了 3K Token,整整一页 A4 纸的文字量要让文生图实现.......
但既然它都这么说了,那我直接把《出师表》全文先塞进提示词里。
先测了一手国产某大厂模型,不出所料的。
出图未半,而中道崩殂,再次不符合平台规则,彻底红温。
然后换到 Gemini,测了一手 Nano Banana。
开头几句还正常,字形苍劲有力,然后到了后半段,哥们你确定真的写全了吗?
后面的字我已经念都念不出来了,就算是草书,也不能不说人话吧。
最后,Wan2.7-image。
依旧同一套提示词,没有添加任何多余修饰。
看到结果后,我着实松了一口气。
全文扎扎实实出来,每个字都能认,没有乱码,没有缺字,排版也整洁。
认真对着原文逐行比了一遍,真的是越看越顺心。
所以,课本里的文章配图,啥时候考虑换一换?
真的,AI生图配合原文,意境真的直接拉满了好吧。
然后还有英文文本的测试,这个真不是我用word打的,是直接让它生成的。
各位自行评价一下,反正我是觉得,绝对是比我排版强得多。
所以3K超长文本所言非虚,是真的实打实效果拉满。
调色盘色彩
然后是这次wan2.7升级里,这个专门内置的新功能,调色盘。
说实话,这个功能我是真的很意外,
简单来说,就是它可以根据参考图的颜色,提取出画面的主色调以及百分占比。
除了内置的推荐配色外,还可以根据上传的图片颜色来精准定位并作为色彩参考标准,保持视觉一致性。
什么意思呢?拿一个简单的点心宣传图为例,
在我控制配色之前,同一套提示词AI出的点心图整体色彩完全随机。
即便你在提示词中给出具体的色号,也很难把控整体的颜色占比。
但现在你可以直接用各种图片作为色彩参考。
然后直接提取出主色调的 RGB 构成,支持最大8块颜色主要颜色占比数。
尝试用这套配色再生成一张点心宣传图时,AI生图的小味一下子就对了!
对设计师来说,以后对接的甲方,即便它有严格的品牌色规范。
有了这个功能,就不需要靠运气来抽卡颜色,对工作来说那绝对是大大的减负。
阿里这回肯定是从自家美工那儿,认真挖掘过行业的真实痛点,才专门设计出来了这么一个功能。
这点必须得给个大大的好评。
框选修改
然后就是这个框选功能,精确制导修改。
框哪儿改哪儿,比如我给他一张图,要求给这颗光秃秃的山旁加上一颗苍松。
很快啊,立马就给我加上了一颗毫无违和感的苍松。
无论是构图、光影、笔墨风格全部对上了,完全不像是硬贴上去。
当然,这个玩法还可以直接拓展到前面提到的真人效果图上。
比如给人物搭配上一条围巾。
或者换一个其他样式的包包。
真的是指哪儿打哪儿。
不需要在上一个版本的基础上反复抽卡,更不需要重写一遍提示词。
只是框一下,说一句具体要求,或者再垫一张图,立马就改好了。
说真的,多少文生图厂商在这个方向上做了这么久,到现在也没能把这个功能做稳。
但阿里这回不光效果稳定,用起来也是真的省时、省力、省心。
这种体验上的丝滑,才是真正对创作者友好的产品逻辑。
絮叨
所以,阿里这次更新,真正的价值在哪里?
我的答案是:比起眼前的技术领先,更重要的是它展示了 AI 如何重塑创作的权力。
而这一局,阿里确实再次先走了一步。
但从另一层面来看,当大模型能力越来越强,文生图的门槛低到极点。
这条赛道最后卷掉的,或许并不是设计师,而是我不懂设计这个借口。
人人皆可烹饪,人人皆可生图。
而设计这件事,或许也正从一门职业,变成我们每个人本该具备的基础能力。
如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我们下期再见~
-
本文汇总2026年3月23日AI行业重要资讯与开源项目,涵盖大模型地缘政治推理、智能体重塑软件工程、千问App AI打车、OpenAI大规模扩招、MiniMax全模态订阅等20余条动态,并收录Flowcoin、Tala等6个开源项目,适合AI从业者快速掌握当日行业进展。 Tags...
-
点击上方卡片关注 不要错过精彩文章 🎉 读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最希望,能给大家带来不一样的搭建思路和方法。 点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!...