2025年12月18日星期四

AI演技吊打流量明星?字节上线Seedance 1。5 Pro最新实测!

要说今年 AI + 影视方向哪个赛道最火?

我必须提名一个 AI 短剧。

短剧迎来爆发式增长,去年微短剧市场规模首超电影票房,全国市场规模已达 505 亿,今年有望攀升至 634.3 亿。

短剧爆火的同时,AI 短剧、AI 漫剧也正在得到越来越多关注。

图片

今年已经有好几部播放量破亿,大家都有刷到吗?

图片
图片

甚至连 TVB 也推出了自己的首部 AI 短剧。

图片

这波浪潮背后,AI 视频能力的不断升级是核心推动力。

比如人物情绪表达方面:

从开心期待,到错愕、不敢相信,再到最后的失落,表情自然真实,情绪之间的转换递进也很流畅。

这不比某些流量明星的演技好?而且还不用担心塌房。

不仅如此,还可以指定台词对口型,比如小时代名场面:

除了表演、台词之外,音效也可以直接和画面同步生成,一键直出。

游戏操作声、风雨声、海浪声、放东西的声音以及舒缓的背景音,一次性就和画面配好了,完全用不着后期。

这些视频,都是我用火山引擎最新发布的豆包视频生成模型 Seedance 1.5 pro 创作的。

图片

和 Seedance 1.0 重点改善模型表现的"下限"不同,Seedance 1.5 pro 主打的卖点是:支持音画同步输出、多人多语言对白配音,具备更强大的影视级叙事张力,满足影视、漫剧、电商、广告的高阶创作需求。

话不多说,一起来看更多实测案例~

图片

一、实测case

叙事表现力

Seedance 1.5 pro 在人物情绪理解和表达上,提升非常明显。

它不仅能够通过提示词解析出复杂的人类情感,还能通过人物表情、场景、语音等多个层面准确丰富地演出来。

来看一个例子。

室内中景镜头,昏暗的客厅。一位年轻母亲推门进屋,肩膀因疲惫而耷拉着,头发散乱,脸上带着长途通勤的疲惫。她发现桌上放着一个歪歪扭扭的手工蛋糕。特写镜头捕捉微表情:她先是愣住,看着蛋糕慢慢坐下来,眼眶慢慢变红,嘴唇不受控制地轻微抽动。她发出一声带着鼻音的、颤抖的笑声,眼神中交织着极度的体力透支和深沉的母爱。她用指尖轻触纸条,仿佛那是稀世珍宝。暖色调光影,细腻的皮肤质感。

开头人物一股要死不活的班味,把包一扔就想在沙发上坐下,简直就是我下班回家的真实写照。

接着人物看到暖心纸条惊喜吐出一口气,从疲惫转为感动和惊喜,情感变化非常自然。

最后镜头缓缓推进,展示蛋糕和纸条细节。

即使不看提示词,是不是也能把故事情节猜个大概?

再来看网友用它做的反派视频,压迫感拉满了。

大笑的时候人物脸部并不会崩,从癫狂大笑到后面的威胁,真就一秒切换,收放自如了。

相信很多这种强情绪张力的戏,很多流量演员都是演不出来的。

再来一个难度更高的多场景情节。

以第三人称视角,讲述了一个关于放弃与重拾希望的短剧。第1个镜头[0-3秒]一个男孩在操场的角落独自坐着,低头望着手中的信纸,随后轻轻叹气,眼神中透露出迷茫。第2个镜头[3-5秒]硬切转场,聚焦于男孩的眼睛,带着失落和无助。第3个镜头[5-10秒]硬切转场,场景转至一间简朴的教室。一个女孩眼神温和而坚定,穿着朴素的衣着,面带温和而坚定的笑容,走到男孩的身边安慰他。男孩眼里是感动和希望。真人。

即使是这样近距离的脸部特写,也能以假乱真,面部的肌理、纹路都还原的很自然。

图片

人物走路衣物摩擦的声音、坐下的声音,中间铺入的背景音乐和台词都卡的很精准,口型也到位,一点都不出戏。

只是这里表达迷茫和无助的近景和特写镜头,人物都选择了叹气的方式,显得有些重复。

除了多场景,模型还能实现多人物、多语言的对话。

模型原生支持中英日韩在内的多种语言,还覆盖国内各种方言,比如四川话、粤语、上海话、台湾腔等,整活必备。

电影感,魔幻现实主义风格。一个中国小男孩站在温馨明亮的旅行社里,手里拿着传单一脸困惑,用普通话问春节去哪玩。旁边一只拟人化的大熊猫挥舞着竹子,用四川话热情地推荐四川火锅和竹子。接着镜头微移,一个时尚的日本男人出现,用日语推荐北海道的螃蟹。最后,一个时髦的韩国女孩从左边探出头,端着炒年糕,用韩语推荐首尔。气氛喜庆、温暖幽默。4K画质,人物面部特征鲜明。

多人物能做了,伟大的群像还会远吗?

图片

视听高度同步

还记得最开始玩 AI 视频的时候生成的都是哑巴视频,后期配音对口型非常麻烦。

现在 Seedance 1.5 pro 不仅能自动生成语音,还能实现视听高度同步。其实从前面的案例中,我们已经能感受到它音画高精同步的效果。

来个赛车测试。


图片

引擎声、轮胎溅起来的水波声随着距离改变,非常真实。

如果对自动生成的音效不满意,还能进一步编辑,直接点击 AI 音效。

图片

会重新生成 3 段不同声音效果以供选择。

图片

再来一个节奏更快,声音更丰富的。

一个快节奏的武侠短片片段。月光下的竹林,低角度仰拍两位古代侠客(一男一女)正在竹梢上飞跃交锋,竹叶随风簌簌落下。他们剪影般的身影掠过月亮。画面充满动态模糊。

脚步声、刀剑声、衣袂随风飘动的声音,还有人物的喊声,在节奏很快的情况下也能和画面、人物动作完美契合。

并且根据提示词("人物在竹梢上飞跃交锋,剪影般的身影掠过月亮"),运动细节捕捉的也很到位。

但是可以看到视频中人物一致性上有些问题,从黑衣变成白衣,一手持剑变成两手都有。

最后来看看小熊猫跑步。

二、更多信息

评测成绩

看完了模型的实测,来看看它各维度评测的成绩怎么样。

视频多维度对比雷达图:

图片

从评测成绩上可以看到它各方面能力比较均衡,在文生视频方面的美学和对齐上甚至超过了 Veo 3.1 。

音频多维度对比雷达图:

图片

音频生成能力方面的成绩就可以说是全方位碾压了,没有一个短板,平平整整的八边形战士。

接着,我们一起来看看模型的技术报告,看它是怎么实现这样的成绩的。

完整技术报告指路:

https://arxiv.org/pdf/2512.13507 

项目主页:

https://seed.bytedance.com/seedance1_5_pro

技术细节

模型核心亮点之一在于它创新的原生音视频联合生成架构。它不是先生成视频再生成声音,而是视频流和音频流在生成过程中就在底层进行深度交互。

它通过双分支 Diffusion Transformer 分别建模视频流和音频流,再使用一个跨模态联合模块对这两条流进行持续对齐。

这样的做法确保了二者在时间上的精确同步以及在语义上的一致性,显著提升了成片可用率。

整个训练和推理的 pipeline 如下:

图片

模型使用高质量的音频视频数据集进行监督微调,随后引入基于人类反馈的强化学习,专门针对音视频场景进行优化。

在推理阶段,模型在多阶段蒸馏框架上进行优化,大幅减少了生成过程中所需的函数评估次数。通过集成推理基础设施优化,比如量化和并行化,最终在保持模型性能的同时,实现了端到端超过 10× 的加速度。

三、最后

不得不说,Seedance 1.5 pro 影视级叙事能力又上了个 level 。

这几天测评下来,最让我惊艳的还是在模型音频完全原生嵌入画面的能力,各种音效都能准确生成,细节丰富,非常有沉浸感。

还有模型对人物情感理解和表达的能力也有了很大的提升,能够表演出更加复杂细腻的情感,在情绪之间的过渡也更加丝滑。

无论你是从事影视、漫剧,还是电商、广告,都推荐你上手试试。

模型已经上线即梦,有多种模式,各种画幅比例和时长可以设置。

图片
图片
图片

个人用户还可以在豆包 APP 、火山方舟体验中心体验。API 调用将在 12 月 23 号上线火山引擎,企业用户可以蹲一波~

图片

指路链接:

https://exp.volcengine.com/ark/vision?launch=seedance

除了视频生成模型,字节又悄悄搞了波大的。

图片

火山引擎年度技术盛会 FORCE 原动力大会,seedance 1.5 pro 和豆包大模型 1.8 同步上新。

图片
图片

还有更多关于 Agent 开发工具升级、Agent 生态扩容和各行业 AI 落地实践分享,感兴趣的小伙伴可以去看看~

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

火山发布会王炸!豆包Seedance 1。5 Pro实测:吊打万相2。6?

点击上方卡片关注 不要错过精彩文章📌持续更新有关Agent的最新搭建思路和工作流分享,希望能给您带来帮助,点 点击上方卡片关注 不要错过精彩文章 📌 持续更新有关Agent的最新搭建思路和工作流分享,希望能给您带来帮助,点一点上方的🔵蓝色小字关注,你的支持是我最大的动力...