AI I024: 别用Sora了，百度AI视频已杀疯！好莱坞级大片封神，短剧广告彻底颠覆

2025年7月3日星期四

别用Sora了，百度AI视频已杀疯！好莱坞级大片封神，短剧广告彻底颠覆

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

转载自：新智元

如有侵权，联系删稿

就在刚刚，百度AI Day开放日上，直接放出双重暴击！

今天，百度搜索宣布进行十年来最大改版，从搜索框、搜索结果到搜索生态全面革新。

这波操作，让搜索体验原地起飞。

同时，百度商业研发团队自研的多模态生成大模型「MuseSteamer」震撼登场，搭配AI视频平台「绘想」同步上线，让视频创作直接迈入电影级AI时代。

注意，这个模型可不是简单的图片转视频，而是融合音效、人声、节奏、镜头语言的全流程导演——

它能支持连续10s的动态视频，画质直充电影级水准，还能灵活控制场景、动作、镜头感，甚至支持音视一体化的生成，可控力极强，一气呵成！

而性价比，更是直接打穿天花板，同时速度也极快，简直比灵感还要先落地，可以说是极致丝滑。

这次正式发布的是720p的Turbo版，而更轻量的Lite版、1080p的Pro版以及全系列的有声版，也已经在路上了。

这个多档位矩阵，可以说是全方位满足了用户的各种需要。

· Lite：720p，生成速度超快，仅需30s，价格极有竞争力，适合追求极致性价比的用户

· Turbo：720p，擅长生成人物、动漫，人物动作一致性优秀，运动幅度大，表情遵循优秀，表现力极强，适合大部分创作者

· Pro：1080p，电影级画质及运镜，极大提升表现力，适合专业创作者、影视生产机构

· 有声版：各清晰度均支持一体化生成音效及台词，适合对同期声和画面有极致追求的用户

从此，短剧、广告、动画、二创都不需要再「烧钱烧脑」，只需动动手指，AI替你分镜、剪辑、配乐，一条龙搞定！

全网首测，1080p电影级运镜

现在，进入「绘想」平台，每个人皆可开启AI图生视频的无限创作了。

传送门：https://huixiang.baidu.com

Turbo版

Turbo版在人物动作一致性上，表现非常亮眼。

特别是，模型非常擅长生成人物、动漫。不仅运动幅度大，在表情遵循与表现力方面，极其出色。

两位科学家在电脑前，专注地凝视着屏幕讨论工作。男女主表情自然，宛如好莱坞大片中的一幕。

暮色中，一对年轻情侣牵手漫步，散发着浪漫与温馨的气息。

甚至，连他们之间眼神交流的细节，MuseSteamer都刻画出来了。

接下来，整个活儿。

最近小扎和奥特曼抢人大战太激烈了，OpenAI近十位顶级研究员离开，此时此刻，他们恨不得手撕了对方。

这段汽车驶过峡谷的画面，无论是车辆的运动轨迹还是轮胎后的扬尘，都呈现出逼真的物理运动规律。

整段视频具有高度的视觉连续性，给人一种电影大片级镜头构图的质感，看起来就像在上演一场速度与激情的对决战。

再上传一张天团老大Zimomo的图片。

一瞬间，AI让Zimomo活灵活现，大眼睛萌翻全场。

这四个像欧洲历史人物的动画角色，表现力非常丰富。有的翻白眼，有的双手叉在胸前，有的在争论事情。

而这段酷似宫崎骏镜头的完美构图，直接把AI视频拉到了新高度。

精准的色彩渲染、极致的天空反射、镜面对称的美感，无不显示出模型对风格属性和镜头语言强大的把控能力。

再来看，一头鲸鱼优雅地跃出湛蓝的海面，它的身躯在夕阳的余晖下泛着柔和的光泽，增添了几分神秘与诗意。

下面，是更多动物系的惊艳demo生成。

左右滑动查看

色香诱人的美食铺陈在洁白的大理石台上，镜头由远及近，令人垂涎。

一张泛黄破旧的卡牌，悬浮在一座废弃房间中，周围闪烁着金色的光，透着几分神秘与奇幻。

这个晶莹剔透的红色魔法石，同样给人一种蕴藏着无尽能力的神秘感。

闪电侠向前奔跑，闪电如同电流般在他身体周围迸发，这些光效与画面完美融合，不得不说太有质感了。

Pro版

Pro版最大的特点，便是可以生成1080p视频，还是电影级画质的那种。

主体、背景、氛围、光影以及镜头语言都是一绝，画面细节极其考究，对写实、电影感、赛博朋克、复古胶片、动漫风格等都是轻松拿捏。

下图中精灵少女清澈如星的大眼睛，带着一丝好奇与纯真，迪士尼风的感觉一下子就来了。

另一个同系列的AI视频，画质细腻感、人物表现张力，令人叹服。

再来看一个写实镜头，几个鲜红的苹果在粉红色沙底水池中优雅坠落，溅起的水花与气泡，物理效果把控非常出色。

一位身着粉色服装的人，自由悬浮在无垠的宇宙中，周围漂浮着巨大的水晶球，映衬出星球，营造出太空浩瀚的氛围。

现代与古典的交融，MuseSteamer也可以很好地拿捏。

一位小天使安详地栖息在柔软白云之上，专注地敲着笔记本电脑。

有声版

而对同期声和画面有极致追求的用户，更是有福了。

要知道，现在市面上的大部分视频模型，声音基本都是后配的，这就让制作流程极为繁琐。

这次MuseSteamer的有声版，能直接支持一体化生成音效和台词，大大加速影视内容生成的工作流。

如下，上传一张在沙漠上飞驰的赛车图片。

MuseSteamer原生直出配音，赛车的引擎爆发出撕裂空气和磨擦沙漠的轰鸣声，漫天飞舞的扬沙，以及由远及近又由近及远的运镜，背景音空间层次感，毫不违和。

更令人惊喜的是，它还能自动为AI视频同步生成人声，还是中文的那种。

一场星际大战后，女主身后一片废墟，满目苍痍。她坚定地说道，「我希望从今天开始，不再有战争」。

不仅如此，MuseSteamer在音乐配音上，也独具天分。

一位钢琴家的弹奏，节奏张弛有度，活泼的旋律，如精灵在琴键上跳舞。

再来一种不同风格的。

DJ师在台上操作混音台，机械感的抓耳曲风，听着让人激情澎湃。

五大技术亮点

不仅是演示酷炫，MuseSteamer是实打实地拿下过榜单第一。

5月17日，海外权威视频生成评测榜单VBench Leaderboard中，MuseSteamer以总分89.38%的成绩，登上VBench-I2V图生视频榜全球第一。

Steamer-I2V即为MuseSteamer

为什么MuseSteamer的效果会如此惊人？

首先，它对中文语义有着极为精准的理解。

可以说，数据质量决定了模型的能力上限。MuseSteamer在数据采集与清洗方面做了大量工作，构建了亿级规模的视频切片数据库。

因此，通过「筛选-净化-配比」三级数据优化体系，就能确保文本指令与视觉元素的语义对齐精度。

具体来说，团队构建了三级视频类别标签体系，覆盖了人物、自然、食物、动物、建筑、交通工具、设计合成等主要类别，覆盖了完备的数据场景。

而在数百种的三级标签体系基础上，团队又进行了细粒度的场景划分。因为进一步采用隐式聚类算法，对视频进行了空间划分与样本均衡，就降低了高频易学样本比例，提升了长尾难学样本比例。

第二，它有着极其精细化的视频结构化描述语言。

与业界主流视频生成模型不同，MuseSteamer的视频描述采用了结构化方式构建，除了包含画面细节的描述，如主体、背景、运动、氛围、光影等，还进一步引入了镜头语言、主体运动强度、风格描述。

比如在风格描述上，就覆盖了写实、电影感、赛博朋克、复古胶片、极简、动漫风格等主要风格类型，满足了用户的多种需求。

因为对视频描述进行了精细化结构化设计，就保障了模型对画面细节、主体运动轨迹、风格属性和镜头语言的遵循。

而支持多模态条件输入——包括中文文本提示、参考图像和引导信号，就能确保模型与特定的创意意图或功能需求保持一致。

第三，就是电影级动态美学生成的高清画质。

团队对时间一致性、电影镜头构图和运动规律性进行了针对性优化，确保生成视频在整个视频序列中展现出优秀的逻辑连贯性和视觉连续性。

因此，模型可生成分辨率高达1080P的高清视频，还能呈现出流畅的过渡效果与逼真的物理运动规律。

具体来说，MuseSteamer在建模方式上采用了业界主流的DiT架构，基于扩散Transformer范式中的Flow Matching框架设计。

通过3D Full Attention结构建模视频噪声片间的时空位置关系，提升了全局感知能力。

在多阶段监督式训练、美学条件控制调优、基于多目标反馈的强化学习调优、提示词增强技术等四个方面，团队在训练过程中还做了更加精细化的设计。

第四，就是它能支持模型的一体化生成有声版。

团队构建了一套完整的有声视频生成能力，围绕「谁在说、怎么说、在什么环境下说」三个关键问题，通过多人自动化对齐编排、音视对齐Refiner，实现了视觉信息、高还原度的人声与环境音自动生成能力。

因为团队提出了多模态编排与音视频一体化学习模型，能让视觉、音频信号以端到端方式充分学习与对齐，就确保了对话、背景音、音乐等多轨音频与视觉内容自然融合，增强观感的沉浸感和真实感。

此外，团队还针对模型进行了工程优化，主要涵盖了数据、训练及推理三大核心板块。

百度，要帮广大创作者突破瓶颈

如今，生成式AI这把火已经是越烧越旺了，从智能问答到自然语言翻译，从搜索引擎到推荐系统，LLM已经融入了我们生活的每个角落。

而内容创作的下一个爆发口之一，无疑就是视频生成领域。

自OpenAI于2024年推出Sora后，这股「AI拍大片」的风潮就已经迅速席卷全球。

国内的HunyuanVideo、Wan2.1、SeaWeed、CogVideoX等项目也是纷纷登场，多模态开源模型百花齐放，社区合作如火如荼。

如今，模型生成的视频质量已经不输专业团队，AI俨然已经成为影像创意的新导演。

而此次MuseSteamer的发布，无疑是百度商业对「AI视频创作」的一次重大提速。

而这背后，正是源于百度商业在生成式AI上持续深耕的积累。

在创意、召回、排序等场景，百度的生成式AI已经有了深度应用和业务赋能，成为商业收入增长的新动力。

在创意制作领域，百度商业发布的国内首个多模态AIGC创意生成平台——擎舵，已经可以生成面向广告创意的图片和视频片段，解决了传统富媒体广告素材制作的高门槛、高成本的痛点。

具体来说，从去年初开始，AI视频模型就已经特别火了，相关的商业体系，已经接到了非常多的需求。

尤其在短剧上，广告投流是非常多的，这样以往那种纯靠剪辑或生图的手段就不够了。

很多代理商和广告主会要求，用短剧的内容剪一下广告，或者延伸出一些很科幻的场景。

此时，在各类内容场景的视频需求日益旺盛的情况下，MuseSteamer的发布就显得更加正当其时了。

而且MuseSteamer的研发速度非常迅速，只用了50人的团队，做了大概三个月。

当然，擎舵平台的营销视频、海报、文本创意等多模态能力，已经让团队在工程上拥有了很好的积累。

同时就如上文所提，为了更明显地提升一致性、连续性和物理规律遵循，团队也在数据和算法上做了很多优化。

现在，它已经可以完成广告主的一些非常具体的需求。

比如说，有些动漫以前的数据是运动式平移的，但现在可以把人走路的那套机制再加进来。

或者说，以前的广告创意就是人在原地讲话，但现在可以让人骑着车往前走，同时看不同的风景，这就需要很多运镜的高级语言。这些需求，MuseSteamer都可以相应满足。

从此，生成式AI+多模态技术打造的视频生成解决方案，可以直接支持搜广推场景的原生化内容生成需求了。

只要1张图片，就能生成专业级视频，省时省钱效果还巨好，这就彻底打破了内容创作者的创意瓶颈，激发出更多的内容多样性。

目前，百度主要是先服务好B端的广告主和内容创作者，其次才是用户付费。

总之，随着MuseSteamer的发布，百度商业在生成式AI视频创作领域又完成了一次重量级落子，向着低门槛、高效率再次实现关键跃迁。

可以说，百度在这场内容革命中，已率先点燃了引擎。

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

没有评论:

发表评论

订阅：博文评论 (Atom)