点击下方，关注我，后台回复【666】，免费领取【AI学习礼包】

大家好，我是AI肝铁侠。

我是你们的不黑、不吹、不跟风、有知识、有骨气的五好小号主。

肝铁侠最近收到了一条短信，仔细一看是智谱清言AI视频的邀请内测资格，这行业现在都这么卷吗？连智谱都下场，难道下一步就轮到Kimi？

为了帮各位宝子们尝尝鲜，立马就进入了智谱的官网，第一眼就看到了新上线的"清影智能体"。

但就在登录后，它是居然还让申请"使用资格"，嗯~~~，那发这个短信的意义何在啊。

不过还好，申请资格后，不到1分钟权限申请就通过了，同样是短信提醒，刷新就可以使用了。

下面我把官网制作的视频拼接了一下，大家可以看看效果：

说实话在看完后，个人觉得效果距离国内其他竞品，如可灵、即梦AI、Vidu等都还是有段距离的，当然考量要全面，所以为了验证这一说法，我决定继续深入的探索一下。

HOTSPOT

使用方式

网址：https://chatglm.cn/video

就像各位宝子前面看到的那样，清影智能体生成的视频不仅看起来简单，他的使用其实更简单，登录后，在首页中点击左边的栏目的 " 清影智能体-AI生视频 " ，就可以使用AI生成视频的功能。

目前清影上线的AI视频工具包含文生视频和图生视频。

文生视频包含以下功能：

基本的提示词填写（据官方说这里做了大量提示词的优化）。
视频风格（决定视频的视觉风格。如果不选择则根据灵感描述智能匹配）：卡通3D、黑白老照片、油画、电影感。
情感氛围（决定视频传达的情感基调。如果不选择则根据灵感描述智能匹配）：温馨和谐、生动活泼、紧张刺激、凄凉寂寞。
运镜方式（决定视频拍摄的角度和节奏。如果不选择则根据灵感描述智能匹配）：水平、垂直、推进、拉远。

图生视频非常简单只需上传图片和填写完整提示词后即可生成视频。

生成视频应注意：

1、免费用户只能同时生成一个视频，否则付费。

2、视频生成需要加速时，也需要付费。

HOTSPOT

CogVideoX？开源？

说起开源，其实并不是没有先例，前段时间非常火爆的阿里Qwen2正式开源，性能全方位超过Llama-3、快手在WAIC 2024开源了文生图的大模型可图（Kolors），都在AI行业引起了不小轰动。

而这次智谱清言在发布清影智能体AI视频短短两周后，就选择了开源AI视频模型CogVideoX。

目前CogVideoX在Huggingface和GitHub进行开源。

一、地址

Huggingface：https://huggingface.co/THUDM/CogVideoX-2b

Github：https://github.com/THUDM/CogVideo

二、CogVideoX特点

1、多段连续视频生成

CogVideoX支持一键生成多段连续视频，确保片段之间的连贯性。

2、低提示词门槛

CogVideoX的训练过程分为三个阶段：低分辨率训练（预训练）、高分辨率训练（预训练），以及高质量视频微调（最终微调）。这种分阶段的训练方法有助于逐步提升模型的性能，从而降低对输入提示词的要求。

#提示词一艘雕刻精美的木制玩具船，其桅杆和船帆错综复杂，正平稳地滑过一块柔软的蓝色地毯，这块地毯模仿着大海的波浪。船身被漆成浓郁的棕色，带有小小的窗户。地毯柔软且有纹理，提供了一个完美的背景，类似于一片广阔的海洋。船的周围是各种其他的玩具和儿童用品，暗示着一个充满欢乐的环境。这个场景捕捉到了童年的纯真和想象力，玩具船的旅程象征着在一个异想天开的室内环境中的无尽冒险。

3、优化生成效果

CogVideoX能够生成现实中不存在的场景，从而提供更加丰富和创新的视觉内容。

4、高效的三维变分自编码器结构（3D VAE）

三维变分自编码器结构能将原始视频数据压缩至原始大小的2%，显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块，进一步提升了生成效率和质量。

5、文本、时间、空间三维一体融合的transformer架构

CogVideoX将文本、时间和空间三个维度融合在一起，形成一个统一的模型架构。这种设计使得模型能够同时处理和理解这三种不同的信息维度，从而生成更加准确和自然的视频内容。

#提示词：一辆白色的老式 SUV ，车顶装有黑色行李架，沿着一条陡峭的土路加速行驶，土路周围是陡峭山坡上的松树，轮胎扬起尘土，阳光照在 SUV 上，它沿着土路疾驰，给整个场景蒙上了一层温暖的光辉。土路缓缓弯曲延伸至远方，视野内没有其他汽车或车辆。道路两旁的树木是红杉树，其间散布着片片绿色植被。从后面看到这辆车轻松地沿着弯道行驶，仿佛它正在崎岖的地形上进行一次艰难的驾驶。土路本身被陡峭的山丘和山脉环绕，上方是湛蓝的天空，飘着缕缕白云。

6、快速生成能力

CogVideoX可以在30秒内完成6秒视频的生成，极大提高了用户的创作效率。

7、高清晰度输出

生成的视频清晰度可达1440×960，保证了高质量的视觉体验。

8、多语言输入支持

CogVideoX支持多种语言输入，使得不同语言背景的用户都能方便地使用该模型。

#提示词：一位街头艺术家，身着破旧的牛仔夹克，头戴色彩鲜艳的头巾，站在市中心一面巨大的混凝土墙前，手持一罐喷漆，正在斑驳的墙上喷绘一只色彩斑斓的鸟。

9、界面简洁易用

产品设计注重用户体验，界面简洁，操作简便，适合各类用户。

#提示词：在一个饱受战争蹂躏的城市那令人难以忘怀的背景中，废墟和倒塌的墙壁诉说着毁灭的故事，一个令人心酸的特写镜头框住了一个年轻女孩。她的脸上沾满了灰烬，这是对她周围混乱局面的无声证明。她的眼睛闪烁着悲伤和坚韧的混合光芒，捕捉到了一个因冲突的蹂躏而失去纯真的世界的原始情感。

CogVideoX模型生成的视频有点像粗糙版本的即梦，虽然简陋但它开源呀！

而且官方也重点说明：

CogVideoX是清影同源的开源版本视频生成模型。

对了官方也给出了搭建CogVideoX模型的配置，只是这个配置。。。

当然使用 SAT 推理SAT版本模型仅需18G显存，最高需要36G的显存，而且显卡如果使用单卡A100，按照上述配置生成一次视频大约需要90秒。

所以贫穷的我还是等待官方优化后再做尝试吧。

对了官方发布的模型论文在arxiv，有兴趣的小伙伴可以点击查看：https://arxiv.org/abs/2205.15868

最后，先不说清影智能体达到了AI视频工具水平的哪个级别，单单是它敢于将自己的产品技术开源，这就已经清楚表达了智普清言对待技术的态度，相信后续的清影会越来越棒。

在这儿，也希望能有越来越多的大厂加入到开源行列，打开格局，让全世界时刻都知道中国AI的技术实力已经站在行业的最前沿。

End

好了这就是今天的全部内容了，感谢观众老爷的观看，在最后如果有任何问题的朋友可以直接加微信，我为您精心准备了AI学习大礼包和学习群，为你开启AI的学习之旅。

扫码

连接我领礼包

「往期文章」

我愿称它为 AI 配音界的天花板（附一键安装包和12000种音色库）

阿里 "通义灵码" 真的 "灵吗"，8000字全保姆级实操

Runway Gen-3 Alpha 如约开放！Luma、可灵集体沉默，Sora真没啥可期待了！（附使用方法和提示词）

Claude 3.5上线4天后，全网网友都玩疯了！居然能制作GPT-4o的克隆体，关键还免费！

快手「可灵」图生视频霸气上线，「Sora」依然稳如老狗（付提示词）

「Claude3.5」全面超越「gpt-4o」，我用它做了个贪吃蛇，玩了一整天！

大佬终于坐不住了，Runway将迎来重大升级

Stable Diffusion 3开源，准备好换电脑了吗（付一键安装包和API调用方式）

5 款 AI 编程助手，打破你代码低效魔咒

快手「可灵」叫板「Sora」，你过来呀！（附提示词）

AI I024

2024年8月6日星期二

智普清言发布 ⌈清影AI⌋ 仅两周就开源！到底有多作？看完你就懂了。。。

点击下方，关注我，后台回复【666】，免费领取【AI学习礼包】

没有评论:

发表评论

AI日报：Runway多镜头短片一键生成，企业微信CLI开源，豆包登顶SuperCLUE

标签