2024年8月6日星期二

智普清言发布 ⌈清影AI⌋ 仅两周就开源!到底有多作?看完你就懂了。。。

   点击下方,关注我,后台回复【666】,免费领取【AI学习礼包】      



大家好,我是AI肝铁侠。

我是你们的不黑、不吹、不跟风、有知识、有骨气的五好小号主

肝铁侠最近收到了一条短信,仔细一看是智谱清言AI视频的邀请内测资格这行业现在都这么卷吗?智谱都下场,难道下一步就轮到Kimi?

为了帮各位宝子们尝尝鲜,立马就进入了智谱的官网,第一眼就看到了新上线的"清影智能体"。

但就在登录后,它是居然还让申请"使用资格",嗯~~~,那发这个短信的意义何在啊。

不过还好,申请资格后,不到1分钟权限申请就通过了,同样是短信提醒,刷新就可以使用了。

下面我把官网制作的视频拼接了一下,大家可以看看效果:

说实话在看完后,个人觉得效果距离国内其他竞品,如可灵、即梦AIVidu等都还是有段距离的,当然考量要全面,所以为了验证这一说法,我决定继续深入的探索一下。

01

HOTSPOT


 使用方式


网址:https://chatglm.cn/video
就像各位宝子前面看到的那样,清影智能体生成的视频不仅看起来简单,他的使用其实更简单,登录后,在首页中点击左边的栏目的 " 清影智能体-AI生视频 " ,就可以使用AI视频的功能
目前清影上线的AI视频工具包含文生视频和图生视频。

文生视频包含以下功能:

  1. 基本的提示词填写(据官方说这里做了大量提示词的优化)。

  2. 视频风格(决定视频的视觉风格。如果不选择则根据灵感描述智能匹配):卡通3D、黑白老照片、油画、电影感。

  3. 情感氛围(决定视频传达的情感基调。如果不选择则根据灵感描述智能匹配):温馨和谐、生动活泼、紧张刺激、凄凉寂寞。

  4. 运镜方式(决定视频拍摄的角度和节奏。如果不选择则根据灵感描述智能匹配)水平、垂直、推进、拉远。

图生视频非常简单只需上传图片和填写完整提示词后即可生成视频。

生成视频应注意
1、免费用户只能同时生成一个视频,否则付费。
2、视频生成需要加速时,也需要付费。


02

HOTSPOT


 CogVideoX?开源?


说起开源,其实并不是没有先例,前段时间非常火爆的阿里Qwen2正式开源,性能全方位超过Llama-3、快手在WAIC 2024开源了文生图的大模型可图(Kolors),都在AI行业引起了不小轰动。
而这次智谱清言在发布清影智能体AI视频短短两周后,就选择了开源AI视频模型CogVideoX
目前CogVideoX在Huggingface和GitHub进行开源。

一、地址
Huggingface:https://huggingface.co/THUDM/CogVideoX-2b
Github:https://github.com/THUDM/CogVideo


二、CogVideoX特点

1、多段连续视频生成

CogVideoX支持一键生成多段连续视频,确保片段之间的连贯性。

2、低提示词门槛

CogVideoX的训练过程分为三个阶段:低分辨率训练(预训练)、高分辨率训练(预训练),以及高质量视频微调(最终微调)。这种分阶段的训练方法有助于逐步提升模型的性能,从而降低对输入提示词的要求。

#提示词一艘雕刻精美的木制玩具船,其桅杆和船帆错综复杂,正平稳地滑过一块柔软的蓝色地毯,这块地毯模仿着大海的波浪。船身被漆成浓郁的棕色,带有小小的窗户。地毯柔软且有纹理,提供了一个完美的背景,类似于一片广阔的海洋。船的周围是各种其他的玩具和儿童用品,暗示着一个充满欢乐的环境。这个场景捕捉到了童年的纯真和想象力,玩具船的旅程象征着在一个异想天开的室内环境中的无尽冒险。

3、优化生成效果

CogVideoX能够生成现实中不存在的场景,从而提供更加丰富和创新的视觉内容。

4、高效的三维变分自编码器结构(3D VAE)

三维变分自编码器结构能将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,进一步提升了生成效率和质量。

5、文本、时间、空间三维一体融合的transformer架构

CogVideoX将文本、时间和空间三个维度融合在一起,形成一个统一的模型架构。这种设计使得模型能够同时处理和理解这三种不同的信息维度,从而生成更加准确和自然的视频内容

#提示词:一辆白色的老式 SUV ,车顶装有黑色行李架,沿着一条陡峭的土路加速行驶,土路周围是陡峭山坡上的松树,轮胎扬起尘土,阳光照在 SUV 上,它沿着土路疾驰,给整个场景蒙上了一层温暖的光辉。土路缓缓弯曲延伸至远方,视野内没有其他汽车或车辆。道路两旁的树木是红杉树,其间散布着片片绿色植被。从后面看到这辆车轻松地沿着弯道行驶,仿佛它正在崎岖的地形上进行一次艰难的驾驶。土路本身被陡峭的山丘和山脉环绕,上方是湛蓝的天空,飘着缕缕白云。 


6、快速生成能力

CogVideoX可以在30秒内完成6秒视频的生成,极大提高了用户的创作效率。

7、高清晰度输出

生成的视频清晰度可达1440×960,保证了高质量的视觉体验。

8、多语言输入支持

CogVideoX支持多种语言输入,使得不同语言背景的用户都能方便地使用该模型。

#提示词:一位街头艺术家,身着破旧的牛仔夹克,头戴色彩鲜艳的头巾,站在市中心一面巨大的混凝土墙前,手持一罐喷漆,正在斑驳的墙上喷绘一只色彩斑斓的鸟。

9、界面简洁易用

产品设计注重用户体验,界面简洁,操作简便,适合各类用户。

#提示词:在一个饱受战争蹂躏的城市那令人难以忘怀的背景中,废墟和倒塌的墙壁诉说着毁灭的故事,一个令人心酸的特写镜头框住了一个年轻女孩。她的脸上沾满了灰烬,这是对她周围混乱局面的无声证明。她的眼睛闪烁着悲伤和坚韧的混合光芒,捕捉到了一个因冲突的蹂躏而失去纯真的世界的原始情感。

CogVideoX模型生成的视频有点像粗糙版本的即梦,虽然简陋但它开源呀!

而且官方也重点说明:

CogVideoX是 清影 同源的开源版本视频生成模型。

对了官方也给出了搭建CogVideoX模型的配置,只是这个配置。。。

当然使用 SAT 推理SAT版本模型仅需18G显存,最高需要36G的显存,而且显卡如果使用单卡A100,按照上述配置生成一次视频大约需要90秒。

所以贫穷的我还是等待官方优化后再做尝试吧。

对了官方发布的模型论文在arxiv,有兴趣的小伙伴可以点击查看:https://arxiv.org/abs/2205.15868

最后,先不说清影智能体达到了AI视频工具水平的哪个级别,单单是它敢于将自己的产品技术开源,这就已经清楚表达了智普清言对待技术的态度,相信后续的清影会越来越棒

在这儿,希望能有越来越多的大厂加入到开源行列,打开格局,让全世界时刻都知道中国AI的技术实力已经站在行业的最前沿

End

好了这就是今天的全部内容了,感谢观众老爷的观看,在最后如果有任何问题的朋友可以直接加微信,我为您精心准备了AI学习大礼包学习群为你开启AI的学习之旅。

扫码

连接我领礼包


「 往期文章 」


我愿称它为 AI 配音界的天花板(附一键安装包和12000种音色库)

阿里 "通义灵码" 真的 "灵吗",8000字全保姆级实操

Runway Gen-3 Alpha 如约开放!Luma、可灵集体沉默,Sora真没啥可期待了!(附使用方法和提示词)

Claude 3.5上线4天后,全网网友都玩疯了!居然能制作GPT-4o的克隆体,关键还免费!

快手「可灵」图生视频霸气上线,「Sora」依然稳如老狗(付提示词)

「Claude3.5」全面超越「gpt-4o」,我用它做了个贪吃蛇,玩了一整天!

大佬终于坐不住了,Runway将迎来重大升级

Stable Diffusion 3开源,准备好换电脑了吗(付一键安装包和API调用方式)

5 款 AI 编程助手,打破你代码低效魔咒

快手「可灵」叫板「Sora」,你过来呀!(附提示词)

没有评论:

发表评论

办公领域新黑马! “办公小浣熊” 横空出世

点击上方卡片关注 不要错过精彩文章 📌 持续更新有关Agent的最新搭建思路和工作流分享,希望能给您带来帮助,点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!🙏谢谢啦!🌟"  大家好!我是唐舰长🙏 AI的作用就是提高效率,一个合适的工具能帮助打工人早早...