点击下方,关注我,后台回复【666】,免费领取【AI学习礼包】
大家好,我是AI肝铁侠。
我是你们的不黑、不吹、不跟风、有知识、有骨气的五好小号主。
肝铁侠最近收到了一条短信,仔细一看是智谱清言AI视频的邀请内测资格,这行业现在都这么卷吗?连智谱都下场,难道下一步就轮到Kimi?
为了帮各位宝子们尝尝鲜,立马就进入了智谱的官网,第一眼就看到了新上线的"清影智能体"。
但就在登录后,它是居然还让申请"使用资格",嗯~~~,那发这个短信的意义何在啊。
不过还好,申请资格后,不到1分钟权限申请就通过了,同样是短信提醒,刷新就可以使用了。
下面我把官网制作的视频拼接了一下,大家可以看看效果:
说实话在看完后,个人觉得效果距离国内其他竞品,如可灵、即梦AI、Vidu等都还是有段距离的,当然考量要全面,所以为了验证这一说法,我决定继续深入的探索一下。
01
HOTSPOT
使用方式
文生视频包含以下功能:
基本的提示词填写(据官方说这里做了大量提示词的优化)。
视频风格(决定视频的视觉风格。如果不选择则根据灵感描述智能匹配):卡通3D、黑白老照片、油画、电影感。
情感氛围(决定视频传达的情感基调。如果不选择则根据灵感描述智能匹配):温馨和谐、生动活泼、紧张刺激、凄凉寂寞。
运镜方式(决定视频拍摄的角度和节奏。如果不选择则根据灵感描述智能匹配):水平、垂直、推进、拉远。
图生视频非常简单只需上传图片和填写完整提示词后即可生成视频。
02
HOTSPOT
CogVideoX?开源?
1、多段连续视频生成
CogVideoX支持一键生成多段连续视频,确保片段之间的连贯性。
2、低提示词门槛
CogVideoX的训练过程分为三个阶段:低分辨率训练(预训练)、高分辨率训练(预训练),以及高质量视频微调(最终微调)。这种分阶段的训练方法有助于逐步提升模型的性能,从而降低对输入提示词的要求。
#提示词一艘雕刻精美的木制玩具船,其桅杆和船帆错综复杂,正平稳地滑过一块柔软的蓝色地毯,这块地毯模仿着大海的波浪。船身被漆成浓郁的棕色,带有小小的窗户。地毯柔软且有纹理,提供了一个完美的背景,类似于一片广阔的海洋。船的周围是各种其他的玩具和儿童用品,暗示着一个充满欢乐的环境。这个场景捕捉到了童年的纯真和想象力,玩具船的旅程象征着在一个异想天开的室内环境中的无尽冒险。
3、优化生成效果
CogVideoX能够生成现实中不存在的场景,从而提供更加丰富和创新的视觉内容。
4、高效的三维变分自编码器结构(3D VAE)
三维变分自编码器结构能将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,进一步提升了生成效率和质量。
5、文本、时间、空间三维一体融合的transformer架构
CogVideoX将文本、时间和空间三个维度融合在一起,形成一个统一的模型架构。这种设计使得模型能够同时处理和理解这三种不同的信息维度,从而生成更加准确和自然的视频内容。
#提示词:一辆白色的老式 SUV ,车顶装有黑色行李架,沿着一条陡峭的土路加速行驶,土路周围是陡峭山坡上的松树,轮胎扬起尘土,阳光照在 SUV 上,它沿着土路疾驰,给整个场景蒙上了一层温暖的光辉。土路缓缓弯曲延伸至远方,视野内没有其他汽车或车辆。道路两旁的树木是红杉树,其间散布着片片绿色植被。从后面看到这辆车轻松地沿着弯道行驶,仿佛它正在崎岖的地形上进行一次艰难的驾驶。土路本身被陡峭的山丘和山脉环绕,上方是湛蓝的天空,飘着缕缕白云。
6、快速生成能力
CogVideoX可以在30秒内完成6秒视频的生成,极大提高了用户的创作效率。
7、高清晰度输出
生成的视频清晰度可达1440×960,保证了高质量的视觉体验。
8、多语言输入支持
CogVideoX支持多种语言输入,使得不同语言背景的用户都能方便地使用该模型。
#提示词:一位街头艺术家,身着破旧的牛仔夹克,头戴色彩鲜艳的头巾,站在市中心一面巨大的混凝土墙前,手持一罐喷漆,正在斑驳的墙上喷绘一只色彩斑斓的鸟。
9、界面简洁易用
产品设计注重用户体验,界面简洁,操作简便,适合各类用户。
#提示词:在一个饱受战争蹂躏的城市那令人难以忘怀的背景中,废墟和倒塌的墙壁诉说着毁灭的故事,一个令人心酸的特写镜头框住了一个年轻女孩。她的脸上沾满了灰烬,这是对她周围混乱局面的无声证明。她的眼睛闪烁着悲伤和坚韧的混合光芒,捕捉到了一个因冲突的蹂躏而失去纯真的世界的原始情感。
CogVideoX模型生成的视频有点像粗糙版本的即梦,虽然简陋但它开源呀!
而且官方也重点说明:
CogVideoX是 清影 同源的开源版本视频生成模型。
对了官方也给出了搭建CogVideoX模型的配置,只是这个配置。。。
当然使用 SAT 推理SAT版本模型仅需18G显存,最高需要36G的显存,而且显卡如果使用单卡A100,按照上述配置生成一次视频大约需要90秒。
所以贫穷的我还是等待官方优化后再做尝试吧。
对了官方发布的模型论文在arxiv,有兴趣的小伙伴可以点击查看:https://arxiv.org/abs/2205.15868
最后,先不说清影智能体达到了AI视频工具水平的哪个级别,单单是它敢于将自己的产品技术开源,这就已经清楚表达了智普清言对待技术的态度,相信后续的清影会越来越棒。
在这儿,也希望能有越来越多的大厂加入到开源行列,打开格局,让全世界时刻都知道中国AI的技术实力已经站在行业的最前沿。
好了这就是今天的全部内容了,感谢观众老爷的观看,在最后如果有任何问题的朋友可以直接加微信,我为您精心准备了AI学习大礼包和学习群,为你开启AI的学习之旅。
扫码
连接我领礼包
「 往期文章 」
我愿称它为 AI 配音界的天花板(附一键安装包和12000种音色库)
Runway Gen-3 Alpha 如约开放!Luma、可灵集体沉默,Sora真没啥可期待了!(附使用方法和提示词)
Claude 3.5上线4天后,全网网友都玩疯了!居然能制作GPT-4o的克隆体,关键还免费!
快手「可灵」图生视频霸气上线,「Sora」依然稳如老狗(付提示词)
「Claude3.5」全面超越「gpt-4o」,我用它做了个贪吃蛇,玩了一整天!
没有评论:
发表评论