点击上方卡片关注 不要错过精彩文章
读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最希望,能给大家带来不一样的搭建思路和方法。
点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!🙏谢谢啦!🌟"
大家好,我是船长团队的五津🙏我们经常在小红书、抖音上见到这种爆款单词视频:
仔细观察这个视频,我们会发现,这个视频有规律:先问这是什么→再揭晓结果,反复多次。这种有规律的视频,可以考虑用扣子来制作,效果如下:
拆解视频
想实现这种视频模板,我们先拆解这个模板的制作流程,理解了这个思路,后续做其他类似的单词卡片视频,就会做了。
想象你在做视频剪辑,视频剪辑会有图片轨道、音频轨道、文字轨道,逐个轨道分析。
注意:各轨道上的元素时间对应关系。
涉及的知识点
理解了这个流程之后,我们就可以用扣子工作流来搭建了,这其中涉及到了以下知识点:
制作固定的6个元素
背景图
使用百度图片/即梦生成一张背景图。
使用美图秀秀,将尺寸调到尺寸9:16。在这个图上加上你希望展示的元素:
1. "what is this"文案 2. 底部logo(小猫是我的视频号【宝藏智能】的logo),你可以展示你的账号名称,这样让用户形成固定印象。
结尾图
制作方法同上
音频1
音频1包含what is this+倒计时音效,提前制作好,不用每次运行都生成,节约时间:https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/72dc4fadc3714fa19db05b12e7a3ba22.mp3~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770187907&x-signature=odyvradLQ2bGZUj3OgCZ3oRhs%2F8%3D&x-wf-file_name=mix_05s+%28audio-joiner.com%29.mp3
第1步、新建一个测试工作流,在这个工作流中增加【语音合成】插件,试运行工作流,获得"what is this"的音频,下载到电脑上。
我选择的是"美式英语"、"温暖阿虎/Alvin"。后面正式工作流中所有涉及读音的位置,我都选择了这个,视频里保持一致。 音色可选范围见小感叹号。
第2步、到剪映中,选择一个自己喜欢的倒计时音效,用手机录音,将录音发到电脑上。
第3步、将上面两段音频拼接到一起,我用的是'123apps'网站(https://audio-joiner.com/。这个网站有很多免费的音视频制作功能)。将音频制作好之后,保存到电脑。
第4步、新建一个测试工作流,在这个工作流中开始节点输入音频,结束节点输出音频,则可以获得音频url。
转场音频
制作方法为【音频1】的第2步+第4步。
https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/31611695e64e4ae39f701153a2fb99a5.mp3~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770188192&x-signature=xrfi9wj0YyDHODqcZuV4ck9%2BMi4%3D&x-wf-file_name=%E5%88%87%E5%9C%BA%E6%99%AF+%28mp3cut.net%29.mp3
结尾音频
制作方法为【音频1】的第2步+第4步。
https://p9-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/60215a2ec02549438e771f46233dc735.mp3~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770188247&x-signature=rcYw8iNQdvvQ%2B7OXTB68LdrOQTI%3D&x-wf-file_name=%E7%BB%93%E5%B0%BE+%28mp3cut.net%29.mp3
结尾视频
第1步:
在测试工作流中,增加以下插件,将图片+音频合并成视频,输出【videoUrl】
(若插件调用失败,查看下方【6-5视频1:图1+音频1合成视频】有解决方法)
第2步:
上一步得到的视频存在于插件所在的服务器上,该插件不是扣子的官方插件,为了保证稳定,我们把这个视频下载下来,输入测试工作流,直接在结束工作流输出结果,就能获得字节服务器上的视频地址。
结尾图+结尾音频合并成结尾视频:https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/0a63f358d84543f4a33fc8799dd371f7.mp4~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770630531&x-signature=a4hlk5K5Ft12VUG9RrV5Rr5nU4k%3D&x-wf-file_name=e64d6bec-5661-46f2-968c-73c33316f440.mp4
至此,所有需要固定的元素生成好了,下面进入正式的扣子制作过程:
扣子制作过程拆解
下面拆解扣子制作过程,共有3大步:
- 第一步、创建生图工作流
- 第二步、创建单词工作流
- 第三步、搭建智能体
下面我将逐步介绍每一步。
一、创建生图工作流
生成一个图片,示意如下:
创建一个工作流,我的命名是【danci_shengtu】
整体工作流如下:
1、开始
输入2个参数:图片风格style,单词的中文翻译zhongwen。如真实风格、狮子。
2、循环
循环类型选择无限循环。这种类型配合【终止循环】使用,稍后会提到。
输出参数在循环介绍完之后再介绍。
2-1生成图片提示词
进入循环体,第1个节点是生成图片提示词,输入style、zhongwen,让大模型生成后面要生成图片的提示词。
提示词:
角色
你是一个专注于为中国儿童创作简单易懂绘画描述的专家。能够根据用户输入画面里的主体{{zhongwen}}和图片风格{{style}},生成图像描述词汇,描述要符合逻辑且简单直白,有镜头描述,不要增加除画面描述和主体外的其他元素,这样可以让儿童轻松看懂。
技能
技能 1: 生成描述词汇
当用户输入主体{{zhongwen}}和图片风格{{style}}后,生成符合逻辑且简单易懂的描述词汇,不要增加除主体和画面描述外的其他元素。
当关键词中没有明显说明是外国时,则说明该关键词说的是中国,你需要在关键词中提到中国,如关键词是母亲,则你的输出中应该提到中国母亲。
如果关键词没有明确是古代,则默认是现代场景和人物。
要描述镜头描述,如近景、远景、特写、中景等。
涉及多个元素时,要描述角色的方位,使画面有空间感。
当主体{{zhongwen}}为单个人物时,体验人物全身特写。
描述人物的维度:人物主体、服饰穿搭、发型发色、五官特点、皮肤特点、面部表情、肢体动作、年龄、镜头等
描述场景的维度:室内户外、大场景、白天黑夜、特定时段、环境光照、天空、光源方向等
画面中一定要强调主体{{zhongwen}},其他都不要体现
{{zhongwen}}如果是物体,则画面主体是物体,不能是人。{{zhongwen}}如果是人,则画面主体是人,不能是物体。{{zhongwen}}如果是风景,则画面主体是风景描述。
限制:
仅围绕用户输入的主体、画面描述、图片风格生成描述词汇,不涉及其他无关内容。
所输出的描述词汇必须符合简单易懂、符合逻辑的要求。
主体是单个人物时应为人物全身特写。
杜绝出现日本相关的元素。
输出最多70个字。
不要出现与主体无关的其他人或物体。
2-2图像生成
模型选择【通用-Pro】,输入上一步的提示词、图像风格,填写负向提示词。
2-3输出图像地址
将上一步生成的图片地址以消息的方式输出,用于下一个问答节点,让用户确认是否满意该图片。
2-4问答
选择类型为"选项回答"。
当用户选择【满意,继续下一步】,则终值循环,以这个图为最终用户选择的图,输出到结束节点。
当用户选择【不满意,重新生成】或输入了其他文本内容,则进入下一个循环,由于前面设置的是"无限循环",所以重复前面的过程,直到用户回答满意为止,不再循环。
3、循环输出
最后将所有生成的图像输出,是一个数组。
循环不能只输出用户满意的那一个,只能全部输出。
4、取图片数组的最后一个输出
使用大模型,取出图像数组的最后一张图的url输出,其他不输出。
5、结束
将上步结果输出。
二、创建单词工作流
创建一个工作流,我的命名是【dancishipin_wenda】
工作流整体如下:
(若看不清,找我拿图)
【一、生成单词】
1、开始
输入单词主题、图片风格、单词数量。
如非洲动物、真实风格、2。
2、生成单词数组
选择deepseek-r1模型,输入单词主题、单纯数量,这样deepseek就可以为用户输出指定数量的几个单词,举例如下。
mother
/ˈmʌðər/
妈妈
The lady with long hair is my mother.
那个长头发的女士是我的母亲。
以数组方式输出。目的是用于后续循环时以数组方式循环。
提示词:
角色
你是一个专业的单词生成助手,擅长围绕各种主题挖掘相关英语单词,为用户提供精准且实用的单词、中文、美式音标内容。
技能
技能 1: 输出关联英语单词
当用户输入主题{{zhuti}}时,分析主题内涵,运用专业知识,输出{{shuliang}}个与该主题紧密关联的英语单词、中文翻译、美式音标,将该单词用于一句英文中(不超过15个单词),并将这句英文句子翻译成中文句子,并以数组形式呈现。
举例:
mother
/ˈmʌðər/
妈妈
The lady with long hair is my mother.
那个长头发的女士是我的母亲。
限制
仅围绕用户输入主题输出相关英语单词、中文翻译、美式音标,不涉及其他领域内容。
输出必须为符合要求的数组形式,英文单词对应变量yingwen,中文翻译对应变量zhongwen,美式音标对应变量yinbiao,英文句子对应变量juzi_yingwen,中文句子翻译对应变量juzi_zhongwen,不得有其他格式偏差。
3、整理数组,方便查看
将上一步的数组去掉数组格式,变成纯文本,约定纯文本的格式,用于下一步以消息形式输出,方便用户阅读。
ps:数组会含有["","",""],不会换行,这种格式不方便用户阅读,所以需要做这一步。
4、输出上一步内容
将上一步处理得到的纯文本输出,用于下一步询问用户是否满意这个结果。
5、问答
这个问答,让用户确认单词ok后再进入后续流程,避免用户最终不满意,浪费token。
用户选择满意,则进入下一步。
用户选择不满意或输入其他内容,则直接到结束节点。结束整个流程。
结束节点增加一个bumanyi变量,内容是:
若不满意,请忽略下方信息,重新制作,在主题中清晰描述您的要求。如:家用电器,包括洗衣机、空调、咖啡机
这种情况下,其他变量没有输出,所以为空。
【二、生成视频1】
6、循环
循环类型是【使用数组循环】,即数组有几组,则循环几次。
输入是第2步【生成单词数组】节点的输出。
输出参数在循环介绍完之后再介绍。
下面介绍循环体内的节点。
6-1将数组变量打散为单个变量
循环体内第1个节点是一个大模型,输入引用循环的【循环数组】,将数组内的变量拆分成一个个单独的string变量,不再是数组形式。目的是方便后续直接引用单个变量。
提示词:
将{{input.yingwen}}输出到变量yingwen,将{{input.zhongwen}}输出到变量zhongwen,将{{input.yinbiao}}输出到变量yinbiao,将{{input.juzi_yingwen}}输出到变量juzi_yingwen,将{{input.juzi_zhongwen}}输出到变量juzi_zhongwen,其他不要做任何输出。
6-2进入生图工作流
进入【一、创建生图工作流】。
输入中文翻译、图片风格。如狮子、真实风格。
该工作流输出是用户确认满意的图片。
6-3裁剪:上一步图片url转图片
上一步图片输出是一个url,是string格式,不能直接放到画板里,需要先转成image格式输出,因此增加一个裁剪节点,将string格式转成image格式。
6-4图1:将图片放到背景上
效果如下:
输入上一步生成的单词图片。
这样就得到了图1:将图片放到背景图上。
6-5视频1:图1+音频1合成视频
图1 ok后,音频1是固定的,所以可以将这二者合为一个视频了。
音频1固定,提前做好:https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/72dc4fadc3714fa19db05b12e7a3ba22.mp3~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770187907&x-signature=odyvradLQ2bGZUj3OgCZ3oRhs%2F8%3D&x-wf-file_name=mix_05s+%28audio-joiner.com%29.mp3
上一步得到了图1,需要将固定的音频1与图1合成一个视频。
选择下面这个插件。
在插件中输入前2个参数:图1、音频1。
可以看到输入中x-api-key非必填,每天有10000词共享调用,如果调用用完了,就不能用了,那么选择以下插件,该插件需要付费,价格便宜。
这个插件需要充值使用(https://ts.fyshark.com/#/my_wallet),每个视频预计花费几分钱至几毛钱,可以先充5元试试。
(ps:视频合成需要占用云服务器资源,所以需要花钱。)
这个节点完成后,就完成了视频1的制作,输出变量videoUrl是视频地址,用于输出。
【三、生成视频2】
6-6视频2生成过程:
这个过程有8步,依次看一下。
6-6-1音标转图片
音标在画板中不能直接展示,会出现异常符号(如下),原因是扣子的字体目前暂未适配音标。
所以采用文字转图片的插件,将音标先转成图片,再放入画板。
6-6-2裁剪2:上一步图片url转图片
上一步图片输出是一个url,是string格式,不能直接放到画板里,需要先转成image格式输出,因此增加一个裁剪节点,将string格式转成image格式。
6-6-3图2:展示所有信息
复制图1画板(重要!否则会导致图片错位),在画板1的基础上,将单词、中文翻译、音标、英文句子、中文句子加上。
6-6-4单词转语音
选择【语音合成】插件,将单词转为语音。
6-6-5英语句子转语音
选择【语音合成】插件,将英语句子转为语音。
6-6-6将多段语音组成数组
将单词的音频和句子音频组成数组,用于下一步将这些音频拼接。数组包括:单词音频3遍、句子一遍、再加转场音效。
转场音效固定,提前做好:https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/31611695e64e4ae39f701153a2fb99a5.mp3~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770188192&x-signature=xrfi9wj0YyDHODqcZuV4ck9%2BMi4%3D&x-wf-file_name=%E5%88%87%E5%9C%BA%E6%99%AF+%28mp3cut.net%29.mp3
提示词:
将{{yingwen}}{{juzi_yingwen}}{{qiehuan}}输出为一个数组,数组里有5个string,前3个string的值都与{{yingwen}}保持一致,第4个string的值与{{juzi_yingwen}}保持一致。第5个string的值是{{qiehuan}}。举例,
如果3个输入依次是:张三,喝水,https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/31611695e64e4ae39f701153a2fb99a5.mp3~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770188192&x-signature=xrfi9wj0YyDHODqcZuV4ck9%2BMi4%3D&x-wf-file_name=%E5%88%87%E5%9C%BA%E6%99%AF+%28mp3cut.net%29.mp3
则输出是["张三", "张三", "张三" ,"喝水","https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/31611695e64e4ae39f701153a2fb99a5.mp3~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770188192&x-signature=xrfi9wj0YyDHODqcZuV4ck9%2BMi4%3D&x-wf-file_name=%E5%88%87%E5%9C%BA%E6%99%AF+%28mp3cut.net%29.mp3"]
6-6-7音频2:合并多段语音
选择音频合并插件,将上一步得到的数组合并为音频,输出mp3
6-6-8视频2:图2+音频2合成视频
将图2、音频2都ok了,将二者合并为视频,将该节点结果输出循环。
这个插件与【视频1:图1+音频1合成视频】选择的插件一致。
7、循环输出
将视频1数组输出为变量qian,代表着每个单词的前面一个视频,即读"what is this"的视频。
将视频2数组输出为变量hou,代表着每个单词的后面一个视频,即读3遍单词的视频。
将图1数组输出为fengmian,方便用户选择一张作为视频封面。
【四、视频拼接】
8、视频1、视频2组成一个数组
将qian、hou按视频播放顺序依次展示,再加上最后的结束视频,排成一个数组。目的是下一步将排好顺序的视频拼接。
结束视频固定,提前做好:https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/0a63f358d84543f4a33fc8799dd371f7.mp4~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770630531&x-signature=a4hlk5K5Ft12VUG9RrV5Rr5nU4k%3D&x-wf-file_name=e64d6bec-5661-46f2-968c-73c33316f440.mp4
提示词:
{{qian}}{{hou}}均为数组,包含相同数量的string,请将二者的string合并成一个数组,规则是穿插展示,即数组的第1个string是{{qian}}中的第1个string,之后是{{hou}}中的第1个string,依次类推,穿插输出,所有都展示之后,最后一个string是{{jiewei}}
举例:
两个输入依次是:["张三", "王三", "李三"]、["强", "开", "马"],则输出是:["张三", "强", "王三", "开", "李三", "马","https://p3-bot-workflow-sign.byteimg.com/tos-cn-i-mdko3gqilj/0a63f358d84543f4a33fc8799dd371f7.mp4~tplv-mdko3gqilj-image.image?rk3s=81d4c505&x-expires=1770630531&x-signature=a4hlk5K5Ft12VUG9RrV5Rr5nU4k%3D&x-wf-file_name=e64d6bec-5661-46f2-968c-73c33316f440.mp4"]
9、所有视频片段拼接
上一步将视频数组排好之后,进入最后的拼接视频。
选择这个插件↓:
此部分篇幅较长,船长已经将插件与详细使用教程打包,若喜欢麻烦您一键三连评论区留言: "智能体做视频",并截图添加文章底部船长微信发送截图,打字智能体做视频即可
10、结束
将最终视频、每段视频、封面视频和不满意的文案输出。
返回文本也包含标题参考、简介参考、话题参考,这样是方便用户进一步发布视频使用,你可以根据自己的实际需要调整。
返回文本:
已完成
{{bumanyi}}
最终视频(若链接打不开,稍等一会即可打开):
{{zuizhong}}
每个视频片段:
{{meiduan}}
封面图:
{{fengmian}}
标题参考(xx根据实际情况修改):
日常英语:xx类1
日常英语:xx类2
简介参考:
你答对了几个?
话题参考:
#英语词汇 #单词记忆法 #英语口语 #英语 #英语教育分享 #单词记忆法 #生活英语 #口语 #单词
工作流制作完成,下面搭建智能体。
三、搭建智能体
创建一个智能体,输入人设等信息,放上刚才创建的2个工作流。
配置完成后,就可以测试了~
千万不要直接发布!!!
工作流2中【所有视频片段拼接】节点用的是你的api_token,其他人调用这个工作流会直接消耗你的money,所以不能直接发布。
你可以将api_token作为工作流2最开始的输入,用户自己购买后,输入api_token才能使用,这样就可以发布了。
看到这里,说明你离做出来就差一步行动了,期待看到你的成果!
我是五津:C端新闻、视频产品经理,2025 AI春晚节目统筹&共创者,我在视频号上会分享一些AI创作【宝藏智能】
关注公众号并添加舰长微信,领取智能体学习资料,并参与Coze技术直播讲解
舰长积极创建智能体;工作流交流群,让我们在AI时代一起进步互相学习!每天会在群里分享智能体的搭建,欢迎各位小伙伴加入~
船长团队创作智能体专栏小册,里面有最新进阶的Coze智能体文章,在文章有收获的同时,可以分销而获取60%的小册费用,聚财成多
没有评论:
发表评论