数字人一场直播卖出5500万元
西风 发自 凹非寺
量子位 | 公众号 QbitAI
罗永浩,干不过罗永浩???
今年618大促,罗永浩数字人百度电商直播上岗,"一不小心"就创造了个纪录——
带货单量超5月罗永浩真人百度电商直播首秀同期数据!
只见交个朋友直播间中,不单单罗永浩一个数字人现身,还有朱萧木(交个朋友直播间副主播)数字人担任"助播"。
俩"人"全程互动配合默契,说话、动作、神态那叫一个自然。
看视频效果,和真人直播不能说一毛一样吧,那也是真假难辨的程度!
甚至有人在评论区问老罗"你是不是真人在扮演AI,要是被威胁了就眨眨眼"。
就连罗永浩本人"罗氏幽默"的特色直播风格,数字人也能高度复刻。
比如罗永浩数字人卖花生油:
有人问吃花生油会不会变胖,胖也没关系,我们有一款T恤可以穿到200斤,你在我直播间就能形成闭环。
各种花式回答,让人眼前一亮又一亮,自嘲式回复网友问"棉柔巾脸大得用几张",be like:
你脸大有多大?能有我210斤的脸大吗?我也就使用一张就够了。
一场直播下来俩数字人真的是赢麻了,战绩斐然:
不仅直播吸引了超1300万人次观看,GMV(商品交易总额)突破5500万元。
甚至部分3C、食品等核心品类商品带货单量,罗永浩数字人超过了罗永浩真人5月份在百度电商直播首秀的同期数据,用户平均观看直播的时长也超过了5月真人首秀。
这究竟是怎么做到的?
数字人直播现在都进化成啥样了?
在最新百度AI开放日慧播星专场现场,百度同步智能电商进展,其中就揭秘了罗永浩数字人背后的秘诀。
原来,这次出战618的罗永浩数字人,是由百度电商数字人直播工具慧播星打造的高说服力数字人,本质上是一个具备形象+感知决策+行动的超级智能体。
相比以往数字人,慧播星高说服力数字人实现了四大突破。
首先,上线了业界首个双数字人互动直播间,体验大突破。罗永浩和朱萧木两个数字人能默契配合进行互动讲解就是基于此。
双数字人互动直播间还原了"主播+助播"真实直播状态。
得益于百度视觉大模型+语音大模型的全面升级,双人讲解时采用双音轨,不仅衔接更自然,而且支持打断说、同时说,能适配更复杂的场景。
观众在观看时很难看出什么破绽,就像是在看真人直播。
其次,慧播星推出了全新大师级别剧本模式,直播内容实现了突破。
现在,直播剧本生成不再是简单的脚本生成了,文心大模型4.5 Turbo加持,数字人能轻松复刻出个人直播风格。
这种人格化表达让数字人直播告别机械感,有网感,懂热点。
比如结合刚结束的四六级考试也能讲段广告词:
另外一大突破是视觉上的,慧播星高说服力数字人在业内率先实现了多模高度融合。
数字人由动作驱动,动作、表情、语调等多模态都能自动贴合话术表达进行配合。
比如在介绍护肤品的功效时,数字人会一边摸着自己的抬头纹、颈纹,一边讲解。
另外,它还能基于脚本实时调度素材,画面衔接也更流畅自然。
第四点是整体直播效果上的突破,负责直播控场的AI大脑全面升级。
在直播过程中,AI大脑会主动邀评,吸引直播间用户参与互动;同时能即时回复用户评论,哪怕是复杂直播场景,应对起来也游刃有余。
除此之外还有多种玩法,比如发福袋、在评论区抽幸运观众送礼物等,智能体能够实时控场促进转化。
活动现场,百度还宣布了百度优选和交个朋友正式达成战略合作,罗永浩成为慧播星首席体验官。
交个朋友副总裁吴加录直言,看到罗永浩数字人的表现有被惊吓到,逼近真的效果让他担忧——罗永浩本人要失业了?
背后"黑科技":多模协同的数字人技术
深入探究这一系列突破的底层逻辑,会发现百度采用的是自研的以语言模型为核心驱动、多模协同的数字人技术解决方案。
从技术上来看,数字人若要在长时间内维持高水准的一致性与拟真性表现,单一模型显然无法满足需求。
百度的技术路径是以语言模型作为核心驱动单元,通过语言模型生成直播剧本,再通过剧本指导协调语音、视觉等多模态系统实现动态交互,最终塑造出有高表现力、形神兼备的数字人形象。
具体来看其中关键环节的技术。首先是剧本生成,其重点之一在于数字人台词生成。
台词包括多样化风格、拟真化人设和具有吸引力的内容。
其中多样化风格,涉及风格建模、风格生成和风格定制;拟真化人设,需要模型在台词生成上建设相应的能力,包括人设建模、人设还原、多角色协同;吸引力内容靠的是内容规划、深度思考以及知识增强。
此外,基于大语言模型的剧本生成也包含视觉标签、语音标签生成,以实现多模驱动的协同。
在大模型协同过程中,这些标签是开放级的,由这些标签驱动的语言来进行语调和风格的控制。
以罗永浩数字人剧本为例,基于文心大模型4.5 Turbo生成的剧本,需要展现主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。
剧本生成后,关键环节还包括语音合成和视频生成。
语音合成方面,数字人场景对语音合成提出了更高的要求,和以往朗诵式语音合成有很大区别。
最主要的区别在于数字人需要语音自然流畅,但在讲述不同内容时还要有抑扬顿挫感,在一些情况下甚至需要激情澎湃感以感染观众。
百度在这方面的做法是:
通过文本自控的语音合成大模型的,实现高复原的语音合成能力,再结合直播台词及发音人特征,合成风格适当、自然流畅的声音。
具体到罗永浩数字人的这场直播,还要面对老罗和朱萧木直播中双人声音配合的难点,对此百度采用了对话上下文编码器,把对话历史输入和当前对话进行语音合成的统一推理计算,最终才让我们看到了流畅、自然的双人对话效果。
还有一个关键环节是数字人形象生成与驱动。
视频生成方面需要进行高表现力动作对齐,以及支撑唇动、表情生成和对齐。更重要的是,数字人不只是一个视频,数字人还要和用户实时进行动态交互。
目前市面上存在大量视频生成模型,可以生成10s、20s,甚至30s的视频。但数字人要进行直播工作,这些还远远不够。
数字人需要的是小时级的一致性,而且还要高表现力,人、物、场要能自由交互。
百度为此建设了数字人形象生成和驱动的一整套技术,让数字人具备多模协同、高表现力、复杂交互能力。
该技术是一个可控的、长视频的生成工作;通过视频、剧本、语言、骨骼等特征,结合多模态视频理解、跨模态信号生成、视频生成等技术,实现了高一致性数字人长视频的生成。
普通人都能人均一个"主播"头衔
数字人技术的突破,不只促成了罗永浩数字人直播的成功。现在使用数字人技术的门槛越来越低,即使没有团队、没有直播经验的新人主播,也能轻松get数字人分身。
一些中小商家早就用这种模式,实现7×24小时不间断直播,订单量猛涨。
真实案例如三农领域创作者东北翠花,通过短视频分享东北的风土人情和美食,之前对于直播却缺少经验,效果一直不理想。
而通过慧播星,翠花的数字人直播间深度结合生活场景,利用极具地域特色的乡村环境、贴近日常的呈现方式,构建强代入感的消费氛围。
用户产生了情感联结与消费信任,驱动订单量实现10倍增长。
另一个案例是新会陈皮的源头产地商家广芸堂。
过去做真人直播时,广芸堂一直受主播差旅、时间调配这些高额成本所困。数字人突破了这一限制,借助技术优势,一边直观呈现原料生长的真实环境,一边通过灵活切镜,把陈皮的色泽纹理、触感细节等细微品质,全方位清晰展示。
"产地直采、品质可控"的概念转化为可视化、可感知的体验,大幅强化消费说服力,直接助推GMV实现160%的增长。
数字人技术的规模化落地,正是百度AI战略深度实践的重要印证。百度优选平台作为国内最早提出智能电商的平台,率先探索AI应用场景实践。
数据显示,目前已经有累计超过10万的商家在百度通过数字人直播,覆盖电商、教育、医生、法律等几十个行业,使用了数字人直播的商家GMV平均提升62%,降低了80%的开播运营成本。
现在,伴随618大促,百度还发布了两大计划扶持商家:
梦蝶计划,通过流量扶持,超头主播数字人打造、预算扶持,实现百度优选超头主播的数量倍增。
繁星计划,再次追加10万个慧播星数字人,投入1亿元数字人消费补贴,千万级别的运营扶持,帮助更多的普通人、中小企业开启数字人直播。
数字人技术不是顶级主播的专属,而是普惠共享的新型生产力。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
没有评论:
发表评论