大家周末愉快呀。
今天给大家推荐一个多模态开源新卷王——阶跃星辰(StepFun)。
阶跃星辰这家公司你可能没听过,但实力不容小觑——目前已发布的模型覆盖文本、视觉、视频、语音等单模态任务,以及多模态融合任务(如文生视频、语音交互),参数范围从千亿级到万亿级,满足不同场景需求。
其中 Step-Video-T2V(文生视频) 和 Step-Audio(语音交互) 已于2月18日开源,并且计划在3月继续开源图生视频模型。
旗下的产品叫做——跃问(StepChat),除了接入自己家的千亿、万亿 Step 大模型,同样接入了当下大热的 DeepSeek-R1。
还支持联网搜索、上传附件,实测不卡,很丝滑。
如果你经常头疼「服务器繁忙,请稍后再试」,那非常推荐试试跃问,除了网页版,还有 APP。
今天主要聊的是,它的多模态的功能——视觉理解、视频生成、语音对话。
视觉理解
其他AI: "图片里有一只猫"
跃问的AI: "这只猫咪看起来是一只布偶猫(Ragdoll),它有着柔软的长毛,毛色主要是白色,脸部和耳朵有一些深色的斑纹。"
强在哪?工业级"鹰眼"
在最新的 Chatbot Arena 视觉榜单中,在国内的视觉大模型里 Step-1o-Vision 排名第一; 茶百道门店用它扫描奶茶杯,平均每天能够为茶百道督导员节约75%的检核时间;
普通人可以怎么用?
学生党:拍板书→自动生成思维导图+考点总结 打工人:拍会议白板→转结构化笔记+待办事项 商家:拍生产线→智能排查故障隐患
视频生成
让它生成"塞车在云端高速上疾驰",不仅大幅运动流畅,运镜也十分丝滑;
更牛的是,它能在视频里写中文,灯笼上的"福"字清晰可见。
无论是大幅度运动、人物、自然景观、室外或室内,真实感都特别强,目前单次生成视频长度是 8 秒。
语音对话
目前支持两种方言——四川话、粤语、日语和英语,而且还能根据情绪调整预期,比如高兴、生气、悲伤、撒娇等。
例如,我让她扮演宝儿姐跟我对话,巴适得很👇
总结
跃问不愧是"多模态全能新卷王",不仅能力出众,还把视觉、语音、视频生成模型全开源了。
目前网页端只能体验到对话和视频生成功能,更多功能可以去 APP 体验,目前全部免费。
官网地址:https://www.stepfun.com/
我是艾康,会持续分享更多好用实用的 AI 工具/AI 玩法,如果想第一时间收到推送,欢迎关注公众号,并设为星标⭐。
扫描下方二维码,备注「777」,免费送你一份《AI工具与副业变现指南》。
如果觉得这篇文章有用的话,感谢点赞、在看➕关注👆,我是艾康,咱们下篇见!
没有评论:
发表评论