2025年2月23日星期日

继DeepSeek之后,多模态开源新卷王来了:阶跃星辰

  点击上蓝字 关注艾康👆
获取更多实用 AI 工具/AI 玩法,一起 AI 创富~



大家周末愉快呀。

今天给大家推荐一个多模态开源新卷王——阶跃星辰(StepFun)。

阶跃星辰这家公司你可能没听过,但实力不容小觑——目前已发布的模型覆盖文本、视觉、视频、语音等单模态任务,以及多模态融合任务(如文生视频、语音交互),参数范围从千亿级到万亿级,满足不同场景需求。

其中 Step-Video-T2V(文生视频) 和 Step-Audio(语音交互) 已于2月18日开源,并且计划在3月继续开源图生视频模型。

旗下的产品叫做——跃问(StepChat),除了接入自己家的千亿、万亿 Step 大模型,同样接入了当下大热的 DeepSeek-R1。

还支持联网搜索、上传附件,实测不卡,很丝滑。

如果你经常头疼「服务器繁忙,请稍后再试」,那非常推荐试试跃问,除了网页版,还有 APP。

今天主要聊的是,它的多模态的功能——视觉理解、视频生成、语音对话


视觉理解

其他AI: "图片里有一只猫" 


跃问的AI: "这只猫咪看起来是一只布偶猫(Ragdoll),它有着柔软的长毛,毛色主要是白色,脸部和耳朵有一些深色的斑纹。"

强在哪?工业级"鹰眼"

  • 在最新的 Chatbot Arena 视觉榜单中,在国内的视觉大模型里 Step-1o-Vision 排名第一;
  • 茶百道门店用它扫描奶茶杯,平均每天能够为茶百道督导员节约75%的检核时间;

普通人可以怎么用?

  • 学生党:拍板书→自动生成思维导图+考点总结
  • 打工人:拍会议白板→转结构化笔记+待办事项
  • 商家:拍生产线→智能排查故障隐患


视频生成

让它生成"塞车在云端高速上疾驰",不仅大幅运动流畅,运镜也十分丝滑;


更牛的是,它能在视频里写中文,灯笼上的"福"字清晰可见。

无论是大幅度运动、人物、自然景观、室外或室内,真实感都特别强,目前单次生成视频长度是 8 秒。


语音对话

目前支持两种方言——四川话、粤语、日语和英语,而且还能根据情绪调整预期,比如高兴、生气、悲伤、撒娇等。

例如,我让她扮演宝儿姐跟我对话,巴适得很👇


总结

跃问不愧是"多模态全能新卷王",不仅能力出众,还把视觉、语音、视频生成模型全开源了。

目前网页端只能体验到对话和视频生成功能,更多功能可以去 APP 体验,目前全部免费。

官网地址:https://www.stepfun.com/




我是艾康,会持续分享更多好用实用的 AI 工具/AI 玩法,如果想第一时间收到推送,欢迎关注公众号,并设为星标⭐


扫描下方二维码,备注「777」,免费送你一份《AI工具与副业变现指南》

如果觉得这篇文章有用的话,感谢点赞、在看➕关注👆,我是艾康,咱们下篇见!  

没有评论:

发表评论

最新黑科技!给猫主子定制专属“旅行写真”,方法超简单!

猫咪全国旅游制作方法首次公开!各位铲屎官们,是不是也曾梦想带着自家主子环游世界,打卡各大名胜古迹? 猫咪全国旅游制作方法首次公开! 各位铲屎官们,是不是也曾梦想带着自家主子环游世界,打卡各大名胜古迹?但现实往往是猫主子不爱出门,旅途奔波又太过劳累。别急!今天就为大家首次公开一...