2026年1月24日星期六

全10B参数多模态模型Step3-VL-10B问世,手机可部署媲美闭源旗舰

阶跃星辰开源Step3-VL-10B模型,仅10B参数性能却媲美Gemini 2.5 Pro等闭源模型,突破性实现手机等边缘设备部署。模型在视觉理解、数学推理、文档解析等任务表现出色,同时支持GUI自动化、表格提取等复杂功能。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

图片

在多模态大模型普遍"越做越大"的趋势下,阶跃星辰逆势推出 Step3-VL-10B —— 一款仅 10B 参数却性能炸裂的视觉语言模型。它不仅在视觉理解、数学推理、文档解析等关键任务上刷新同规模 SOTA,更在多项基准中超越 10–20 倍参数量的开源巨无霸,甚至逼近 Gemini 2.5 Pro 等闭源旗舰。尤为关键的是,Step3-VL-10B 首次证明:高智能不必依赖大算力。借助其紧凑高效的架构,原本需云端 GPU 支撑的复杂多模态能力——如 GUI 自动化操作、表格结构化提取、像素级计数——如今可直接运行于消费级 PC 甚至边缘设备,为 AI 落地打开全新路径。

图片

案例展示

通过真实案例展示 Step3-VL-10B 的多模态推理能力:,其他案例覆盖GUI感知与视觉识别和推理。

Case 1:莫尔斯电码表格解析

图片

GUI感知

图片

视觉识别

图片

图推理

图片

相关链接

  • 论文:https://arxiv.org/abs/2601.09668
  • 主页:https://stepfun-ai.github.io/Step3-VL-10B
  • ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10
  • HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

方法概述

架构

  • 视觉编码器:PE-lang(Language-Optimized Perception Encoder),1.8B 参数。
  • 解码器:Qwen3-8B。
  • 投影层:两个连续的 stride-2 层(实现 16× 空间下采样)。
  • 分辨率:多裁剪策略,由 728×728 全局视图与多个 504×504 局部裁剪组成。

训练流程

  • 预训练: 单阶段、全参数解冻策略,使用 AdamW 优化器(总计:1.2T tokens,370K iterations)。

    • 阶段 1:900B tokens。
    • 阶段 2:300B tokens。

监督微调(SFT): 两阶段方案(总计:约 226B tokens)。

  • 阶段 1:文本与多模态比例 9:1(约 190B tokens)。
  • 阶段 2:文本与多模态比例 1:1(约 36B tokens)。

强化学习: 总计 >1,400 次迭代。

  • RLVR:600 次迭代(任务:数学、几何、物理、感知、grounding)。
  • RLHF:300 次迭代(任务:开放式生成)。
  • PaCoRe Training:500 次迭代。

BeachMark

图片评测采用"STEM 推理、识别、OCR & 文档、GUI Grounding、空间理解、代码"等核心维度,以横向对比方式呈现多个同行模型的分数差异。

图片

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

免费AI生成播客与短视频,快速体验教程

内容:本文介绍一款可白嫖的AI网站,重点演示生成AI播客和短视频的实战案例,包括操作步骤、积分获取方法及效果展示,适合需要快速制作多媒体内容的用户。 在星期二分享的文章 这个浏览器插件,可让你从任何网页获取你想要的内容,包括图片,短视频,音乐文件,重点功能完全免费 ,最开始分...