阶跃星辰开源Step3-VL-10B模型,仅10B参数性能却媲美Gemini 2.5 Pro等闭源模型,突破性实现手机等边缘设备部署。模型在视觉理解、数学推理、文档解析等任务表现出色,同时支持GUI自动化、表格提取等复杂功能。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
在多模态大模型普遍"越做越大"的趋势下,阶跃星辰逆势推出 Step3-VL-10B —— 一款仅 10B 参数却性能炸裂的视觉语言模型。它不仅在视觉理解、数学推理、文档解析等关键任务上刷新同规模 SOTA,更在多项基准中超越 10–20 倍参数量的开源巨无霸,甚至逼近 Gemini 2.5 Pro 等闭源旗舰。尤为关键的是,Step3-VL-10B 首次证明:高智能不必依赖大算力。借助其紧凑高效的架构,原本需云端 GPU 支撑的复杂多模态能力——如 GUI 自动化操作、表格结构化提取、像素级计数——如今可直接运行于消费级 PC 甚至边缘设备,为 AI 落地打开全新路径。
案例展示
通过真实案例展示 Step3-VL-10B 的多模态推理能力:,其他案例覆盖GUI感知与视觉识别和推理。
Case 1:莫尔斯电码表格解析
GUI感知
视觉识别
图推理
相关链接
论文:https://arxiv.org/abs/2601.09668 主页:https://stepfun-ai.github.io/Step3-VL-10B ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10 HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
方法概述
架构
视觉编码器:PE-lang(Language-Optimized Perception Encoder),1.8B 参数。 解码器:Qwen3-8B。 投影层:两个连续的 stride-2 层(实现 16× 空间下采样)。 分辨率:多裁剪策略,由 728×728 全局视图与多个 504×504 局部裁剪组成。
训练流程
预训练: 单阶段、全参数解冻策略,使用 AdamW 优化器(总计:1.2T tokens,370K iterations)。
阶段 1:900B tokens。 阶段 2:300B tokens。
监督微调(SFT): 两阶段方案(总计:约 226B tokens)。
阶段 1:文本与多模态比例 9:1(约 190B tokens)。 阶段 2:文本与多模态比例 1:1(约 36B tokens)。
强化学习: 总计 >1,400 次迭代。
RLVR:600 次迭代(任务:数学、几何、物理、感知、grounding)。 RLHF:300 次迭代(任务:开放式生成)。 PaCoRe Training:500 次迭代。
BeachMark
评测采用"STEM 推理、识别、OCR & 文档、GUI Grounding、空间理解、代码"等核心维度,以横向对比方式呈现多个同行模型的分数差异。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论