AI I024: 全10B参数多模态模型Step3-VL-10B问世，手机可部署媲美闭源旗舰

2026年1月24日星期六

全10B参数多模态模型Step3-VL-10B问世，手机可部署媲美闭源旗舰

阶跃星辰开源Step3-VL-10B模型，仅10B参数性能却媲美Gemini 2.5 Pro等闭源模型，突破性实现手机等边缘设备部署。模型在视觉理解、数学推理、文档解析等任务表现出色，同时支持GUI自动化、表格提取等复杂功能。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

在多模态大模型普遍"越做越大"的趋势下，阶跃星辰逆势推出 Step3-VL-10B —— 一款仅 10B 参数却性能炸裂的视觉语言模型。它不仅在视觉理解、数学推理、文档解析等关键任务上刷新同规模 SOTA，更在多项基准中超越 10–20 倍参数量的开源巨无霸，甚至逼近 Gemini 2.5 Pro 等闭源旗舰。尤为关键的是，Step3-VL-10B 首次证明：高智能不必依赖大算力。借助其紧凑高效的架构，原本需云端 GPU 支撑的复杂多模态能力——如 GUI 自动化操作、表格结构化提取、像素级计数——如今可直接运行于消费级 PC 甚至边缘设备，为 AI 落地打开全新路径。

案例展示

通过真实案例展示 Step3-VL-10B 的多模态推理能力：，其他案例覆盖GUI感知与视觉识别和推理。

Case 1：莫尔斯电码表格解析

GUI感知

视觉识别

图推理

方法概述

架构

视觉编码器：PE-lang（Language-Optimized Perception Encoder），1.8B 参数。
解码器：Qwen3-8B。
投影层：两个连续的 stride-2 层（实现 16× 空间下采样）。
分辨率：多裁剪策略，由 728×728 全局视图与多个 504×504 局部裁剪组成。

训练流程

预训练：单阶段、全参数解冻策略，使用 AdamW 优化器（总计：1.2T tokens，370K iterations）。

阶段 1：900B tokens。
阶段 2：300B tokens。

监督微调（SFT）：两阶段方案（总计：约 226B tokens）。

阶段 1：文本与多模态比例 9:1（约 190B tokens）。
阶段 2：文本与多模态比例 1:1（约 36B tokens）。

强化学习：总计 >1,400 次迭代。

RLVR：600 次迭代（任务：数学、几何、物理、感知、grounding）。
RLHF：300 次迭代（任务：开放式生成）。
PaCoRe Training：500 次迭代。

BeachMark

评测采用"STEM 推理、识别、OCR & 文档、GUI Grounding、空间理解、代码"等核心维度，以横向对比方式呈现多个同行模型的分数差异。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024

2026年1月24日星期六

全10B参数多模态模型Step3-VL-10B问世，手机可部署媲美闭源旗舰

阶跃星辰开源Step3-VL-10B模型，仅10B参数性能却媲美Gemini 2.5 Pro等闭源模型，突破性实现手机等边缘设备部署。模型在视觉理解、数学推理、文档解析等任务表现出色，同时支持GUI自动化、表格提取等复杂功能。

案例展示

Case 1：莫尔斯电码表格解析

GUI感知

视觉识别

图推理

相关链接

方法概述

架构

训练流程

监督微调（SFT）：两阶段方案（总计：约 226B tokens）。

强化学习：总计 >1,400 次迭代。

BeachMark

没有评论:

发表评论

免费AI生成播客与短视频，快速体验教程

2026年1月24日星期六

全10B参数多模态模型Step3-VL-10B问世，手机可部署媲美闭源旗舰

阶跃星辰开源Step3-VL-10B模型，仅10B参数性能却媲美Gemini 2.5 Pro等闭源模型，突破性实现手机等边缘设备部署。模型在视觉理解、数学推理、文档解析等任务表现出色，同时支持GUI自动化、表格提取等复杂功能。

案例展示

Case 1：莫尔斯电码表格解析

GUI感知

视觉识别

图推理

相关链接

方法概述

架构

训练流程

监督微调（SFT）： 两阶段方案（总计：约 226B tokens）。

强化学习： 总计 >1,400 次迭代。

BeachMark

没有评论:

发表评论

免费AI生成播客与短视频，快速体验教程

监督微调（SFT）：两阶段方案（总计：约 226B tokens）。

强化学习：总计 >1,400 次迭代。