AI I024: LLaVA-OneVision-1。5全链路开源！8B多模态模型预训练仅4天1。6万美元，普通人也能复现强性能

LLaVA的出现像一把钥匙——用低成本对齐打通\x26quot;视觉编码器+大语言模型\x26quot;的链路，让\x26quot;看图-理解-对

2023年，LLaVA的出现像一把钥匙——用低成本对齐打通"视觉编码器+大语言模型"的链路，让"看图-理解-对话"的多模态能力从闭源巨头的"黑箱"里走出来，成了开源社区能玩得起的技术。从LLaVA-1.5的高分辨率强化理解，到LLaVA-NeXT拓展OCR/数理任务，再到LLaVA-NeXT-Video处理视频、LLaVA-NeXT-Interleave支持多图文联推，这个系列一步步把多模态的边界越扩越宽，直到LLaVA-OneVision收束成统一接口——覆盖图像/文档/图表/多图/视频，兼顾效果与效率。

但开源多模态的"痛点"一直都在：很多所谓的"开源"其实只是放了个模型权重。Qwen2.5-VL、InternVL3.5在OCR、文档理解上做得很强，但完整的数据清单、清洗规则、训练细节全是"部分披露"；Molmo用干净数据流水线逼近闭源基线，可工程细节还是没说透。大家缺的从来不是"模型架构"，而是能端到端复现的"配方"——就像你拿到了蛋糕成品，却没拿到配料表和烘焙温度，根本做不出一模一样的味道。

现在，这个"复现难题"被解决了——灵感实验室联合LMMs-Lab推出LLaVA-OneVision-1.5，把"高性能-低成本-强复现"三个字刻进了每一行代码里：不仅开放模型权重，连数据、训练工具链、配置脚本、评测命令全给你，甚至把训练日志都贴出来了。更狠的是，8B规模的模型预训练，用128张A800显卡只要4天，预算才1.6万美元——普通人也能玩得起。

从"黑箱"到"透明"：全链路开源的核心突破

LLaVA-OneVision-1.5的灵魂，是"质量-覆盖-均衡"的数据集和"可复现的训练策略"。

1. 85M预训练+22M指令数据：用"概念均衡"破解长尾难题

以前的多模态数据要么"噪声大"（比如原始caption漏信息），要么"长尾偏"（高频的"天空""草地"占比高，罕见的"复古打字机按键""热带雨林附生植物"根本没多少）。我们的解法是：

多源融合
：把COYO-700M、Obelics、DataComp-1B等8大来源的图文对捏到一起，形成2000万中文+6500万英文的基础数据；
概念均衡
：用MetaCLIP把图像和50万概念词放进同一向量空间，给每张图找Top-K最像的概念，然后按"逆频加权"采样——高频概念少采点，罕见概念多采点，把长尾分布直接"拉平"；
增强描述
：用高质量Captioner生成对齐的中英文描述，把图像里的细粒度细节（比如"猫耳朵上的白色斑点""杯子上的复古花纹"）都写清楚。

实验证明，这套数据策略能在"多模态理解""长尾识别""指令泛化"上提分——同样的token预算，效果比盲目堆数据好得多。

2. 自研RICE-ViT：解决"全局对齐"的结构性瓶颈

以前的CLIP/SigLIP类模型只用"全局向量"对齐图像，没法处理OCR、表格这种需要局部细节的任务。我们的RICE-ViT直接搞了个区域聚类判别机制：在4.5亿图像+24亿候选区域上训练，用"区域感知注意力"+"2D旋转位置编码"，把局部实体（比如表格里的单元格、文档里的文字块）和全局上下文的关系理清楚。更绝的是，只用单一聚类判别范式，就同时强化了通用语义、OCR识别和定位能力——比SigLIP的多套损失函数简洁多了，训练推理链路更稳定。

3. 三阶段训练：从"接上头"到"会做事"

我们把训练拆成三步，每一步都瞄准"可复现"：

Stage-1（对齐）
：用LLaVA-1.5的558K数据集训练视觉投影层，先把视觉编码器和语言模型"接上头"；
Stage-1.5（注入知识）
：用85M预训练数据全参数训练，把广域视觉语义和世界知识灌进去——不堆token数量，只堆数据质量；
Stage-2（指令对齐）
：用22M指令数据（覆盖Caption、图表、数理、OCR等8大类）继续训练，让模型学会"听懂人类指令""按格式输出"。

4. 工程优化：把算力浪费降到最低

多模态数据的"长度差异"是算力杀手——短样本要补很多"占位符"（padding），浪费算力。我们用离线并行数据打包：先把短样本按长度聚类，再拼接成长度差不多的序列，最多能把无效占位符减少到原来的1/11。再配合"张量并行+流水并行+分布式优化器"，128张A800显卡跑8B模型的Stage-1.5，只要3.7天——算力利用率直接拉满。