2025年10月14日星期二

LLaVA-OneVision-1。5全链路开源!8B多模态模型预训练仅4天1。6万美元,普通人也能复现强性能

LLaVA的出现像一把钥匙——用低成本对齐打通\x26quot;视觉编码器+大语言模型\x26quot;的链路,让\x26quot;看图-理解-对

2023年,LLaVA的出现像一把钥匙——用低成本对齐打通"视觉编码器+大语言模型"的链路,让"看图-理解-对话"的多模态能力从闭源巨头的"黑箱"里走出来,成了开源社区能玩得起的技术。从LLaVA-1.5的高分辨率强化理解,到LLaVA-NeXT拓展OCR/数理任务,再到LLaVA-NeXT-Video处理视频、LLaVA-NeXT-Interleave支持多图文联推,这个系列一步步把多模态的边界越扩越宽,直到LLaVA-OneVision收束成统一接口——覆盖图像/文档/图表/多图/视频,兼顾效果与效率。

图片

但开源多模态的"痛点"一直都在:很多所谓的"开源"其实只是放了个模型权重。Qwen2.5-VL、InternVL3.5在OCR、文档理解上做得很强,但完整的数据清单、清洗规则、训练细节全是"部分披露";Molmo用干净数据流水线逼近闭源基线,可工程细节还是没说透。大家缺的从来不是"模型架构",而是能端到端复现的"配方"——就像你拿到了蛋糕成品,却没拿到配料表和烘焙温度,根本做不出一模一样的味道。

图片

现在,这个"复现难题"被解决了——灵感实验室联合LMMs-Lab推出LLaVA-OneVision-1.5,把"高性能-低成本-强复现"三个字刻进了每一行代码里:不仅开放模型权重,连数据、训练工具链、配置脚本、评测命令全给你,甚至把训练日志都贴出来了。更狠的是,8B规模的模型预训练,用128张A800显卡只要4天,预算才1.6万美元——普通人也能玩得起。

从"黑箱"到"透明":全链路开源的核心突破

LLaVA-OneVision-1.5的灵魂,是"质量-覆盖-均衡"的数据集"可复现的训练策略"

图片

1. 85M预训练+22M指令数据:用"概念均衡"破解长尾难题

以前的多模态数据要么"噪声大"(比如原始caption漏信息),要么"长尾偏"(高频的"天空""草地"占比高,罕见的"复古打字机按键""热带雨林附生植物"根本没多少)。我们的解法是:

  • 多源融合
    :把COYO-700M、Obelics、DataComp-1B等8大来源的图文对捏到一起,形成2000万中文+6500万英文的基础数据;
  • 概念均衡
    :用MetaCLIP把图像和50万概念词放进同一向量空间,给每张图找Top-K最像的概念,然后按"逆频加权"采样——高频概念少采点,罕见概念多采点,把长尾分布直接"拉平";
  • 增强描述
    :用高质量Captioner生成对齐的中英文描述,把图像里的细粒度细节(比如"猫耳朵上的白色斑点""杯子上的复古花纹")都写清楚。

实验证明,这套数据策略能在"多模态理解""长尾识别""指令泛化"上提分——同样的token预算,效果比盲目堆数据好得多。

图片

2. 自研RICE-ViT:解决"全局对齐"的结构性瓶颈

以前的CLIP/SigLIP类模型只用"全局向量"对齐图像,没法处理OCR、表格这种需要局部细节的任务。我们的RICE-ViT直接搞了个区域聚类判别机制:在4.5亿图像+24亿候选区域上训练,用"区域感知注意力"+"2D旋转位置编码",把局部实体(比如表格里的单元格、文档里的文字块)和全局上下文的关系理清楚。更绝的是,只用单一聚类判别范式,就同时强化了通用语义、OCR识别和定位能力——比SigLIP的多套损失函数简洁多了,训练推理链路更稳定。

3. 三阶段训练:从"接上头"到"会做事"

我们把训练拆成三步,每一步都瞄准"可复现":

  • Stage-1(对齐)
    :用LLaVA-1.5的558K数据集训练视觉投影层,先把视觉编码器和语言模型"接上头";
  • Stage-1.5(注入知识)
    :用85M预训练数据全参数训练,把广域视觉语义和世界知识灌进去——不堆token数量,只堆数据质量;
  • Stage-2(指令对齐)
    :用22M指令数据(覆盖Caption、图表、数理、OCR等8大类)继续训练,让模型学会"听懂人类指令""按格式输出"。
    图片

4. 工程优化:把算力浪费降到最低

多模态数据的"长度差异"是算力杀手——短样本要补很多"占位符"(padding),浪费算力。我们用离线并行数据打包:先把短样本按长度聚类,再拼接成长度差不多的序列,最多能把无效占位符减少到原来的1/11。再配合"张量并行+流水并行+分布式优化器",128张A800显卡跑8B模型的Stage-1.5,只要3.7天——算力利用率直接拉满。

效果说话:比Qwen2.5-VL还能打

实验结果很直接:LLaVA-OneVision-1.5在多项多模态基准上,性能和Qwen2.5-VL持平甚至更优——比如OCR识别准确率、表格理解能力、跨图推理任务,都能拿到更好的分数(具体看技术报告)。更重要的是,这些结果全是可复现的——你按我们给的脚本跑一遍,就能得到一样的分数。

现在,轮到你玩了

LLaVA-OneVision-1.5把"开源"做到了极致:

  • 数据全开放
    :85M预训练+22M指令数据,直接下;
  • 工具链全给
    :训练脚本、配置文件、评测命令,一步一步教你跑;
  • 模型可下载
    :Hugging Face上直接拿权重;
  • Demo能试玩
    :点链接就能体验"看图回答""文档理解"。

论文标题:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

代码地址:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

技术报告:https://arxiv.org/abs/2509.23661

数据/模型:https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713

Demo:https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

写在最后:多模态的"平民化"时代来了

LLaVA-OneVision-1.5不是"又一个多模态模型",而是多模态训练的"开源基建"——它把巨头们的"技术壁垒"拆成了普通人能看懂、能复用的工具。以前要做个能打多模态模型,得有大团队、大预算;现在,只要你有128张A800,按我们的脚本跑,就能复现同样的性能。

多模态的未来,从来不是"少数人的游戏"。LLaVA-OneVision-1.5把" democratized(平民化)"刻进了名字里——接下来,就看你用它玩出什么新花样了。

大模型感兴趣的可以进群交流,已在群的就不要进了,我会定时清理
图片

#多模态大模型#大语言模型

历史优秀文章
替换视频人物:阿里开源wan2.2-vace-fun,可实现图片人物替换视频人物,文末一键包
AI+3D打印:从一张图片到真实的手办,保姆教程实现手办自由!文末一键包
图片数字人:对话唱歌都很自然,文末一键包,还有comfyui一键包
qwen-image-edit保持一致性真不错,图片编辑很灵活,文末一键包
基于claude code 接入国产模型,可调用agent,可控制操作系统,无需梯子使用本地大模型

没有评论:

发表评论

财政部推出5000亿特别国债,撬动6万亿信贷投放!各省市农商银行响应政策,支持中小微企业融资发展

一、财政部推出5000亿特别国债,撬动6万亿信贷投放在"十四五"时期,财政部积极贯彻落实国家财政政策,为推动经 一、财政部推出5000亿特别国债,撬动6万亿信贷投放 在"十四五"时期,财政部积极贯彻落实国家财政政策,为推动经济高质量发展...