2025年4月13日星期日

「国货之光」Kimi-VL横空出世!2。8B参数硬刚GPT-4o,真能打!

还记得那个"光看图都能答题"的AI模型Kimi么?这回,它的视觉语言模型分支 Kimi-VL 正式开源了!不仅能看图说话、看视频总结,还能读超长文档、做数学题,甚至在多图、多轮对话中丝滑应对,堪称多模态界的"六边形战士"。

最离谱的是:它的激活参数居然只有2.8B!
是的,面对动辄10B、20B起步的GPT-4o、Gemini家族,它却靠"小体积+大脑力",硬刚主流大模型,结果还真有看头。



🧠 模型亮点盘点:什么是Kimi-VL?

Kimi-VL 是由 Moonshot AI 推出的开源视觉语言模型(VLM),主打三个关键词:

  • 高效 MoE 架构:总参数16B,但每次推理仅激活 2.8B;

  • 强视觉能力:原生分辨率视觉编码器 MoonViT 加持,图像信息"一个像素都不放过";

  • 超长上下文理解:支持 128K 长上下文窗口,读图也能读"长篇小说";

更惊喜的是,Kimi-VL 并非单兵作战,它还有一位强化版"兄弟模型"——Kimi-VL-Thinking,支持长链式思维推理(Long-CoT),用来处理更复杂、更抽象的任务。


📈 数据说话:Kimi-VL 真的能打?

来看一组真实跑分:

测试基准
Kimi-VL-Thinking 成绩
GPT-4o-mini 成绩
Qwen2.5-VL 成绩
MMMU(多模态大学题库)61.7%
 ✅
60.0%
58.6%
MathVision(视觉数学)36.8%
 ✅
30.4%
33.0%
MathVista(复杂数学视觉推理)71.3%
 ✅
63.8%
66.5%

而且别忘了,Kimi-VL-Thinking 的激活参数 只有2.8B,模型体积却逼近 GPT-4o 的表现,这谁顶得住?!



🔍 模型架构揭秘:精巧而不失性能

Kimi-VL的核心架构可以拆解成三大块:

① 原生视觉编码器 MoonViT

  • 不缩图、不切图,保留图像全部细节;

  • 引入 NaViT 打包机制,让高分辨率图也能轻松处理;

  • 与语言模型共享算子,训练吞吐量提升显著

② MLP 投影层

  • 采用 2 层感知机对视觉特征进行压缩与投影;

  • 保证图像向量能完美对接语言模型嵌入空间。

③ MoE 架构语言模型

  • 基于 Moonlight 语言模型,MoE 混合专家激活方式;

  • 总参数 16B,激活参数 2.8B,性能/计算成本双平衡;

  • 支持最长 128K 上下文,直接拉满长文本阅读体验


    🧪 实战场景下的表现如何?

Kimi-VL 的实力,远不止理论数据,在真实任务中的表现也非常亮眼:

  • OCR场景(InfoVQA):能清晰识别复杂图文混排,得分高达 83.2 分

  • 视频理解(LongVideoBench):长视频处理能力一骑绝尘,拿下 64.5 分

  • 多图理解(BLINK):多张图同时输入,一问多答不卡壳;

  • 智能体任务(OSWorld、ScreenSpot-Pro):可多轮对话+界面解析,完成任务流程像真人操作一样丝滑。


🧠 长思考的加持:Kimi-VL-Thinking 真的会"想"

你以为开源模型只能靠 brute force?Kimi-VL-Thinking 说:"我更会思考。"

  • 长链推理(Long CoT)能力已解锁

  • 通过 SFT + RL 方式激活"深层思维";

  • 实测在多步数学题、复杂视觉场景中表现出色,推理路径更清晰、结论更精准。

这是开源模型中少有的轻量级+思维能力强的组合。



🛠️ 为啥它比其他模型更值得关注?

Kimi-VL 是为了解决现有开源VLM的三大痛点而生:

  1. 多数VLM视觉编码器固定尺寸:处理超清图像时丢信息;

  2. 上下文窗口过短:难以胜任多图、多页文档场景;

  3. 不支持长链推理:逻辑跳跃、答非所问。

Kimi-VL 做到了:

✅ 原生高分辨率输入
✅ 支持128K长文本/视频输入
✅ RL强化的长链推理能力

关键是:代码、模型都已开源!


📦 模型获取方式一览(不用爬梯子)

  • 📜 技术论文:https://arxiv.org/abs/2504.07491v1

  • 💻 GitHub 开源代码:https://github.com/MoonshotAI/Kimi-VL

  • 🤗 Hugging Face 模型权重:

    • Kimi-VL-A3B-Instruct:https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

    • Kimi-VL-A3B-Thinking:https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking


🔮 写在最后:这波国产 AI,是不是有点东西?

Kimi-VL 的诞生,给原本"内卷但稀缺"的开源多模态模型市场注入了新活力。

它用精巧的设计和硬核的性能,证明了:轻量级也能很聪明,开源模型也能打旗舰级!

当然,Kimi-VL 也不是"完美无瑕",比如在超专业场景上略显吃力,但它已为后续的版本迭代和更大模型铺好了路。

下一步的Kimi-VL 2.0,是否会成为国产VLM的天花板?我们拭目以待。


没有评论:

发表评论

扣子空间上线极致拟人的AI播客,这次真是降维打击了。

这个语气,这个聊天的感觉,我人麻了。 一篇文章,一键转成几乎跟真人无异的十几分钟中文AI播客。 有打断、有语气、有停顿,就特么离谱。 这,就是我用我现在的这篇文章,生成的AI播客。 这个语气,这个聊天的感觉,我人麻了。 这个AI播客,来自于扣子空间。 昨天,很多人在群里说,扣...