2025年8月18日星期一

Meta 开源视觉大模型 DINOv3,尖端图像表征,无需人工监督即可训练,数十个视觉榜单准测试性能SOTA!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

Meta 发布了 DINOv3,它可以扩展图像的自监督学习,以创建通用视觉主干,在包括网络和卫星图像在内的不同领域实现绝对最先进的性能。 DINOv3 主干网络能够生成强大的高分辨率图像特征,从而轻松训练轻量级适配器。这使得其在一系列下游视觉任务(包括图像分类、语义分割和视频中的对象跟踪)上表现出色。

Meta Dino-V3 : Vision model for every Image task

通过提供更小的模型来增强 DINOv3 的多功能性,这些模型在广泛的评估套件中表现优于基于 CLIP 的同类衍生产品,以及针对资源受限用例的替代 ConvNeXt 架构。

DINOV3 概述

DINOv3 是一款通用的、先进的计算机视觉模型,采用 SSL 进行训练,能够生成卓越的高分辨率视觉特征。这是首次在多个长期存在的密集预测任务(包括对象检测和语义分割)上,单个冻结视觉主干网络的性能优于专用解决方案。

DINOv3 将无监督训练扩展到 70 亿参数模型和 17 亿图像数据集,仅使用了弱监督方法一小部分的计算资源。尽管在评估过程中主干模型保持不变,但它们在各个领域都实现了绝对领先的性能。

图片

性能评估

图片DINOv3 为视觉基础模型树立了全新标准。使用 SSL 训练的模型首次在一系列探索性任务(从细粒度图像分类到语义分割,再到视频中的目标追踪)上超越了弱监督模型。

应用场景

图片
图片

图片DINOv3 已在现实世界中产生影响。世界资源研究所(WRI) 正在使用我们的最新模型监测森林砍伐并支持修复工作,帮助当地团体保护脆弱的生态系统。WRI 使用 DINOv3 分析卫星图像,监测受影响生态系统中的树木损失和土地利用变化。DINOv3 的准确度提升有助于通过验证修复成果、降低交易成本以及加快向小型当地团体提供资金来支持气候融资支付的自动化。例如,与 DINOv2 相比,基于卫星和航空图像训练的 DINOv3 将肯尼亚某地区树冠高度测量的平均误差从 4.1 米降低到 1.2 米。WRI 现在能够更有效地扩大对数千名农民和保护项目的支持。

方法概述

自我监督预训练解锁简单的任务适应

预训练数据来自一个庞大的未标记数据集。在预训练期间,模型学习通用的视觉表征,匹配同一图像的不同增强视图之间的特征。在后训练期间,模型被提炼为更高效的模型。

图片

通过在少量带注释的数据上训练轻量级适配器,可以轻松定制预先训练的 DINOv3 模型。图片

DINOv3 标志着大规模自监督训练的全新里程碑。它在 DINOv2 的扩展基础上,进一步将模型规模扩大了 6 倍,训练数据量扩大了 12 倍。

图片

相关链接

  • 论文:https://arxiv.org/pdf/2508.10104
  • 博客:https://ai.meta.com/blog/dinov3-self-supervised-vision-model/
  • 主页:https://ai.meta.com/dinov3/
  • 开源地址:https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
  • 代码:https://github.com/facebookresearch/dinov3

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

国产AI模型GLM-4。6硬刚Claude Sonnet 4!200K上下文窗口+工具增强推理,重新定义多任务AI代理。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号! 添加微信号:AIGC_Tech,公众号小助手会拉你进群! 点击下方名片关注AIGC Studio公众号 ! 获取 最新AI前沿应用/ AIGC实践教程 ! 与 GLM-4....