2025年5月17日星期六

大模型再现黑马!英伟达开源Llama-Nemotron系列模型,效果优于DeepSeek-R1。

近日,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)




近日,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。

图片

该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。这些模型不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在 Hugging Face 上公开,遵循 NVIDIA Open Model License 和 Llama 社区许可,可商业使用。

图片截至 2025 年 4 月,根据人工智能分析,我们的旗舰型号 LN-Ultra 是最

相关链接

  • 论文:https://arxiv.org/pdf/2505.00949
  • 代码:https://github.com/NVIDIA/NeMo
  • 数据集:https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset
  • 模型:https://huggingface.co/models?library=nemo&sort=downloads&search=nvidia

NeMo介绍

NVIDIA NeMo 框架是一个可扩展的云原生生成式 AI 框架,专为从事大型语言模型 (LLM)、多模态模型 (MM)、自动语音识别 (ASR)、文本转语音 (TTS) 和计算机视觉 (CV) 领域的研究人员和 PyTorch 开发者打造。它旨在帮助您利用现有代码和预训练的模型检查点,高效地创建、定制和部署新的生成式 AI 模型。

NeMo 2.0 的新功能

  • NVIDIA NeMo 2.0 与其前身 NeMo 1.0 相比引入了几项重大改进,增强了灵活性、性能和可扩展性。

  • 基于 Python 的配置- NeMo 2.0 从 YAML 文件转换为基于 Python 的配置,从而提供更高的灵活性和控制力。这种转变使得以编程方式扩展和自定义配置变得更加容易。

  • 模块化抽象——通过采用 PyTorch Lightning 的模块化抽象,NeMo 2.0 简化了适配和实验。这种模块化方法使开发人员能够更轻松地修改和实验其模型的不同组件。

  • 可扩展性——NeMo 2.0 使用NeMo-Run在数千个 GPU 上无缝扩展大规模实验,NeMo-Run 是一种强大的工具,旨在简化跨计算环境的机器学习实验的配置、执行和管理。

总的来说,这些增强功能使 NeMo 2.0 成为一个强大、可扩展且用户友好的 AI 模型开发框架。NeMo 2.0 目前由 LLM(大型语言模型)和 VLM(视觉语言模型)集合支持。

定性评估

LN-Ultra 在广泛的推理和非推理基准测试中,在开放模型中表现出色。
LN-Ultra 在广泛的推理和非推理基准测试中,在开放模型中表现出色。
图片

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

这两款完全免费的短视频下载工具可以下载很多平台短视频,包括视频号视频,值得你拥有

不过今天高粱seo给大家带来的这两款ai短视频下载工具非常好使,也是高粱seo目前一直在使用的,值得给大家推荐一番,基本上国内的大平台都可以下载。 在图片生成ai短视频的过程中,有一个非常重要的步骤就是运镜。运镜是什么东西?高粱seo觉得可能很多人未必明白,其实 运镜是影视制...