2024年12月26日星期四

马斯克开源自家大模型Grok-1:具有314B参数,由 xAI从头开始训练!

就在刚刚,马斯克在最后一刻如约开源了Grok,模型有314B大小,这是第一个如此规模的开源模型。如此体量直接斩获目前最大开源模型的头衔。

据了解,Grok-1于2023年10月完成预训练阶段,该版本针对任何特定应用(例如对话)进行微调;以及是在 Apache 2.0 许可下发布权重和架构。

模型介绍

  • 基础信息:模型规模为314B,由8个专家系统组成(其中2个处于活跃状态)。活跃参数总数达到86B。该模型采用旋转嵌入(Rotary Embeddings)技术#rope,而非传统的固定位置嵌入方式。

  • 这个版本的Grok-1是在2023年10月完成预训练阶段时的初始模型版本。遵循Apache 2.0这一开源许可证下发布这个模型的权重和架构,任何人都可以在该许可证的规则下使用这些资源。

  • 它是一个拥有3140亿参数的混合专家模型,其中在处理每个数据单元(Token)时,大约有25%的模型参数是活跃的,这意味着模型可以更高效地运行。

官方公告

https://x.ai/blog/grok-os?continueFlag=767f850e2a0e131e997e1c23a732f8e1

模型架构介绍

  • 分词器的词汇量为131,072(与GPT-4相似),即2的17次方。嵌入向量的大小为6,144(48*128)。

  • 模型包含64层的Transformer结构。每层包含一个解码层,由多头注意力模块(Multihead Attention Block)和密集前馈块(Denseblock)构成。键值对(Key-Value)的大小为128。

  • 在多头注意力模块中:用于查询的头数为48, 而用于键/值(Key/Value, KV)的头数为8, 其中KV的大小为128。

  • 密集前馈块(Dense Block)的特点包括:扩展因子为8, 隐藏层的大小为32,768。每个Token会从8个专家中选出2个进行处理。

  • 旋转位置嵌入(Rotary Positional Embeddings)的大小为6,144,这与模型的输入嵌入尺寸相匹配。

模型细节

  • 在大量文本数据上训练的基础模型,没有针对任何特定任务进行微调。
  • 314B参数mix-of-experts模型,在给定token上激活权重为25%。
  • 2023年10月,xAI使用JAX和Rust之上的自定义训练堆栈从头开始训练。

模型算力估计

模型可以处理的上下文长度为8,192个Token。计算精度为bf16。为了运行整个模型,你可能需要5台H100 GPU。

使用说明

要开始使用该模型,请遵循以下说明:

https://github.com/xai-org/grok-1



感谢你看到这里,也欢迎点击关注上方公众号或者关注本公众号的官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC微信交流群


没有评论:

发表评论

爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24。6%,学界惊了

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 转载自:新智元 如有侵权,联系删稿 今早的一篇爆火论文,彻底颠覆了人们对「强化学习」的传统认知。 仅用随机奖励,甚至是错误答案,也能让AI在数学推理中...