就在刚刚,马斯克在最后一刻如约开源了Grok,模型有314B大小,这是第一个如此规模的开源模型。如此体量直接斩获目前最大开源模型的头衔。
据了解,Grok-1于2023年10月完成预训练阶段,该版本针对任何特定应用(例如对话)进行微调;以及是在 Apache 2.0 许可下发布权重和架构。
模型介绍
基础信息:模型规模为314B,由8个专家系统组成(其中2个处于活跃状态)。活跃参数总数达到86B。该模型采用旋转嵌入(Rotary Embeddings)技术#rope,而非传统的固定位置嵌入方式。
这个版本的Grok-1是在2023年10月完成预训练阶段时的初始模型版本。遵循Apache 2.0这一开源许可证下发布这个模型的权重和架构,任何人都可以在该许可证的规则下使用这些资源。
它是一个拥有3140亿参数的混合专家模型,其中在处理每个数据单元(Token)时,大约有25%的模型参数是活跃的,这意味着模型可以更高效地运行。
官方公告
https://x.ai/blog/grok-os?continueFlag=767f850e2a0e131e997e1c23a732f8e1
模型架构介绍
分词器的词汇量为131,072(与GPT-4相似),即2的17次方。嵌入向量的大小为6,144(48*128)。
模型包含64层的Transformer结构。每层包含一个解码层,由多头注意力模块(Multihead Attention Block)和密集前馈块(Denseblock)构成。键值对(Key-Value)的大小为128。
在多头注意力模块中:用于查询的头数为48, 而用于键/值(Key/Value, KV)的头数为8, 其中KV的大小为128。
密集前馈块(Dense Block)的特点包括:扩展因子为8, 隐藏层的大小为32,768。每个Token会从8个专家中选出2个进行处理。
旋转位置嵌入(Rotary Positional Embeddings)的大小为6,144,这与模型的输入嵌入尺寸相匹配。
模型细节
在大量文本数据上训练的基础模型,没有针对任何特定任务进行微调。 314B参数mix-of-experts模型,在给定token上激活权重为25%。 2023年10月,xAI使用JAX和Rust之上的自定义训练堆栈从头开始训练。
模型算力估计
模型可以处理的上下文长度为8,192个Token。计算精度为bf16。为了运行整个模型,你可能需要5台H100 GPU。
使用说明
要开始使用该模型,请遵循以下说明:
https://github.com/xai-org/grok-1
感谢你看到这里,也欢迎点击关注上方公众号或者关注本公众号的官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论