01
作者简介
https://www.youtube.com/@AndrejKarpathy
02
nanochat项目
大佬开源这个项目的目的很清晰:让 AI 大模型训练 平民化。
使用这个开源项目,你花 100 美元租一台 8 块 H100 显卡的计算节点(约 24 美元 / 小时),跑 4 小时就能得到一个能聊天的小模型。
花 800 美元能训出 19 亿参数的 d32 模型(32 层 Transformer),性能比 2019 年的 GPT-2 还好。
这个开源项目的代码只有 44 个文件、8000 多行,每个环节都写得直白。
比如分词用 rustbpe 模块,训练用 scripts 里的 base_train.py,网页服务靠 scripts.chat_web。
想自己跑通流程也很简单:
把开源项目 Clone 下来,然后租一台 8XH100 的服务器,执行 bash speedrun.sh ,运行4 小时后用如下命令启动网页 UI。
python -m scripts.chat_web
启动网页 UI,就能跟自己训的模型聊天了:
过程中还能看 log 文件跟踪进度,训完有 report.md 报告。
里面列着模型在常识推理、数学题等任务上的得分,帮助你直观理解训练时间、模型大小和性能的关系。
nanochat 最大的意义,是把 AI 大模型从大厂专属拉到了普通人面前。它不是要做最强大的模型,而是要做最易上手的全流程 AI 大模型工具。
让你能亲手训模型,让小团队能低成本定制模型,让研究者能快速试错。不管你是想入门大模型、做小场景应用,还是教别人学 AI,这个项目都值得试试。
毕竟,能花 100 美元跑通从数据到可用的全流程,这种看得见、摸得着的体验,比看十篇论文都管用。
开源地址:https://github.com/karpathy/nanochat
03
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论