李飞飞高徒教你从0到1构建GPT，马斯克点赞

howsp322

原标题：李飞飞高徒教你从0到1构建GPT，马斯克点赞
詹士发自凹非寺
量子位 | 大众号 QbitAI
“从0到1手搓GPT”教程来了！
视频1个多小时，从原理到代码都一一呈现，训练微调也涵盖在内，手把手带着你搞定。

ywaaolhvtz3.jpg

该内容刚收回来，在Twitter已吸引400万关注量，HackerNews上Points也破了900。
连马斯克也下场反对。
评论区更是一片锣鼓喧天鞭炮齐鸣，网友们纷纭马住。

hfqryvutx0r.jpg

有人评估，Andrej的确是一名杰出的“事物解释者”，也热情于回答大家的问题。

5kkhntqahbc.jpg

展开全文还有网友更夸大，称该教程几乎是来“救命”。
那末，这位 活菩萨是谁？
恰是前特斯拉AI总监，李飞飞高徒—— Andrej Karpathy。

qlpfuswr5n2.jpg

教程详细说了甚么？
这就来展开讲讲。
从零构建GPT，总共几步？
视频教程先从实践讲起。
第一部份次要对于建设基准言语模型（二元）以及Transformer中心留意力机制，以及该机制内节点之间的信息传递，自留意力机制实践也有波及。
该part内容长度超过1小时，不只有概念解释，还教你如何使用矩阵乘法、添加softmax归一化，堪称“夯实根底”式讲授。

dfz03fjqkgu.jpg

接着讲述构建Transformer。
这傍边波及了多头留意力（包罗如何拔出曾经自留意力构建块）、多层感知机（MLP）、残差衔接、归一化办法LayerNorm以及如安在Transformer中添加Dropout Notes…….
而后，作者会带大家训练一个模型，傍边会用到一个名为nanoGPT的库，可调用GPT-2参数，疾速实现GPT模型的训练。
教程中，作者还将所得模型与Open AI的GPT-3对比。二者范围差距达1万-100万倍，但神经网络是相反的。另外一个将拿来对比的是人尽皆知的ChatGPT，固然，咱们目前所得只是预训练模型。

cnk1e05wbkz.jpg

在上述内容疏导下，咱们已得一个10M参数范围的模型，在一个GPU上训练15分钟，喂给1MB大小的莎士比亚文本数据集，它就可以像莎士比亚同样输入。
好比上面两张图，你能分辨哪一个是真人莎士比亚写的吗？

3fsml05ac3r.jpg

评论区有人猎奇选甚么GPU资源。作者也分享了下——本人用的是Lambda的云上GPU，这是他目前接触按需计费GPU中，最简略的渠道。
光说不练不行，作者还给出一些课后练习，总共四道题，包罗：
N维张量掌握应战；  在本人选择的数据集上训练GPT；  找一个十分大的数据集，基于它训练Transformer，而后初始化再基于莎士比亚数据集微调，看能否经过预训练获取更低的验证损失？  参考Transformer相干论文，看看以前钻研中哪些操作能进一步晋升机能；前文提及，作者之所以能疾速实现训练GPT，有赖于一个名nanoGPT的库。
这也是本教程作者头几天刚公布的利器，由2年前的minGPT降级而来，只是换了个更“标题党”的名字，自称纳米级（nano）。目前，其在GitHub所获star已超8k，网友连连点赞。

ggn5xoxpxzh.jpg

据作者引见，该库外面包孕一个约300行的GPT模型定义（文件名：model.py），能够从OpenAI加载GPT-2权重。
还有一个训练模型PyTorch样板（文件名：train.py），一样也是300多行。
对想上手的AI玩家来讲，无论是从头开始训练新模型，仍是基于预训练进行微调（目前可用的最大模型为1.3B参数的GPT-2），各路需要均能知足。

zkuiwsn4uan.jpg

△一个训练实例展现
据作者目前本人的测试，他在1 个 A100 40GB GPU 上训练一晚，损践约为 3.74。假如是在4个GPU上训练损践约为3.60。
假如在8个A100 40GB节点上进行约50万次迭代，时长约为1天，atim的训练降至约3.1，init随机几率是10.82，已将后果带到了baseline规模。

5x0mdgw21t3.jpg

对macbook或一些“气力”缺乏的小破本，靠nanoGPT也能开训。
不外，作者倡议使用莎士比亚（shakespeare）数据集，该数据集前文已提及，大小约1MB，而后在一个很小的网络上运转。
据他本人亲自示范，创立了一个小很多的Transformer（4层，4个head，64嵌入大小），在作者本人的苹果AIR M1本上，每次迭代大约需求400毫秒。
（GitHub上nanoGPT链接附在文末，有需求的敌人自取）
One More Thing
此番教程作者Karpathy Andrej在圈内早已很有名望，他在斯坦福时，师从华人AI大牛李飞飞，后又曾任务于Open AI。
此前，Karpathy就在努力于让更多人接触理解神经网络和相干数据集。2020年8月，他就曾公布nanoGPT前一代，MinGPT，一样旨在让GPT做到玲珑、简洁、可解释，一样主打——300行代码解决问题。
Karpathy另外一个身份是前特斯拉AI中心人物。
在马斯克麾下，他历任特斯拉初级AI主管、特斯拉自动驾驶AutoPilot担任人、特斯拉超算Dojo担任人、特斯拉擎天柱人形机器人担任人…
2022年7月，Karpathy Andrej到职，在业内诱发不小探讨。过后他就表现，将来将花更多时间在AI、开源技术教育上。
这回公布的从0开始构建GPT课程，恰是他教学方案的一部份。
课程视频： http://www.youtube.com/watch?v=kCc8FmEb1nY
nanoGPT GitHub链接： http://github.com/karpathy/nanoGPT
— 完—
「人工智能」、「智能汽车」微信社群邀你参加！
欢送关注人工智能、智能汽车的小火伴们参加交流群，与AI从业者交流、切磋，不错过最新行业开展&技术停顿。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

李飞飞高徒教你从0到1构建GPT，马斯克点赞

发表回复

howsp322
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

李飞飞高徒教你从0到1构建GPT，马斯克点赞

发表回复

howsp322 关注TA

图文推荐

howsp322
关注TA