学完这个教程，小白也能构建Transformer模型，DeepMind迷信家保举

pyc_80

原标题：学完这个教程，小白也能构建Transformer模型，DeepMind迷信家保举
Pine 发自凹非寺
量子位 | 大众号 QbitAI
真正零门坎！小白都能轻松看懂的Transformer教程来了。
在天然言语处置和计算机视觉畛域，Transformer前后代替了RNN、CNN的位置成为首选模型，比来爆火的ChatGPT也都是基于这个模型。
换言之，想进入机器学习的畛域，就必需得懂Transformer。
这不，量子位就发现了一篇零根底也能学的教程，作者是前微软、Facebook首席数据迷信家，也是MIT机械工程的硕博士， 从视觉化矩阵乘法开始，带你一步步入门。
DeepMind钻研迷信家Andrew Trask也转发评论道：
这是我至今见过最佳的教程，它对入门者 十分十分敌对。
这是我至今见过最佳的教程，它对入门者 十分十分敌对。

qif550bim0x.jpg

这条帖子也是掀起了一阵热度，阅读量曾经有近30w。
网友们也纷纭在评论区作出“码住”状。

klsli2canx0.jpg

展开全文从视觉化矩阵乘法开始学
由于这是一个老手入门的教程，所以在正式学Transformer以前，会有得多引见矩阵乘法和反向传布的内容。
而且在引见的过程当中，作者逐一添加学习Transforme所需求理解的概念，并加以解释。
详细有多老手敌对，咱们先来浅看下这篇教程～
根底概念解释
首先，理解Transformer的第一步就是编码，就是 把一切的单词转换成数字，进而能够进行数学计算。
个别来讲，将符号转换为数字的无效办法是先对一切单词符号调配数字，每个单词符号都会对应一个独立的数字，而后单词组成的句子即可以经过数字序列来表现了。
举个简略的例子，好比files=1、find=2和my=3。而后，句子“ Find my files”能够表现为数字序列[2,3,1]。
不外这里引见的是此外一种办法，即 独热编码。
详细来讲，就是将单词符号转换成一个数组，这个数组中只能有一个1，其余全为0。仍是下面阿谁例子，用这类形式表现的话如下图。

nh1kpasso44.jpg

这样一来，句子“Find my files”就变为了一维数组的序列，紧缩到一块也就像是二维数组了。

cphaaepd1np.jpg

接上去就要再来理解下点积和 矩阵乘法了。
点积这里也就再也不过量赘述，元素相乘再相加即可以了。
它有两个作用，一个是用来度量 两个单词之间的类似性，一个是 显示单词的表现强度。
类似性很容易判断，一个单词的独热矢量和本人的点积是1，和其余的点积为0.
至于表现强度，和一个可以表现不同权重的值向量进行点乘即可以了。

xk0ojdsprln.jpg

矩阵乘法，看上面这幅图便足矣。

nstoiosmmya.jpg

从简略的序列模型开始引见
理解完这些根底概念之后，就要步入正规了，开始学习Transformer是如何处置命令的。
仍是用例子来解释，开发NLP计算机界面时，假定要处置3种不同的命令
Show me my directories please. （请给我看看我的目录）  Show me my files please. （请给我看看我的档案）  Show me my photos please. （请给我看看我的照片）能够用上面这个流程图（马尔可夫链）来表现，箭头上的数字表现下一个单词泛起的几率。

0et2tvxgy20.jpg

接上去解释将马尔可夫链转换为矩阵方式了，如下图。
每一个列代表一个单词，而且每一个列中的数字代表这个单词会泛起的几率。
由于几率和老是为1，所以每行的数字相加都为1。

hlmtsedt2ci.jpg

以my为例，要想知道它的下一个单词的几率，能够创立一个my的独热向量，乘下面的转移矩阵便能得出了

kpfyrzkkznd.jpg

再而后，作者又具体引见了二阶序列模型，带腾跃的二阶序列模型，掩码。
至此，对于Transformer，曾经学到了最中心的部份，最少曾经理解了在解码时，Transformer是如何做的。
不外理解Transformer任务的原理和从新建造Transformer模型之间仍是有很大差距的，后者还得斟酌到实际状况。
因此教程中还进一步展开，作了更大篇幅的学习教程，包罗Transformer最首要的留意力机制。
换句话说，这个教程就是从最根底的货色教咱们从新构建一个Transformer模型。
更为详细内容就不在这里一一列出了，感兴致的敌人能够戳文末链接学习。
目录先放在这里，能够按照本人的根底常识选择从哪个阶段开始学起：
1、独热（one-hot）编码
  2、点积
  3、矩阵乘法
  4、矩阵乘法查表
  5、一阶序列模型
  6、二阶序列模型
  7、带腾跃的二阶序列模型
  —-联系线—-（学完下面这些，就曾经驾驭住Transformer的精华了，不外要想知道Transformer，还得往下看）
  8、矩阵乘法中的留意力
  9、二阶矩阵乘法序列模型
  10、实现序列
  十一、嵌入
  十二、地位编码
  13、解除嵌入
  14、softmax函数
  15、多头留意力机制
  16、使用多头留意力机制的缘故
  17、重现单头留意力机制
  18、多头留意力块之间的跳过衔接
  19、横向标准化（Layer normalization）
  20、多留意力层
  21、解码器堆栈
  22、编码器堆栈
  23、编码器和解码器栈之间的穿插留意块
  —-又一个联系线—-（假如你学到这里，那阐明Transformer你曾经掌握得差未几了，前面讲的货色就是对于如何让神经网络表示良好了）
  24、字节对编码（Byte pair encoding）
1、独热（one-hot）编码
2、点积
3、矩阵乘法
4、矩阵乘法查表
5、一阶序列模型
6、二阶序列模型
7、带腾跃的二阶序列模型
—-联系线—-（学完下面这些，就曾经驾驭住Transformer的精华了，不外要想知道Transformer，还得往下看）
8、矩阵乘法中的留意力
9、二阶矩阵乘法序列模型
10、实现序列
十一、嵌入
十二、地位编码
13、解除嵌入
14、softmax函数
15、多头留意力机制
16、使用多头留意力机制的缘故
17、重现单头留意力机制
18、多头留意力块之间的跳过衔接
19、横向标准化（Layer normalization）
20、多留意力层
21、解码器堆栈
22、编码器堆栈
23、编码器和解码器栈之间的穿插留意块
—-又一个联系线—-（假如你学到这里，那阐明Transformer你曾经掌握得差未几了，前面讲的货色就是对于如何让神经网络表示良好了）
24、字节对编码（Byte pair encoding）
Brandon Rohrer，目前是Linkedin的一位机器学习工程师，曾前后在微软，Facebook负责首席数据迷信家。
在Facebook任务期间，他建设了一种更准确的电网映照预测模型，以评价寰球的中压电网的连通性和路由。

p5lrc2opr3s.jpg

写教程算是Brandon的一大喜好了，目前他一切的教程都不停更新在他的旧书《如何训练你的机器人》中，帖子的跨度从职业开展到各种编程工具的引见。
传送门：
http://e2eml.school/transformers.html#softmax
更多教程：
http://e2eml.school/blog.html
— 完—
百度钻研院、阿里达摩院、量子位智库
年度十大科技讲演
总结2022，预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布， 点击下方图片便可跳转查看。
百度钻研院
阿里达摩院
量子位智库
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

学完这个教程，小白也能构建Transformer模型，DeepMind迷信家保举

发表回复

浏览过的版块

pyc_80
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

学完这个教程，小白也能构建Transformer模型，DeepMind迷信家保举

发表回复

浏览过的版块

pyc_80 关注TA

图文推荐

pyc_80
关注TA