1. position embedding 位置编码
我们为什么要引入位置编呢?主要有以下几个原因:
* 文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义。
* transformer模型的self-attention层并没有包含位置信息,即一句话中词语在不同的位置时在transformer中是没有区别的。
我们要想让位置信息参与训练,就要构造一个跟输入embedding维度一样的矩阵,然后跟输入embedding相加得到multi-head attention
(这个会在后面的部分讲解到)的输入。position encoding说白了就是一个矩阵,那么这个矩阵如何生成,生成
其中,PE为二维矩阵,维度跟输入embedding的维度一样,行表示词语,列表示词向量;pos
表示词语在句子中的位置;i表示在该词语中,词向量所在的位置(在哪一个dimension)。因此,上述公式表示在每个词语的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此来填满整个PE矩阵,然后加到input
embedding中去,这样便完成位置编码的引入了。
为什么要用三角函数来表示位置信息呢? 其实也用其他的表示方式,对于transformer模型的positional encoding有两种主流方式:
*
绝对位置编码
*
相对位置编码