自注意力机制

读一句话时,你不会只盯着眼前这个词。你会回头看谁是主语、哪个词在修饰它、前面有没有埋过线索。自注意力机制把这种互相关照变成模型里的计算。

关键结构图

当前相关远处弱强

一排词作为节点,当前词高亮,用粗细不同的线连接到几个相关词。

自注意力机制让一段内容里的每个位置,都能去看其他位置和自己有多相关。

自注意力机制是一种在序列内部计算位置关系的方法。它会让每个位置根据相关性,从其他位置收集信息。

Structure自注意力机制 = 当前 token + 相关 token + 权重连接

当模型需要理解文字、代码或时间序列里的上下文关系时,自注意力机制就很重要。

先把输入拆成一组位置,再计算每个位置和其他位置的相关程度,最后按权重把相关信息合并回来。

句子里出现"它"时,人会回头找"它"指的是谁。自注意力机制也会让当前位置去关注前面相关的词。

读代码时,一个变量名可能和很多行之前的定义有关。模型需要建立这种远距离连接,才更可能理解代码结构。

类型:学术论文

事实线:Vaswani 等人在 Attention Is All You Need 中提出 Transformer,并把自注意力作为处理序列关系的核心机制之一。

依据:2017 年 arXiv 论文 Attention Is All You Need 对 self-attention / multi-head attention 的模型说明。

边界:自注意力计算的是序列位置之间的权重关系,不等于人类注意力,也不能单独保证模型理解正确。

常见误读:不要把“注意力权重”直接理解成模型的真实理由,更不要把它当成人类式理解的证明。