变换器

它不像排队读句子,而是让句子里的词彼此打招呼:谁和谁有关,就把注意力连到谁身上。

关键结构图

当前相关远处弱强

几个词作为节点,中间用线表示注意力连接;重点节点用更粗的线连接相关词。

变换器让序列里的每个位置都能看到其他相关位置,从而更快地理解上下文。

变换器是一种深度学习模型结构。它用自注意力机制处理序列,让模型能直接比较不同位置之间的关系。

Structure变换器 = 序列输入 + 自注意力连接 + 并行处理

当任务需要理解一段文字、代码、音频或其他序列中的上下文关系时,就会遇到变换器。

先把输入拆成一组位置,再计算位置之间的注意力关系,最后把这些关系组合成新的表示,供后续模型继续处理。

读一句话时,你不会只看当前这个词,还会回头看前面出现的人、动作和语境。变换器把这种"看相关上下文"变成模型结构。

在 GPT 里,模型生成下一个词时,会参考前文中相关的位置,而不是只机械地看最后一个词。

类型:学术论文

事实线:Vaswani 等人在 Attention Is All You Need 中提出 Transformer,一种基于注意力机制、去掉循环和卷积的序列建模架构。

依据:2017 年 arXiv 论文 Attention Is All You Need。

边界:Transformer 是一类模型架构的基础,常用于语言和序列任务,但具体能力取决于训练数据、规模、目标函数和系统设计。

常见误读:不要把 Transformer 等同于所有 AI,也不要把“注意力机制”理解成人类式理解或真实注意力。