IT 论文精读 · PAPER 1

Attention Is All You Need(Transformer)

Vaswani 等 · Google · NeurIPS 2017

EN →

这篇论文干了什么?

2017 年,Google 一队人提出了一个叫 Transformer 的新「大脑结构」。你今天听说的 ChatGPT、各种 AI 聊天和绘画,几乎全都长在这个结构上——这篇论文就是它的出生证明。

先打个比方

读这句话:「小猫没过马路,因为太累了。」你一眼就知道「它」指小猫、不是马路——因为读到「它」的时候,你会回头扫一眼整句话,判断谁跟「它」最相关。

Transformer 干的就是这件事:让句子里每个词,都回头扫一眼全句、自己决定该重点看谁。这个「按相关度分配注意力」的动作,就叫注意力(attention)——论文标题说「注意力就是你需要的全部」,正是这个意思。

它到底新在哪?

在它之前,机器读句子像排队传话:一个词一个词地读,前面的信息一站站往后传。句子一长,前头说了啥就传糊了、传丢了;而且必须一个接一个,快不起来。

Transformer 把「排队传话」换成了开会:所有词一次性摆上桌,每个词同时看向所有词、一步就能跟最远的词对上话。于是两个好处:① 快(大家并行地看,不用排队)、② 记性好(再远的词也一步够到,不会传丢)。

那它怎么决定「该听谁」?

每个词身上挂着两张小标签:一张写「我在找什么」(比如「它」在找前面出现过的一个名词),一张写「我是什么」(比如「小猫」是个动物名词)。一个词就拿自己那张「我在找什么」,去跟全句每个词的「我是什么」逐一比一下——越对得上,就越多地听那个词的。「它」的「找名词」对上了「小猫」的「是名词」,于是它重点听小猫。整件事就是这么朴素的「按匹配度分配注意力」,没有玄机。

而且它不止用一种眼光看:同时用好几套标签、从好几个角度看(一套盯语法、一套盯谁指代谁、一套盯语气……),最后再合起来——这叫多头。另外,因为所有词是「一次性摆上桌」的、天生没了先后,模型还会给每个词发一个「座位号」,好知道谁在前谁在后。

代价也有:词一多,两两之间都得互相看一眼,计算量涨得很快,所以特别长的文本它会吃力——这正是后来一堆改进想解决的问题。

这带来了什么?

因为又快又记得住,人们发现只要把这个结构堆得更大、喂更多数据,它就越来越聪明——于是有了 BERT、GPT,一路长成今天会聊天、会写代码、会画画的大模型。可以说,今天几乎每个厉害的 AI,心脏里都是这篇论文的这套「开会」机制

一句话记住

让句子里每个词都回头扫一眼全句、自己决定重点听谁——用这个「注意力」动作,取代老式的「排队传话」,于是 AI 读得又快、又记得住远处的关系。这套结构后来长成了几乎所有大模型。

想深入到机制、公式和示意图? → 切到精读版