Attention Is All You Need
这不是逐字翻译,而是把 Transformer 论文整理成一条能读下去、能继续追问的中文路线: 为什么不用循环网络,注意力到底在算什么,encoder-decoder 如何拼成机器翻译系统。
读这篇论文,先抓住四个问题
论文真正的贡献不是“提出一个叫 Transformer 的模型名”,而是把序列任务的计算方式从按时间步推进,改成全局可并行的关系计算。
它要解决什么问题?
机器翻译等序列任务需要理解长距离依赖。RNN 逐步处理 token,训练难并行;CNN 能并行但要堆层才能覆盖远距离。Transformer 让每个 token 直接看见其他 token。
它的核心动作是什么?
把每个 token 投影成 Query、Key、Value。Query 像“我要找什么”,Key 像“我有什么特征”,Value 是“真正要拿走的信息”。匹配分数决定信息混合比例。
为什么叫 Multi-Head?
同一句话里有语法、指代、局部搭配、长距离逻辑等多种关系。多个 head 在不同子空间里并行学习不同关系,再合并成一个表示。
位置去哪了?
注意力本身不天然知道顺序,所以论文加入 positional encoding,把 token 在序列中的位置信息注入 embedding。
Transformer 的整体结构
它仍然是 encoder-decoder 框架,只是每一层都由 attention、前馈网络、残差连接和归一化堆叠起来。
Scaled Dot-Product Attention
这行公式是全篇最值得先读懂的部分。它把“相关性打分”和“按权重取信息”压缩成一个矩阵运算。
QK^T
计算每个 query 和所有 key 的相似度,得到一张 token 对 token 的关系表。
/ sqrt(d_k)
维度越高,点积值越容易变大。缩放可以让 softmax 的梯度更稳定。
softmax(...)V
把分数变成概率权重,然后对 value 做加权求和,得到新的 token 表示。
论文贡献压缩成三层
按“主线、层级、关系”组织,比按论文页码顺序更容易读懂。
主线:抛开递归
模型不再必须按 token 顺序一步步传递状态,而是让任意两个位置直接建立依赖。
层级:堆叠模块
Embedding、位置编码、attention、feed-forward、残差、LayerNorm 组成可重复的块。
关系:多头视角
不同 head 学不同类型的关系,最终把多种关系合并成更丰富的 token 表示。
边看边追问,把解释写回页面
下面这些问题适合读论文时不断点开。每个答案都对应页面前面的某个结构,而不是孤立摘要。
从这篇论文延伸出去
今天的大语言模型仍然沿着这条路演化:扩大模型、扩大数据、改进注意力和训练方式。
2017
Transformer 让 attention-only 架构成为主角。
2018-2020
BERT、GPT 系列证明预训练 Transformer 可迁移到大量任务。
2021-2024
规模化、指令微调、RLHF、长上下文和多模态快速推进。
现在
继续优化注意力成本、上下文记忆、工具调用和 agent 工作流。
来源与阅读建议
建议先读这页的主线,再回到原论文验证细节。
论文:Vaswani et al., Attention Is All You Need。
这页为了可读性做了重组和解释,没有逐字复制论文内容;适合当作第一遍阅读地图。