先确认主体，再重组阅读路线

Attention Is All You Need

这不是逐字翻译，而是把 Transformer 论文整理成一条能读下去、能继续追问的中文路线：为什么不用循环网络，注意力到底在算什么，encoder-decoder 如何拼成机器翻译系统。

主体 Transformer：完全依赖注意力机制的序列建模架构。

主线用并行化的 self-attention 替代 RNN/CNN 的序列依赖。

关系图 用 RoughJS 把 token、Q/K/V、multi-head、encoder-decoder 画清楚。

读这篇论文，先抓住四个问题

论文真正的贡献不是“提出一个叫 Transformer 的模型名”，而是把序列任务的计算方式从按时间步推进，改成全局可并行的关系计算。

它要解决什么问题？

机器翻译等序列任务需要理解长距离依赖。RNN 逐步处理 token，训练难并行；CNN 能并行但要堆层才能覆盖远距离。Transformer 让每个 token 直接看见其他 token。

它的核心动作是什么？

把每个 token 投影成 Query、Key、Value。Query 像“我要找什么”，Key 像“我有什么特征”，Value 是“真正要拿走的信息”。匹配分数决定信息混合比例。

为什么叫 Multi-Head？

同一句话里有语法、指代、局部搭配、长距离逻辑等多种关系。多个 head 在不同子空间里并行学习不同关系，再合并成一个表示。

位置去哪了？

注意力本身不天然知道顺序，所以论文加入 positional encoding，把 token 在序列中的位置信息注入 embedding。

Transformer 的整体结构

它仍然是 encoder-decoder 框架，只是每一层都由 attention、前馈网络、残差连接和归一化堆叠起来。

Scaled Dot-Product Attention

这行公式是全篇最值得先读懂的部分。它把“相关性打分”和“按权重取信息”压缩成一个矩阵运算。

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V

QK^T

计算每个 query 和所有 key 的相似度，得到一张 token 对 token 的关系表。

/ sqrt(d_k)

维度越高，点积值越容易变大。缩放可以让 softmax 的梯度更稳定。

softmax(...)V

把分数变成概率权重，然后对 value 做加权求和，得到新的 token 表示。

论文贡献压缩成三层

按“主线、层级、关系”组织，比按论文页码顺序更容易读懂。

主线：抛开递归

模型不再必须按 token 顺序一步步传递状态，而是让任意两个位置直接建立依赖。

层级：堆叠模块

Embedding、位置编码、attention、feed-forward、残差、LayerNorm 组成可重复的块。

关系：多头视角

不同 head 学不同类型的关系，最终把多种关系合并成更丰富的 token 表示。

边看边追问，把解释写回页面

下面这些问题适合读论文时不断点开。每个答案都对应页面前面的某个结构，而不是孤立摘要。

从这篇论文延伸出去

今天的大语言模型仍然沿着这条路演化：扩大模型、扩大数据、改进注意力和训练方式。

2017

Transformer 让 attention-only 架构成为主角。

2018-2020

BERT、GPT 系列证明预训练 Transformer 可迁移到大量任务。

2021-2024

规模化、指令微调、RLHF、长上下文和多模态快速推进。

现在

继续优化注意力成本、上下文记忆、工具调用和 agent 工作流。

来源与阅读建议

建议先读这页的主线，再回到原论文验证细节。

论文：Vaswani et al., Attention Is All You Need。

这页为了可读性做了重组和解释，没有逐字复制论文内容；适合当作第一遍阅读地图。