注意力:按相关性加权

注意力让模型“看哪儿”:用查询 $Q$ 与键 $K$ 算相关度,对值 $V$ 加权求和。缩放点积注意力
$\mathrm{Attention}(Q,K,V)=\mathrm{softmax}!\Big(\frac{QK^\top}{\sqrt{d_k}}\Big)V$
除以 $\sqrt{d_k}$ 防止点积过大使 softmax 饱和。

多头注意力

并行多组 $(Q,K,V)$ 投影,在不同表征子空间捕捉不同关系,再拼接:
$\mathrm{MultiHead}=\mathrm{Concat}(\text{head}_1,\dots,\text{head}_h),W^O$

Transformer 架构

抛弃循环,用自注意力 + 前馈层堆叠,配合位置编码注入顺序信息、残差连接与层归一化稳定训练。可并行、易扩展,是大模型的骨架。

例题

 翻译“它”时,自注意力给句中真正的指代名词分配高权重,从而正确消歧——注意力权重提供了一定可解释性。

应用

Transformer 催生了 GPT、BERT 与几乎所有大语言模型,并扩展到视觉 (ViT)、语音、蛋白质结构 (AlphaFold)。理解注意力的 $QKV$ 与缩放,是读懂现代 AI 的钥匙。