注意力机制与 Transformer

注意力：按相关性加权

注意力让模型“看哪儿”：用查询 $Q$ 与键 $K$ 算相关度，对值 $V$ 加权求和。缩放点积注意力：
$\mathrm{Attention}(Q,K,V)=\mathrm{softmax}!\Big(\frac{QK^\top}{\sqrt{d_k}}\Big)V$
除以 $\sqrt{d_k}$ 防止点积过大使 softmax 饱和。

多头注意力

并行多组 $(Q,K,V)$ 投影，在不同表征子空间捕捉不同关系，再拼接：
$\mathrm{MultiHead}=\mathrm{Concat}(\text{head}_1,\dots,\text{head}_h),W^O$

Transformer 架构

抛弃循环，用自注意力 + 前馈层堆叠，配合位置编码注入顺序信息、残差连接与层归一化稳定训练。可并行、易扩展，是大模型的骨架。

例题

例　翻译“它”时，自注意力给句中真正的指代名词分配高权重，从而正确消歧——注意力权重提供了一定可解释性。

应用

Transformer 催生了 GPT、BERT 与几乎所有大语言模型，并扩展到视觉 (ViT)、语音、蛋白质结构 (AlphaFold)。理解注意力的 $QKV$ 与缩放，是读懂现代 AI 的钥匙。

注意力机制与 Transformer

注意力：按相关性加权

多头注意力

Transformer 架构

例题

应用

评论 (0)