向量、矩阵与范数

数据样本是向量,数据集是矩阵 $X\in\mathbb R^{n\times d}$($n$ 个样本、$d$ 个特征)。范数度量大小:$\ell_2$ 范数 $|\mathbf x|_2=\sqrt{\sum x_i^2}$、$\ell_1$ 范数 $|\mathbf x|_1=\sum|x_i|$,分别对应岭回归与 Lasso 的正则项。

特征值与谱分解

对称矩阵 $A$ 可正交对角化 $A=Q\Lambda Q^\top$,特征值 $\lambda_i$ 描述各正交方向的“伸缩”。协方差矩阵的特征向量就是 PCA 的主成分方向,特征值即该方向上的方差。

矩阵分解

  • SVD:$A=U\Sigma V^\top$,最通用——用于降维、推荐系统、低秩近似;
  • QR:数值稳定地解最小二乘;
  • Cholesky:$A=LL^\top$,高效处理正定矩阵(高斯过程、协方差采样)。

矩阵求导与二次型

优化要对向量/矩阵求导,记住两条:
$\nabla_{\mathbf x}(\mathbf a^\top\mathbf x)=\mathbf a,\qquad \nabla_{\mathbf x}(\mathbf x^\top A\mathbf x)=(A+A^\top)\mathbf x$
二次型 $\mathbf x^\top A\mathbf x$ 的正定性($A\succ0$)等价于函数凸、Hessian 正定。

例题

 最小二乘损失 $L(\mathbf w)=|X\mathbf w-\mathbf y|^2$,对 $\mathbf w$ 求导并置零:$2X^\top(X\mathbf w-\mathbf y)=0$,得正规方程 $\mathbf w=(X^\top X)^{-1}X^\top\mathbf y$。

应用

线性代数是机器学习的“坐标系”:PCA 降维用特征值分解,推荐系统用 SVD 补全评分矩阵,深度网络的每一层都是矩阵乘法 + 非线性。GPU 之所以加速训练,正因为它擅长大规模矩阵运算。