机器学习的线性代数

向量、矩阵与范数

数据样本是向量，数据集是矩阵 $X\in\mathbb R^{n\times d}$（$n$ 个样本、$d$ 个特征）。范数度量大小：$\ell_2$ 范数 $|\mathbf x|_2=\sqrt{\sum x_i^2}$、$\ell_1$ 范数 $|\mathbf x|_1=\sum|x_i|$，分别对应岭回归与 Lasso 的正则项。

特征值与谱分解

对称矩阵 $A$ 可正交对角化 $A=Q\Lambda Q^\top$，特征值 $\lambda_i$ 描述各正交方向的“伸缩”。协方差矩阵的特征向量就是 PCA 的主成分方向，特征值即该方向上的方差。

矩阵分解

SVD：$A=U\Sigma V^\top$，最通用——用于降维、推荐系统、低秩近似；
QR：数值稳定地解最小二乘；
Cholesky：$A=LL^\top$，高效处理正定矩阵（高斯过程、协方差采样）。

矩阵求导与二次型

优化要对向量/矩阵求导，记住两条：
$\nabla_{\mathbf x}(\mathbf a^\top\mathbf x)=\mathbf a,\qquad \nabla_{\mathbf x}(\mathbf x^\top A\mathbf x)=(A+A^\top)\mathbf x$
二次型 $\mathbf x^\top A\mathbf x$ 的正定性（$A\succ0$）等价于函数凸、Hessian 正定。

例题

例　最小二乘损失 $L(\mathbf w)=|X\mathbf w-\mathbf y|^2$，对 $\mathbf w$ 求导并置零：$2X^\top(X\mathbf w-\mathbf y)=0$，得正规方程 $\mathbf w=(X^\top X)^{-1}X^\top\mathbf y$。

应用

线性代数是机器学习的“坐标系”：PCA 降维用特征值分解，推荐系统用 SVD 补全评分矩阵，深度网络的每一层都是矩阵乘法 + 非线性。GPU 之所以加速训练，正因为它擅长大规模矩阵运算。

机器学习的线性代数

向量、矩阵与范数

特征值与谱分解

矩阵分解

矩阵求导与二次型

例题

应用

评论 (0)