降维与流形学习

PCA：方差最大化

主成分分析寻找数据方差最大的正交方向：对协方差矩阵 $\Sigma$ 做特征值分解，取前 $k$ 大特征值对应的特征向量作投影方向。保留的方差比例
$\frac{\sum_{i=1}^k\lambda_i}{\sum_{j}\lambda_j}$
量化了信息保留程度。PCA 也等价于最小化重建误差。

非线性降维：t-SNE 与 UMAP

PCA 只能捕捉线性结构。t-SNE 用概率刻画高维近邻相似度，再在低维匹配（最小化 KL 散度），擅长可视化簇结构；UMAP 基于流形与拓扑，更快且更好保留全局结构。

自编码器

神经网络把输入压缩到低维瓶颈再重建，学习非线性表征：
$\mathbf x\xrightarrow{\text{编码}}\mathbf z\xrightarrow{\text{解码}}\hat{\mathbf x},\quad \min|\mathbf x-\hat{\mathbf x}|^2$
瓶颈维度与重建误差是一对 trade-off，变体（去噪、变分）拓展出生成能力。

例题

例　手写数字 784 维像素，PCA 取前 $50$ 个主成分常保留约 $90%$ 方差，既压缩存储又去噪，再喂给分类器往往更快更稳。

应用

降维用于可视化（t-SNE 看聚类）、压缩、去噪、特征提取。PCA 是 EVD/SVD 的直接应用；自编码器的瓶颈思想是表示学习与生成模型（VAE）的前身。

PCA：方差最大化

非线性降维：t-SNE 与 UMAP

自编码器

例题

应用

评论 (0)