K-means
把样本分到 $k$ 个簇,最小化簇内平方和:
$\min\ \sum_{k}\sum_{\mathbf x\in C_k}|\mathbf x-\boldsymbol\mu_k|^2$
交替进行“分配最近簇心 / 更新簇心为均值”,单调下降必收敛(可能到局部最优,故需多次初始化或 k‑means++)。
高斯混合模型 (GMM) 与 EM
假设数据来自 $k$ 个高斯的混合,用 EM 算法学习:
- E 步:算每点属于各高斯的后验责任 $\gamma_{ik}$(软聚类);
- M 步:用责任加权更新均值、协方差与混合系数。
EM 单调提升似然下界,是含隐变量模型的通用法门。
层次聚类与 DBSCAN
层次聚类按距离逐步合并/分裂,产生树状图;DBSCAN 按密度连接、能发现任意形状簇并识别噪声点,无需预设簇数。
例题
例 K-means 对“两个同心圆”会失败(它假设球形簇),而基于密度的 DBSCAN 能正确分出内外环——选对几何假设至关重要。
应用
聚类用于客户分群、图像分割、异常检测、话题发现。EM 框架的“软分配 + 极大化下界”思想直接通向变分推断与 VAE,是无监督学习的方法论枢纽。
评论 (0)
还没有评论,来发表第一条吧。
请先 登录 后发表评论;还没有账号?注册