🎓 学习中心 ← 数学课堂

登录注册 RSS

专题机器学习经典算法集成学习

决策树与集成学习

信息增益、基尼、Bagging 与 Boosting

数

数学课堂 2026年1月4日 👁 1 次浏览

决策树

按特征递归划分样本，叶子给出预测。分裂准则衡量“纯度”提升：
$\text{信息增益}=H(\text{父})-\sum\tfrac{n_k}{n}H(\text{子}_k),\qquad \text{Gini}=1-\sum_k p_k^2$
过深易过拟合，需剪枝控制复杂度。

Bagging 与随机森林

Bootstrap 有放回抽样训练多棵树，平均预测降低方差（Bagging）。随机森林再对每次分裂随机选特征子集，进一步去相关，鲁棒且抗过拟合，并给出特征重要性。

Boosting

串行训练，每个弱学习器纠正前者的错误。AdaBoost 用指数损失、重加权样本；Gradient Boosting 用负梯度作为残差逐步拟合（XGBoost、LightGBM）。Boosting 主要降低偏差。

例题

例　某特征把 $50$ 正 $50$ 负完美分成两纯子集：父熵 $1$、子熵 $0$，信息增益 $=1$（最大），该特征被优先选作根节点。

应用

树集成是表格数据竞赛与工业界的王者：风控评分、推荐排序、点击预估。Bagging/Boosting 体现了“偏差–方差”分解的工程化：用平均降方差、用提升降偏差。

评论 (0)

还没有评论，来发表第一条吧。

请先登录后发表评论；还没有账号？注册

← 返回首页