决策树
按特征递归划分样本,叶子给出预测。分裂准则衡量“纯度”提升:
$\text{信息增益}=H(\text{父})-\sum\tfrac{n_k}{n}H(\text{子}_k),\qquad \text{Gini}=1-\sum_k p_k^2$
过深易过拟合,需剪枝控制复杂度。
Bagging 与随机森林
Bootstrap 有放回抽样训练多棵树,平均预测降低方差(Bagging)。随机森林再对每次分裂随机选特征子集,进一步去相关,鲁棒且抗过拟合,并给出特征重要性。
Boosting
串行训练,每个弱学习器纠正前者的错误。AdaBoost 用指数损失、重加权样本;Gradient Boosting 用负梯度作为残差逐步拟合(XGBoost、LightGBM)。Boosting 主要降低偏差。
例题
例 某特征把 $50$ 正 $50$ 负完美分成两纯子集:父熵 $1$、子熵 $0$,信息增益 $=1$(最大),该特征被优先选作根节点。
应用
树集成是表格数据竞赛与工业界的王者:风控评分、推荐排序、点击预估。Bagging/Boosting 体现了“偏差–方差”分解的工程化:用平均降方差、用提升降偏差。
评论 (0)
还没有评论,来发表第一条吧。
请先 登录 后发表评论;还没有账号?注册