AdaBoost:一个经典的自适应增强集成算法

AdaBoost(adaptive boosting)中文名叫自适应增强,它是一种能够自动根据前一个基模型对样本预测的误差率来调整样本权重,然后基于调整权重后的样本继续学习新的基模型,如此反复,直到基模型的个数达到设定的个数停止,最后将所有训练的基模型通过组合策略进行集成,得到最终的模型。

在 AdaBoost 中,基模型可以是很多种,比如决策树、神经网络等。在这个过程中,包含了两个可以提升效果的原因:

  1. 提高了那些被前一次基模型错误分类或回归预测误差较大的样本的权重,而降低那些被正确分类或回归预测误差较小样本的权重。这样一来,那些被分错或预测误差较大的数据,在下一次就会得到更大的关注。
  2. 在组合基模型时,增加分类误差率小或回归预测误差较小的基模型权重,使其在组合时的贡献更高,降低分类误差率大或回归预测误差较大的基模型权重,使其在组合时的贡献更低。

在 AdaBoost 学习的过程中,需要解决的问题有以下 4 个:

  1. 如何计算模型的预测的误差率
  2. 如何确定基模型的权重
  3. 如何更新样本的权重
  4. 如何将多个基模型组合在一起

总共训练的基模型的个数为 T,第 t 个基模型的在训练集中的每个样本权重为

发表评论

电子邮件地址不会被公开。 必填项已用*标注