目录

什么是机器学习中的提升方法

提升方法是机器学习中使用的一种用于减少预测数据分析中的错误的方法。数据科学家针对标记数据训练机器学习软件(也称为机器学习模型),以猜测未标记数据。单个机器学习模型可能会出现预测错误,具体取决于训练数据集的准确性。

一、什么是机器学习中的提升方法?

提升方法是机器学习中使用的一种用于减少预测数据分析中的错误的方法。数据科学家针对标记数据训练机器学习软件(也称为机器学习模型),以猜测未标记数据。单个机器学习模型可能会出现预测错误,具体取决于训练数据集的准确性。例如,如果仅针对白猫图像训练猫识别模型,则可能偶尔会错误地识别出黑猫。提升方法将会尝试通过循序训练多个模型来提高整个系统的准确性,以克服此问题。

二、为什么提升方法非常重要?

提升方法可以通过将多个弱学习器转换为单个强学习模型,来提高机器模型的预测准确性和性能。机器学习模型可以是弱学习器,也可以是强学习器:

弱学习器

弱学习器的预测准确性很低,与随机猜测相似。它们易于过度拟合 – 也就是说,它们无法对与原始数据集差异太大的数据进行分类。例如,如果您训练模型将猫识别为尖耳朵的动物,则该模型可能就无法识别耳朵卷曲的猫。

强学习器

强学习器的预测准确性较高。提升方法可将包含多个弱学习器的系统转换为单个强学习系统。例如,为了识别猫的图像,它将结合一个猜测尖耳朵的弱学习器和另一个猜测猫形眼睛的学习器。在分析动物图像是否存在尖耳朵后,该系统还会再次分析该图像是否存在猫形眼睛。这将提高该系统的总体准确性。

三、提升方法的工作原理是什么?

为了解提升方法的工作原理,让我们介绍一下机器学习模型如何制定决策。尽管在实施过程中有很多变化,但数据科学家经常将提升方法与决策树算法配合使用:

决策树

决策树是机器学习中的数据结构,它根据数据集的特征将数据集划分为越来越小的子集。其理念是决策树将反复拆分数据,直到仅剩下一个类。例如,决策树可能会提出一系列答案为是或否的问题,然后在每一步将数据划分为各个类别。

提升集成方法

提升方法可以通过将几个弱决策树按顺序组合起来,创建一个集成模型。它将为各个树的输出结果分配权重。然后,它将为来自第一个决策树的不正确分类赋予更高权重,并输入到下一个树。经过多次循环后,提升方法会将这些弱规则组合成一个强大的预测规则。

提升方法与装袋方法 (Bagging) 对比

提升方法和装袋方法是两种用于提高预测准确性的常见集成方法。这两种学习方法之间的主要区别在于训练方法。在装袋方法中,数据科学家通过在多个数据集上一次训练多个弱学习器中的数个,来提高这些弱学习器的准确性。相比之下,提升方法是一个接一个地训练弱学习器。