机器学习算法可以分为 4 种不同的学习风格:1、有监督机器学习,数据科学家为算法提供标注和定义的训练数据,以评估相关性;2、无监督机器学习,无监督学习算法会使用未标注的数据进行训练;3、半监督学习,顾名思义,该方法结合了有监督学习和无监督学习;4、强化学习,强化学习是在算法必经的多个阶段附加奖励值的方法。
一、机器学习算法有哪些类型?
根据预期输出和输入类型,算法可以分为 4 种不同的学习风格。
- 有监督机器学习
- 无监督机器学习
- 半监督学习
- 强化机器学习
1.有监督机器学习
数据科学家为算法提供标注和定义的训练数据,以评估相关性。样本数据指定了算法的输入和输出。例如,为手写数字的图像添加注释,指示它对应于哪个数字。有监督学习系统在样本充分的情况下,可以识别与每个数字相关的像素和形状的集群。最终有监督学习系统可以识别手写的数字,可以稳定地区分数字 9 和 4 或 6 和 8。
有监督学习的优点是设计简单易行。它在预测可能的有限结果集、将数据划分为类别,或组合其他两种机器学习算法的结果时非常有用。但是,为数百万个未标注的数据集添加标注是一项难题。我们来深入了解下:
什么是数据标注?
数据标注是根据相应的定义输出值对输入数据进行归类的过程。有监督学习必需使用标注后的训练数据。例如,数百万张苹果和香蕉图片需要贴上“苹果”或“香蕉”的标签。 然后机器学习应用程序就会在给出水果图片后,使用此训练数据猜测水果的名称。但是,标注数百万个新数据可能是一项耗时费力的工作。Amazon Mechanical Turk 等众包服务在一定程度上可以克服有监督学习算法的这种局限。通过这类服务,可以接触到遍布全球的经济劳动力储备,大大降低数据获取难度。
2.无监督机器学习
无监督学习算法会使用未标注的数据进行训练。该算法会扫描新数据,试图在输入和预先确定的输出之间建立有意义的连接。它们可以发现模式并对数据进行分类。例如,无监督算法可以将来自不同新闻网站的新闻文章分为体育、犯罪等常见类别。该算法可以利用自然语言处理来理解文章的意义和感情。在零售业中,无监督学习可以在顾客购买活动中发现一些模式,并提供数据分析结果,比如,如果顾客购买了黄油,那再购买面包的可能性最大。
无监督学习在模式识别、异常检测、数据自动归类方面十分有用。训练数据不需要添加标注,因此设置十分简单。这些算法还可用于清理和处理数据,以供进一步自动建模。这种方法的局限性在于它不能给出精确的预测。此外,它也不能单独挑出特定类型的数据结果。
3.半监督学习
顾名思义,该方法结合了有监督学习和无监督学习。该技术使用少量已标注数据和大量未标注数据来训练系统。首先,标注的数据用于部分训练机器学习算法。然后,部分训练后的算法本身会为未标注数据添加标注。此流程被称为伪标注。然后,该模型在没有明确编程的情况下,根据生成的数据组合进行重新训练。
该方法的优势在于,您不需要大量的标注数据。当处理像长文档这样的数据时,它非常方便,因为人工处理这些数据太费时了,难以阅读和标注。
4.强化学习
强化学习是在算法必经的多个阶段附加奖励值的方法。因此,该模型的目标是积累尽可能多的奖励积分,并实现最终目标。在过去的 10 年间,强化学习的大多实际应用都在电子游戏领域。先进的强化学习算法在经典和现代游戏中都取得了令人印象深刻的结果,往往大大超越人类的能力。
这种方法在不确定且复杂的数据环境中表现非常好,但在商业环境中却很少得到应用。该方法对于预先定义好的任务而言效率较低,并且开发人员的偏好也会影响结果。这是因为数据科学家设计了奖励,它们可以影响结果。