方差分析( ANOVA ) 是一种统计公式,用于比较不同组的均值(或平均值)的方差。一系列场景使用它来确定不同组的均值之间是否存在任何差异。机器学习中最大的挑战之一是选择用于训练模型的最可靠和有用的特征。方差分析有助于选择优异特征来训练模型。ANOVA 最小化输入变量的数量以降低模型的复杂性。方差分析有助于确定自变量是否影响目标变量。
一、什么是方差分析 (ANOVA)
方差分析( ANOVA ) 是一种统计公式,用于比较不同组的均值(或平均值)的方差。一系列场景使用它来确定不同组的均值之间是否存在任何差异。
例如,为了研究不同糖尿病药物的有效性,科学家设计和实验来探索药物类型与由此产生的血糖水平之间的关系。样本总体是一组人。我们将样本人群分成多个组,每个组在试用期内接受一种特定的药物。在试验期结束时,测量每个参与者的血糖水平。然后计算每组的平均血糖水平。方差分析有助于比较这些组均值,以确定它们在统计上是否不同或是否相似。
ANOVA 的结果是“F 统计量”。该比率显示组内方差和组间方差之间的差异,最终产生一个数字,该数字允许得出支持或拒绝原假设的结论。如果组间存在显着差异,则不支持零假设,F 比会更大。
机器学习中最大的挑战之一是选择用于训练模型的最可靠和有用的特征。方差分析有助于选择优异特征来训练模型。ANOVA 最小化输入变量的数量以降低模型的复杂性。方差分析有助于确定自变量是否影响目标变量。
方差分析使用的一个例子数据科学在垃圾邮件检测中。由于电子邮件和电子邮件功能的数量巨大,识别和拒绝所有垃圾邮件变得非常困难和资源密集。部署方差分析和 f 检验来识别对于正确识别哪些电子邮件是垃圾邮件而哪些不是垃圾邮件很重要的特征。
二、方差分析术语
因变量:这是被测量的项目,理论上受自变量的影响。
自变量:这些是可能对因变量产生影响的被测量项目。
零假设 (H0):这是指各组或均值之间没有差异。根据 ANOVA 检验的结果,零假设将被接受或拒绝。
另一种假设 (H1):当理论上认为群体和均值之间存在差异时。
因素和水平:在方差分析术语中,自变量称为影响因变量的因素。水平表示实验中使用的自变量的不同值。
固定因子模型:一些实验只使用一组离散的因子水平。例如,固定因素测试将测试三种不同剂量的药物,而不查看任何其他剂量。
随机因子模型:该模型从自变量的所有可能值中抽取水平的随机值。
三、方差分析的类型
有两种类型的方差分析,单因素和双因素方差分析。
1、单因素方差分析
单因素方差分析也称为单因素方差分析或简单方差分析。顾名思义,单向方差分析适用于只有一个自变量(因子)且具有两个或多个水平的实验。例如,因变量可能是一年中的哪个月份花园里的花更多。将有十二个级别。单向方差分析假设:
- 独立性:一个观察值的因变量值独立于任何其他观察值
- 正态性:因变量的值服从正态分布
- 方差:不同实验组的方差具有可比性
- 连续的:因变量(花的数量)是连续的,可以在可以细分的尺度上测量
2、双因素方差分析(也称为全因子方差分析)
当有两个或多个自变量时,使用全因子方差分析。这些因素中的每一个都可以有多个级别。全因子方差分析只能用于全因子实验,其中使用了所有可能的因子排列及其水平。这可能是一年中花园里鲜花较多的月份,然后是日照时数。这种双向方差分析不仅衡量自变量与自变量,还衡量这两个因素是否相互影响。双向方差分析假设:
- 连续:与单向方差分析相同,因变量应该是连续的
- 独立性:每个样本都独立于其他样本,没有交叉
- 方差:不同组间数据的方差相同
- 常态:样本代表正常人群
- 类别:自变量应在不同的类别或组中
以上就是关于什么是方差分析 (ANOVA)、方差分析术语、方差分析的类型的全部内容了,希望对你有所帮助。