Python如何进行正态性检验

Python进行正态性检验的方法包括：Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Anderson-Darling检验、QQ图。 在这些方法中，Shapiro-Wilk检验是最常用的，其效果在小样本中表现尤为出色。通过这些方法，可以有效地判断数据是否符合正态分布。

一、Shapiro-Wilk检验

Shapiro-Wilk检验是用于检测样本是否来自正态分布的非参数检验方法。它的检验统计量W值越接近1，说明数据越符合正态分布。

使用方法

在Python中，我们可以使用scipy.stats库中的shapiro函数来进行Shapiro-Wilk检验。代码如下：

from scipy.stats import shapiro
data = [1.2, 2.3, 3.3, 4.5, 5.1, 6.7, 7.8, 8.9, 9.0]
stat, p = shapiro(data)
print('Statistics=%.3f, p=%.3f' % (stat, p))
解释结果
alpha = 0.05
if p > alpha:
    print('样本似乎来自正态分布 (接受H0)')
else:
    print('样本似乎不来自正态分布 (拒绝H0)')

二、Kolmogorov-Smirnov检验

Kolmogorov-Smirnov检验用于比较样本的分布与参考分布（如正态分布）之间的差异。它的检验统计量D值越小，样本越符合参考分布。

使用方法

在Python中，可以使用scipy.stats库中的kstest函数来进行Kolmogorov-Smirnov检验。代码如下：

from scipy.stats import kstest
data = [1.2, 2.3, 3.3, 4.5, 5.1, 6.7, 7.8, 8.9, 9.0]
d, p = kstest(data, 'norm')
print('Statistics=%.3f, p=%.3f' % (d, p))
解释结果
alpha = 0.05
if p > alpha:
    print('样本似乎来自正态分布 (接受H0)')
else:
    print('样本似乎不来自正态分布 (拒绝H0)')

三、Anderson-Darling检验

Anderson-Darling检验是一种改进的K-S检验，它对样本分布尾部的偏差更加敏感。通过对比检验统计量A2与临界值来判断样本是否符合正态分布。

使用方法

在Python中，可以使用scipy.stats库中的anderson函数来进行Anderson-Darling检验。代码如下：

from scipy.stats import anderson
data = [1.2, 2.3, 3.3, 4.5, 5.1, 6.7, 7.8, 8.9, 9.0]
result = anderson(data)
print('Statistic: %.3f' % result.statistic)
for i in range(len(result.critical_values)):
    sl, cv = result.significance_level[i], result.critical_values[i]
    if result.statistic < cv:
        print(f'在显著水平 {sl}% 下，样本似乎来自正态分布 (接受H0)')
    else:
        print(f'在显著水平 {sl}% 下，样本似乎不来自正态分布 (拒绝H0)')

四、QQ图

QQ图（Quantile-Quantile Plot）是一种图形化方法，用于比较样本分布与正态分布的分位数。QQ图上的点如果沿着一条直线分布，说明样本符合正态分布。

使用方法

在Python中，可以使用statsmodels库中的qqplot函数来绘制QQ图。代码如下：

import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import statsmodels.api as sm
data = np.random.normal(0, 1, 1000)
sm.qqplot(data, line ='45')
plt.show()

五、其他正态性检验方法

除了上述几种常用的正态性检验方法外，还有其他一些方法也可以用于检验数据是否符合正态分布。

1、D’Agostino’s K-squared检验

D’Agostino’s K-squared检验是通过计算样本的偏度和峰度来判断样本是否符合正态分布。它的检验统计量越小，样本越符合正态分布。

使用方法

在Python中，可以使用scipy.stats库中的normaltest函数来进行D’Agostino’s K-squared检验。代码如下：

from scipy.stats import normaltest
data = [1.2, 2.3, 3.3, 4.5, 5.1, 6.7, 7.8, 8.9, 9.0]
stat, p = normaltest(data)
print('Statistics=%.3f, p=%.3f' % (stat, p))
解释结果
alpha = 0.05
if p > alpha:
    print('样本似乎来自正态分布 (接受H0)')
else:
    print('样本似乎不来自正态分布 (拒绝H0)')

2、Jarque-Bera检验

Jarque-Bera检验也是一种基于偏度和峰度的检验方法。它通过检验样本的偏度和峰度是否与正态分布一致来判断样本是否符合正态分布。

使用方法

在Python中，可以使用statsmodels库中的jarque_bera函数来进行Jarque-Bera检验。代码如下：

from statsmodels.stats.stattools import jarque_bera
data = [1.2, 2.3, 3.3, 4.5, 5.1, 6.7, 7.8, 8.9, 9.0]
stat, p, skew, kurtosis = jarque_bera(data)
print('Statistics=%.3f, p=%.3f' % (stat, p))
print('Skewness=%.3f, Kurtosis=%.3f' % (skew, kurtosis))
解释结果
alpha = 0.05
if p > alpha:
    print('样本似乎来自正态分布 (接受H0)')
else:
    print('样本似乎不来自正态分布 (拒绝H0)')

六、正态性检验的应用场景

在实际工作中，正态性检验有着广泛的应用。以下是几个常见的应用场景：

1、统计分析

在进行统计分析时，许多经典的统计方法（如t检验、方差分析等）都假设数据符合正态分布。通过正态性检验，可以判断数据是否符合这些假设，从而选择合适的统计方法。

2、机器学习

在机器学习中，许多算法（如线性回归、逻辑回归等）也假设数据符合正态分布。通过正态性检验，可以判断数据是否符合这些假设，从而选择合适的特征工程和模型。

3、金融建模

在金融领域，许多模型（如风险管理模型、资产定价模型等）也假设数据符合正态分布。通过正态性检验，可以判断数据是否符合这些假设，从而选择合适的模型和参数。

七、正态性检验的局限性

虽然正态性检验在许多场景中都有着重要的应用，但它也存在一些局限性。

1、样本量的影响

正态性检验的结果可能受到样本量的影响。在样本量较小时，检验结果可能不够稳定；在样本量较大时，即使数据略微偏离正态分布，检验结果也可能显示显著性。

2、对异常值的敏感性

正态性检验对异常值较为敏感。少量的异常值可能会影响检验结果，从而导致错误的结论。因此，在进行正态性检验前，应该对数据进行预处理，去除异常值。

3、检验方法的选择

不同的正态性检验方法可能对同一数据集得出不同的结论。因此，在进行正态性检验时，应该综合使用多种方法，并结合实际情况进行判断。

八、总结

正态性检验是统计分析和数据科学中的重要工具。通过Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Anderson-Darling检验、QQ图等方法，我们可以有效地判断数据是否符合正态分布。在实际应用中，正态性检验有助于选择合适的统计方法和模型。然而，正态性检验也存在一些局限性，如样本量的影响、对异常值的敏感性等。因此，在使用正态性检验时，应该综合考虑多种因素，并结合实际情况进行判断。