python如何剔除异常值

在Python中剔除异常值的常用方法包括：使用统计方法计算阈值、利用Z-score方法、使用IQR（四分位距）法、应用机器学习算法。这些方法各有优劣，适用于不同的数据集和问题场景。下面详细介绍其中的一种方法：IQR法。IQR法通过计算数据的四分位数来识别异常值。具体步骤如下：首先计算数据集的第25百分位数（第一四分位数，Q1）和第75百分位数（第三四分位数，Q3），然后计算IQR（即Q3减去Q1）。根据常用规则，任何小于Q1 – 1.5 * IQR或大于Q3 + 1.5 * IQR的值被视为异常值。这种方法对于数据集具有良好的鲁棒性，不受异常极端值的影响。

一、统计方法计算阈值

统计方法是最基本的异常值检测方法之一。通常情况下，我们可以通过计算数据的均值和标准差来确定异常值的阈值。具体来说，任何超过均值±3个标准差的数据点可以被视为异常值。这种方法简单直观，但在数据分布呈现显著非正态时可能效果不佳。

均值和标准差

均值和标准差是最常用的统计量，通过计算数据集的均值和标准差，我们可以确定一个合理的范围。在正态分布的假设下，数据落在均值±3个标准差之外的点可以被视为异常值。这种方法简单且计算成本低，但对于非正态分布的数据，其效果可能会受到影响。
中位数和MAD

中位数绝对偏差（MAD）是另一种识别异常值的统计方法。与均值和标准差不同，MAD使用中位数作为中心度量，因此对极端值具有更高的鲁棒性。通过计算每个数据点与中位数的绝对偏差，并与MAD倍数进行比较，可以识别出异常值。

二、Z-score方法

Z-score方法是一种基于标准化的异常值检测方法。通过将每个数据点减去数据的均值，再除以标准差，我们可以得到Z-score。通常情况下，Z-score超过3或小于-3的点被认为是异常值。这种方法在数据呈正态分布时效果较好，但在非正态分布的情况下可能效果不理想。

计算Z-score

对于每个数据点，Z-score计算公式为：(x – μ) / σ，其中x是数据点，μ是数据均值，σ是数据标准差。Z-score表示数据点与均值的距离，以标准差为单位。通常情况下，Z-score超过3或小于-3的点被视为异常值。
Z-score的应用场景

Z-score方法适用于数据呈正态分布的场景，因为在正态分布下，99.7%的数据点落在均值±3个标准差范围内。然而，对于非正态分布的数据，Z-score方法的效果可能不佳，因为它对偏斜分布和多峰分布的数据不够鲁棒。

三、IQR（四分位距）法

IQR法通过计算数据的四分位数来识别异常值。具体步骤如下：首先计算数据集的第25百分位数（第一四分位数，Q1）和第75百分位数（第三四分位数，Q3），然后计算IQR（即Q3减去Q1）。根据常用规则，任何小于Q1 – 1.5 * IQR或大于Q3 + 1.5 * IQR的值被视为异常值。这种方法对于数据集具有良好的鲁棒性，不受异常极端值的影响。

计算四分位数

四分位数是将数据集分为四等份的三个数值，分别是第25百分位数（Q1）、第50百分位数（即中位数）和第75百分位数（Q3）。IQR为Q3减去Q1，代表中间50%数据的范围。
识别异常值

使用IQR法识别异常值的规则是：任何小于Q1 – 1.5 * IQR或大于Q3 + 1.5 * IQR的值都被视为异常值。这个规则基于统计学理论，适用于大多数数据分布类型，尤其是在数据存在偏斜或极端值时。

四、机器学习算法

机器学习算法也可以用于异常值检测，特别是在数据集较大且复杂的情况下。常用的算法包括孤立森林（Isolation Forest）、局部异常因子（Local Outlier Factor, LOF）以及支持向量机（Support Vector Machine, SVM）等。机器学习方法能够捕捉更复杂的模式和关系，但通常需要更多的计算资源和数据预处理。

孤立森林

孤立森林是一种基于树的无监督学习算法，专门用于异常值检测。它通过构建随机决策树来隔离数据点，并通过计算每个点被隔离的平均路径长度来判断其异常性。孤立森林在处理高维数据和非线性关系时表现良好。
局部异常因子（LOF）

LOF是一种基于密度的异常值检测方法。它通过比较数据点与其邻居的局部密度来识别异常值。与全局方法不同，LOF能够识别局部模式的异常值，因此在处理具有复杂结构的数据时非常有用。
支持向量机（SVM）

支持向量机也可以用于异常值检测，特别是使用一类SVM（One-Class SVM）算法。该算法通过寻找一个超平面，将正常数据点与异常数据点分隔开来。SVM在高维空间中表现良好，但需要仔细选择参数以避免过拟合。

五、Python实现异常值剔除

在Python中，我们可以使用多种库和工具来实现异常值剔除。常用的库包括Pandas、NumPy、Scikit-learn等。下面介绍如何在Python中实现上述方法。

使用Pandas和NumPy

import pandas as pd
import numpy as np
创建示例数据集
data = {'value': [10, 12, 12, 13, 12, 100, 12, 13, 12, 11, 10, 12, 13, 12]}
df = pd.DataFrame(data)
使用IQR法剔除异常值
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
df_filtered = df[(df['value'] >= lower_bound) & (df['value'] <= upper_bound)]
print(df_filtered)

使用Scikit-learn

from sklearn.ensemble import IsolationForest
创建示例数据集
data = [[10], [12], [12], [13], [12], [100], [12], [13], [12], [11], [10], [12], [13], [12]]
使用孤立森林检测异常值
clf = IsolationForest(contamination=0.1)
clf.fit(data)
preds = clf.predict(data)
剔除异常值
data_filtered = [x for x, p in zip(data, preds) if p == 1]
print(data_filtered)