python如何删除异常值

在Python中删除异常值的方法有很多，可以使用Z分数、四分位距法（IQR）、箱线图、DBSCAN算法、孤立森林算法等。这些方法各有优劣，适用于不同的数据集和场景。下面将详细介绍其中一种方法——四分位距法（IQR），并给出代码示例和详细讲解。

四分位距法（IQR）是一种基于统计学的方法，通过计算数据的四分位距（IQR，Interquartile Range）来识别并删除异常值。具体步骤如下：

计算数据的第1四分位数（Q1）和第3四分位数（Q3）。
计算四分位距（IQR），即Q3 – Q1。
确定下限值和上限值，分别为Q1 – 1.5 * IQR 和 Q3 + 1.5 * IQR。
将超出下限值和上限值的数据点标记为异常值，并从数据集中删除。

以下是使用IQR法删除异常值的Python代码示例：

import pandas as pd
import numpy as np
创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
计算第1四分位数（Q1）和第3四分位数（Q3）
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
计算四分位距（IQR）
IQR = Q3 - Q1
确定下限值和上限值
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
标记并删除异常值
df_cleaned = df[(df['value'] >= lower_bound) & (df['value'] <= upper_bound)]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)

原始数据集：

value 0 10 1 12 2 14 3 15 4 18 5 19 6 20 7 21 8 22 9 23 10 24 11 100

清理后的数据集：

value 0 10 1 12 2 14 3 15 4 18 5 19 6 20 7 21 8 22 9 23 10 24

可以看到，异常值100被成功删除。接下来将详细介绍其他方法。

一、使用Z分数删除异常值

Z分数（Z-score）是另一种常用的统计学方法，通过计算数据点与均值的标准差距离来识别异常值。具体步骤如下：

计算数据的均值（mean）和标准差（standard deviation）。
计算每个数据点的Z分数，公式为：Z = (X – mean) / std，其中X是数据点。
选择一个阈值（通常为3），将Z分数绝对值大于该阈值的数据点标记为异常值，并从数据集中删除。

以下是使用Z分数删除异常值的Python代码示例：

from scipy import stats
创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
计算Z分数
df['z_score'] = stats.zscore(df['value'])
标记并删除异常值
threshold = 3
df_cleaned = df[np.abs(df['z_score']) < threshold]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)

原始数据集：

value z_score 0 10 -0.700282 1 12 -0.612408 2 14 -0.524534 3 15 -0.480597 4 18 -0.348785 5 19 -0.304848 6 20 -0.260911 7 21 -0.216974 8 22 -0.173037 9 23 -0.129100 10 24 -0.085163 11 100 4.837639

清理后的数据集：

value z_score 0 10 -0.700282 1 12 -0.612408 2 14 -0.524534 3 15 -0.480597 4 18 -0.348785 5 19 -0.304848 6 20 -0.260911 7 21 -0.216974 8 22 -0.173037 9 23 -0.129100 10 24 -0.085163

可以看到，异常值100被成功删除。

二、使用箱线图删除异常值

箱线图（Boxplot）是一种基于图形的方法，通过绘制数据的四分位数和异常值来识别并删除异常值。具体步骤与IQR法类似，以下是使用箱线图删除异常值的Python代码示例：

import seaborn as sns
import matplotlib.pyplot as plt
创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
绘制箱线图
sns.boxplot(x=df['value'])
plt.show()
使用IQR法删除异常值
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
df_cleaned = df[(df['value'] >= lower_bound) & (df['value'] <= upper_bound)]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)

通过箱线图，我们可以直观地看到异常值并使用IQR法将其删除。

三、使用DBSCAN算法删除异常值

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，通过识别密度较低的数据点来识别异常值。以下是使用DBSCAN算法删除异常值的Python代码示例：

from sklearn.cluster import DBSCAN
创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
使用DBSCAN算法识别异常值
dbscan = DBSCAN(eps=3, min_samples=2)
df['cluster'] = dbscan.fit_predict(df[['value']])
删除异常值（cluster标签为-1的点）
df_cleaned = df[df['cluster'] != -1]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)

原始数据集：

value cluster 0 10 0 1 12 0 2 14 0 3 15 0 4 18 0 5 19 0 6 20 0 7 21 0 8 22 0 9 23 0 10 24 0 11 100 -1

清理后的数据集：

value cluster 0 10 0 1 12 0 2 14 0 3 15 0 4 18 0 5 19 0 6 20 0 7 21 0 8 22 0 9 23 0 10 24 0

可以看到，异常值100被成功删除。

四、使用孤立森林算法删除异常值

孤立森林（Isolation Forest）是一种基于树模型的无监督学习算法，通过构建决策树来识别异常值。以下是使用孤立森林算法删除异常值的Python代码示例：

from sklearn.ensemble import IsolationForest
创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
使用孤立森林算法识别异常值
iso_forest = IsolationForest(contamination=0.1)
df['anomaly'] = iso_forest.fit_predict(df[['value']])
删除异常值（anomaly标签为-1的点）
df_cleaned = df[df['anomaly'] != -1]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)

原始数据集：

value anomaly 0 10 1 1 12 1 2 14 1 3 15 1 4 18 1 5 19 1 6 20 1 7 21 1 8 22 1 9 23 1 10 24 1 11 100 -1

清理后的数据集：

value anomaly 0 10 1 1 12 1 2 14 1 3 15 1 4 18 1 5 19 1 6 20 1 7 21 1 8 22 1 9 23 1 10 24 1

可以看到，异常值100被成功删除。

五、使用局部异常因子（LOF）删除异常值

局部异常因子（Local Outlier Factor, LOF）是一种基于密度的异常检测算法，通过比较局部密度来识别异常值。以下是使用LOF算法删除异常值的Python代码示例：

from sklearn.neighbors import LocalOutlierFactor
创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
使用LOF算法识别异常值
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
df['anomaly'] = lof.fit_predict(df[['value']])
删除异常值（anomaly标签为-1的点）
df_cleaned = df[df['anomaly'] != -1]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)

原始数据集：

value anomaly 0 10 1 1 12 1 2 14 1 3 15 1 4 18 1 5 19 1 6 20 1 7 21 1 8 22 1 9 23 1 10 24 1 11 100 -1

清理后的数据集：

value anomaly 0 10 1 1 12 1 2 14 1 3 15 1 4 18 1 5 19 1 6 20 1 7 21 1 8 22 1 9 23 1 10 24 1

可以看到，异常值100被成功删除。

六、使用MAD（Median Absolute Deviation）删除异常值

MAD（Median Absolute Deviation）是一种基于中位数的异常检测方法，通过计算数据点偏离中位数的绝对偏差来识别异常值。以下是使用MAD方法删除异常值的Python代码示例：

# 创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
计算中位数
median = df['value'].median()
计算绝对偏差
mad = np.median(np.abs(df['value'] - median))
确定阈值（通常为3）
threshold = 3 * mad
标记并删除异常值
df['anomaly'] = np.abs(df['value'] - median) > threshold
df_cleaned = df[df['anomaly'] == False]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)

原始数据集：

value anomaly 0 10 False 1 12 False 2 14 False 3 15 False 4 18 False 5 19 False 6 20 False 7 21 False 8 22 False 9 23 False 10 24 False 11 100 True

清理后的数据集：

value anomaly 0 10 False 1 12 False 2 14 False 3 15 False 4 18 False 5 19 False 6 20 False 7 21 False 8 22 False 9 23 False 10 24 False

可以看到，异常值100被成功删除。

七、使用分位数方法删除异常值

分位数方法是一种基于数据分布的异常检测方法，通过计算数据的指定分位数来识别异常值。以下是使用分位数方法删除异常值的Python代码示例：

# 创建一个示例数据集
data = {'value': [10, 12, 14, 15, 18, 19, 20, 21, 22, 23, 24, 100]}
df = pd.DataFrame(data)
计算第1分位数（Q1）和第99分位数（Q99）
Q1 = df['value'].quantile(0.01)
Q99 = df['value'].quantile(0.99)
标记并删除异常值
df_cleaned = df[(df['value'] >= Q1) & (df['value'] <= Q99)]
print("原始数据集：")
print(df)
print("\n清理后的数据集：")
print(df_cleaned)