python如何去掉奇异值

Python如何去掉奇异值：使用统计方法识别、利用数据可视化工具检查、应用机器学习算法处理。 去掉奇异值的方法中，使用统计方法识别是最常见的，下面详细介绍如何使用统计方法识别和处理奇异值。

一、使用统计方法识别

统计方法是最常见的识别和处理奇异值的方法，包括使用均值和标准差、四分位距（IQR）等。下面将详细介绍这些方法：

1、均值和标准差法

均值和标准差法是指通过计算数据集的均值和标准差，然后判断数据点是否落在一个合理的范围内。这个方法的步骤如下：

计算均值和标准差：

import numpy as np
data = [10, 12, 12, 13, 12, 14, 15, 100, 12, 12]
mean = np.mean(data)
std = np.std(data)

设定阈值：通常设定为均值加减2或3倍的标准差。

threshold = 3
lower_bound = mean - threshold * std
upper_bound = mean + threshold * std

过滤奇异值：

filtered_data = [x for x in data if x >= lower_bound and x <= upper_bound]

2、四分位距法（IQR）

四分位距法是通过计算数据的四分位数，然后确定上下四分位距（IQR），并用它来识别奇异值。步骤如下：

计算四分位数：

Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

设定阈值：通常设定为1.5倍的IQR。

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

过滤奇异值：

filtered_data = [x for x in data if x >= lower_bound and x <= upper_bound]

二、利用数据可视化工具检查

数据可视化工具如箱线图、散点图等可以直观地展示奇异值。

1、箱线图

箱线图（Box Plot）是一种常见的统计图形，用于显示数据的分布及其变化范围，并且能够直观地显示奇异值。使用Matplotlib库可以绘制箱线图：

import matplotlib.pyplot as plt
plt.boxplot(data)
plt.show()

2、散点图

散点图（Scatter Plot）可以用于观察数据集中每个点的位置，识别和标记奇异值。下面是使用Matplotlib绘制散点图的例子：

plt.scatter(range(len(data)), data)
plt.show()

三、应用机器学习算法处理

在机器学习中，有一些算法和技术可以用来识别和处理奇异值。

1、孤立森林（Isolation Forest）

孤立森林是一种基于树的算法，专门用于检测异常值。它通过随机选择一个特征和一个特征值来分割数据，孤立点会更容易被分割出来。

from sklearn.ensemble import IsolationForest
iso_forest = IsolationForest(contamination=0.1)
data = np.array(data).reshape(-1, 1)
y_pred = iso_forest.fit_predict(data)
filtered_data = data[y_pred == 1]

2、局部异常因子（Local Outlier Factor, LOF）

局部异常因子是一种基于密度的异常检测方法，通过比较局部密度来识别异常点。

from sklearn.neighbors import LocalOutlierFactor
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = lof.fit_predict(data)
filtered_data = data[y_pred == 1]

四、实战案例：去掉奇异值的完整流程

1、数据准备

假设我们有一个包含员工工资的数据集，其中可能存在一些异常高或异常低的工资数据，我们希望通过Python来识别和去掉这些奇异值。

import pandas as pd
创建一个包含工资数据的DataFrame
data = {'Salary': [30000, 32000, 34000, 36000, 38000, 40000, 42000, 44000, 46000, 48000, 50000, 52000, 54000, 56000, 58000, 1000000]}
df = pd.DataFrame(data)

2、使用统计方法识别奇异值

我们可以使用前面介绍的均值和标准差法或四分位距法来识别和去掉奇异值。

均值和标准差法

mean = df['Salary'].mean()
std = df['Salary'].std()
threshold = 3
lower_bound = mean - threshold * std
upper_bound = mean + threshold * std
过滤奇异值
filtered_df = df[(df['Salary'] >= lower_bound) & (df['Salary'] <= upper_bound)]
print(filtered_df)

四分位距法

Q1 = df['Salary'].quantile(0.25)
Q3 = df['Salary'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
过滤奇异值
filtered_df = df[(df['Salary'] >= lower_bound) & (df['Salary'] <= upper_bound)]
print(filtered_df)

3、利用数据可视化工具检查

使用箱线图和散点图来直观地展示数据，并检查奇异值。

箱线图

plt.boxplot(df['Salary'])
plt.show()

散点图

plt.scatter(range(len(df['Salary'])), df['Salary'])
plt.show()

4、应用机器学习算法处理

我们可以使用孤立森林或局部异常因子来识别和去掉奇异值。

孤立森林

iso_forest = IsolationForest(contamination=0.1)
salaries = df['Salary'].values.reshape(-1, 1)
y_pred = iso_forest.fit_predict(salaries)
filtered_df = df[y_pred == 1]
print(filtered_df)

局部异常因子

lof = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = lof.fit_predict(salaries)
filtered_df = df[y_pred == 1]
print(filtered_df)

5、综合应用

在实际应用中，可能需要结合多种方法来识别和去掉奇异值。比如，先使用统计方法进行初步筛选，再结合机器学习算法进行进一步的检测和处理。

# 使用四分位距法进行初步筛选
Q1 = df['Salary'].quantile(0.25)
Q3 = df['Salary'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
filtered_df = df[(df['Salary'] >= lower_bound) & (df['Salary'] <= upper_bound)]
使用孤立森林进行进一步检测
iso_forest = IsolationForest(contamination=0.1)
salaries = filtered_df['Salary'].values.reshape(-1, 1)
y_pred = iso_forest.fit_predict(salaries)
final_filtered_df = filtered_df[y_pred == 1]
print(final_filtered_df)

通过上述方法和步骤，我们可以有效地识别和去掉奇异值，从而提高数据的质量和分析结果的准确性。无论是使用统计方法、数据可视化工具，还是机器学习算法，都可以根据实际情况选择合适的方法进行应用。