如何用python做描述性统计分析

如何用Python做描述性统计分析

使用Python进行描述性统计分析，关键步骤包括：导入数据、数据清洗、计算基本统计量、绘制数据分布图、识别异常值。 其中，计算基本统计量是最为基础和核心的一步。例如，通过Python的pandas库可以轻松计算出数据的均值、方差、标准差等基本统计量，这些统计量能帮助我们快速了解数据的整体特征。

一、导入数据

进行任何数据分析的第一步都是获取和导入数据。Python提供了许多方便的数据导入方法，例如从CSV文件、Excel文件或数据库中读取数据。

1、从CSV文件读取数据

CSV文件是最常见的数据存储格式之一。我们可以使用pandas库中的read_csv函数来读取CSV文件。

import pandas as pd
读取CSV文件
data = pd.read_csv('data.csv')

2、从Excel文件读取数据

除了CSV文件，Excel文件也是常用的数据存储格式。我们可以使用pandas库中的read_excel函数来读取Excel文件。

# 读取Excel文件
data = pd.read_excel('data.xlsx')

3、从数据库读取数据

有时数据存储在数据库中。我们可以使用pandas库中的read_sql函数来读取数据库中的数据。

import sqlite3
连接到数据库
conn = sqlite3.connect('database.db')
读取数据
data = pd.read_sql('SELECT * FROM table_name', conn)

二、数据清洗

在导入数据之后，数据清洗是非常重要的一步。数据清洗的目的是确保数据的质量和一致性，这样才能进行准确的描述性统计分析。

1、处理缺失值

缺失值是数据分析中的常见问题。我们可以使用pandas库中的isnull和dropna函数来处理缺失值。

# 检查缺失值
data.isnull().sum()
删除包含缺失值的行
data = data.dropna()

2、处理重复值

重复值也是数据分析中的常见问题。我们可以使用pandas库中的duplicated和drop_duplicates函数来处理重复值。

# 检查重复值
data.duplicated().sum()
删除重复值
data = data.drop_duplicates()

3、处理异常值

异常值可能会影响统计分析的结果。我们可以使用箱线图（boxplot）来识别和处理异常值。

import matplotlib.pyplot as plt
绘制箱线图
plt.boxplot(data['column_name'])
plt.show()

三、计算基本统计量

计算基本统计量是描述性统计分析的核心步骤。我们可以使用pandas库中的describe函数来计算基本统计量。

# 计算基本统计量
data.describe()

1、均值

均值是数据的平均值，表示数据的中心位置。我们可以使用pandas库中的mean函数来计算均值。

# 计算均值
data['column_name'].mean()

2、中位数

中位数是将数据排序后位于中间位置的值，表示数据的中心趋势。我们可以使用pandas库中的median函数来计算中位数。

# 计算中位数
data['column_name'].median()

3、标准差

标准差是数据的离散程度，表示数据的波动范围。我们可以使用pandas库中的std函数来计算标准差。

# 计算标准差
data['column_name'].std()

四、绘制数据分布图

绘制数据分布图可以帮助我们更直观地了解数据的分布情况。我们可以使用matplotlib和seaborn库来绘制数据分布图。

1、直方图

直方图用于显示数据的频率分布。我们可以使用matplotlib库中的hist函数来绘制直方图。

# 绘制直方图
plt.hist(data['column_name'], bins=10)
plt.show()

2、箱线图

箱线图用于显示数据的分布情况和异常值。我们可以使用seaborn库中的boxplot函数来绘制箱线图。

import seaborn as sns
绘制箱线图
sns.boxplot(x=data['column_name'])
plt.show()

3、散点图

散点图用于显示两个变量之间的关系。我们可以使用matplotlib库中的scatter函数来绘制散点图。

# 绘制散点图
plt.scatter(data['column_x'], data['column_y'])
plt.show()

五、识别异常值

异常值是指在数据集中明显偏离其他数据点的值。识别和处理异常值对于确保数据分析的准确性非常重要。

1、使用箱线图识别异常值

箱线图可以帮助我们识别异常值。我们可以使用seaborn库中的boxplot函数来绘制箱线图，并识别异常值。

# 绘制箱线图
sns.boxplot(x=data['column_name'])
plt.show()

2、使用Z-Score识别异常值

Z-Score是一种标准化方法，可以帮助我们识别异常值。我们可以使用scipy库中的zscore函数来计算Z-Score，并识别异常值。

from scipy.stats import zscore
计算Z-Score
data['zscore'] = zscore(data['column_name'])
识别异常值
outliers = data[data['zscore'] > 3]

3、处理异常值

识别出异常值后，我们可以选择删除或替换这些异常值。删除异常值可以使用drop函数，替换异常值可以使用fillna函数。

# 删除异常值
data = data.drop(outliers.index)
替换异常值
data['column_name'] = data['column_name'].replace(outliers['column_name'], data['column_name'].median())