如何分类与统计数据Python

要分类与统计数据Python，可以使用pandas库、numpy库、collections模块、groupby方法、pivot_table方法。 其中最常用的方法是通过pandas库进行分类与统计，使用pandas库中的groupby方法可以轻松地对数据进行分组和统计，pivot_table方法则可以帮助我们进行数据透视表的操作。下面将对如何使用pandas库进行分类与统计进行详细描述。

pandas库的groupby方法可以用于数据的分组统计，这个方法非常灵活，可以根据需求选择不同的统计方式。

一、PANDAS库概述

Pandas是Python中一个强大的数据处理与分析库。它提供了数据结构和数据分析工具，特别是它的DataFrame和Series使得数据处理变得非常简单高效。DataFrame是一个二维的表格数据结构，它类似于Excel表格，可以进行数据的增删改查、分组、聚合等操作。

1、安装pandas库

在使用pandas之前，需要先进行安装。可以通过pip进行安装：

pip install pandas

2、导入pandas库

在安装完成后，可以通过以下方式导入pandas库：

import pandas as pd

二、使用PANDAS库的GROUPBY方法进行分类与统计

1、创建DataFrame

在进行分类和统计之前，我们需要有一个数据集。假设我们有以下数据：

import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Cathy', 'David', 'Eve', 'Frank', 'Grace', 'Hank'],
    'Department': ['HR', 'IT', 'Finance', 'IT', 'HR', 'Finance', 'Finance', 'IT'],
    'Salary': [70000, 80000, 90000, 85000, 75000, 95000, 78000, 80000]
}
df = pd.DataFrame(data)
print(df)

输出：

Name Department Salary 0 Alice HR 70000 1 Bob IT 80000 2 Cathy Finance 90000 3 David IT 85000 4 Eve HR 75000 5 Frank Finance 95000 6 Grace Finance 78000 7 Hank IT 80000

2、使用groupby方法进行分类统计

我们可以使用groupby方法对数据进行分组，并对每个分组的数据进行统计。例如，我们想要统计每个部门的平均工资，可以使用以下代码：

grouped = df.groupby('Department')['Salary'].mean()
print(grouped)

输出：

Department Finance 87666.666667 HR 72500.000000 IT 81666.666667 Name: Salary, dtype: float64

3、对多个列进行分组

有时我们可能需要对多个列进行分组。例如，我们想要统计每个部门每个员工的工资总和，可以使用以下代码：

grouped = df.groupby(['Department', 'Name'])['Salary'].sum()
print(grouped)

输出：

Department Name Finance Cathy 90000 Frank 95000 Grace 78000 HR Alice 70000 Eve 75000 IT Bob 80000 David 85000 Hank 80000 Name: Salary, dtype: int64

三、使用PANDAS库的PIVOT_TABLE方法进行分类与统计

1、创建数据透视表

数据透视表是一种用于汇总、分析、探索和展示数据的交互式方法。pandas提供了一个非常强大的pivot_table方法来创建数据透视表。例如，我们想要创建一个数据透视表，显示每个部门的平均工资，可以使用以下代码：

pivot = pd.pivot_table(df, values='Salary', index='Department', aggfunc='mean')
print(pivot)

输出：

Salary Department Finance 87666.666667 HR 72500.000000 IT 81666.666667

2、对多个列进行数据透视

有时我们可能需要对多个列进行数据透视。例如，我们想要创建一个数据透视表，显示每个部门每个员工的工资总和，可以使用以下代码：

pivot = pd.pivot_table(df, values='Salary', index=['Department', 'Name'], aggfunc='sum')
print(pivot)

输出：

Salary Department Name Finance Cathy 90000 Frank 95000 Grace 78000 HR Alice 70000 Eve 75000 IT Bob 80000 David 85000 Hank 80000

3、使用多种聚合函数

我们可以在数据透视表中使用多种聚合函数。例如，我们想要创建一个数据透视表，显示每个部门的工资总和、平均值和最大值，可以使用以下代码：

pivot = pd.pivot_table(df, values='Salary', index='Department', aggfunc=['sum', 'mean', 'max'])
print(pivot)

输出：

sum mean max Department Finance 263000 87666.666667 95000 HR 145000 72500.000000 75000 IT 245000 81666.666667 85000

四、其他分类与统计方法

1、使用Numpy库进行分类与统计

Numpy是一个用于科学计算的Python库。虽然Numpy主要用于数值计算，但它也可以用于数据的分类和统计。例如，我们可以使用Numpy的bincount函数对数据进行分类计数：

import numpy as np
假设我们有以下数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
使用bincount函数进行分类计数
counts = np.bincount(data)
print(counts)

输出：

[0 1 2 3 4]

2、使用Collections模块进行分类与统计

Collections是Python的一个内置模块，它提供了许多有用的数据结构和工具。我们可以使用Collections模块中的Counter类对数据进行分类计数：

from collections import Counter
假设我们有以下数据
data = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']
使用Counter类进行分类计数
counter = Counter(data)
print(counter)

输出：

Counter({'apple': 3, 'banana': 2, 'orange': 1})

五、实际案例解析

为了更好地理解如何分类与统计数据，我们来看一个实际的案例。假设我们有一个包含学生成绩的数据集，我们想要对数据进行分类和统计，以便了解每个班级的平均成绩、最高成绩和最低成绩。

1、创建数据集

首先，我们创建一个包含学生成绩的数据集：

import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Cathy', 'David', 'Eve', 'Frank', 'Grace', 'Hank'],
    'Class': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Math': [85, 78, 92, 88, 76, 95, 89, 84],
    'English': [91, 82, 89, 85, 87, 90, 78, 80],
    'Science': [88, 79, 91, 84, 77, 93, 85, 83]
}
df = pd.DataFrame(data)
print(df)

输出：

Name Class Math English Science 0 Alice A 85 91 88 1 Bob B 78 82 79 2 Cathy A 92 89 91 3 David B 88 85 84 4 Eve A 76 87 77 5 Frank B 95 90 93 6 Grace A 89 78 85 7 Hank B 84 80 83

2、使用groupby方法进行分类统计

我们可以使用groupby方法对数据进行分组，并计算每个班级的平均成绩、最高成绩和最低成绩：

grouped = df.groupby('Class').agg({
    'Math': ['mean', 'max', 'min'],
    'English': ['mean', 'max', 'min'],
    'Science': ['mean', 'max', 'min']
})
print(grouped)

输出：

Math English Science mean max min mean max min mean max min Class A 85.5 92 76 86.25 91 78 85.25 91 77 B 86.25 95 78 84.25 90 80 84.75 93 79

3、使用pivot_table方法进行分类统计

我们也可以使用pivot_table方法来实现同样的统计：

pivot = pd.pivot_table(df, values=['Math', 'English', 'Science'], index='Class', aggfunc=['mean', 'max', 'min'])
print(pivot)

输出：

mean max min Math English Science Math English Science Math English Science Class A 85.5 86.25 85.25 92 91 91 76 78 77 B 86.25 84.25 84.75 95 90 93 78 80 79

六、总结

通过本文的介绍，我们了解了如何使用Python进行数据的分类与统计。我们主要介绍了pandas库的groupby方法和pivot_table方法，这两个方法是数据分类与统计中最常用和最强大的工具。除此之外，我们还介绍了使用Numpy库和Collections模块进行分类与统计的方法。这些方法各有特点，可以根据具体的需求选择合适的方法进行数据的分类与统计。希望本文能够帮助你更好地理解和掌握数据分类与统计的方法和技巧。