python 如何处理csv文件

Python 处理 CSV 文件可以使用多种方法、包括使用内置的 csv 模块、使用 pandas 库、使用 numpy 库。下面将详细介绍每种方法，并说明其优点和使用场景。

一、使用 CSV 模块

Python 内置的 csv 模块是处理 CSV 文件的一个简单而强大的工具。它提供了多种方法来读取和写入 CSV 文件。

1、读取 CSV 文件

使用 csv 模块读取 CSV 文件非常简单。通过 csv.reader 函数，可以将 CSV 文件中的每一行读取为一个列表。

import csv
with open('example.csv', mode='r', newline='') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

在上面的示例中，open 函数以读取模式打开了一个名为 example.csv 的文件，并使用 csv.reader 读取文件的内容。reader 是一个可迭代对象，可以逐行读取 CSV 文件。

2、写入 CSV 文件

写入 CSV 文件同样简单，使用 csv.writer 函数可以将数据写入 CSV 文件。

import csv
data = [
    ['Name', 'Age', 'City'],
    ['Alice', 30, 'New York'],
    ['Bob', 25, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
with open('output.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data)

在上面的示例中，使用 csv.writer 函数创建了一个写入对象 writer，并通过 writerows 方法将数据列表写入 CSV 文件。

3、处理带有标题行的 CSV 文件

很多时候，CSV 文件会包含标题行，表示每列的名称。可以使用 csv.DictReader 和 csv.DictWriter 处理带有标题行的 CSV 文件。

import csv
with open('example.csv', mode='r', newline='') as file:
    reader = csv.DictReader(file)
    for row in reader:
        print(row['Name'], row['Age'], row['City'])

在上面的示例中，csv.DictReader 将每一行读取为一个字典，字典的键是标题行的列名。

写入带有标题行的 CSV 文件可以使用 csv.DictWriter：

import csv
data = [
    {'Name': 'Alice', 'Age': 30, 'City': 'New York'},
    {'Name': 'Bob', 'Age': 25, 'City': 'Los Angeles'},
    {'Name': 'Charlie', 'Age': 35, 'City': 'Chicago'}
]
with open('output.csv', mode='w', newline='') as file:
    fieldnames = ['Name', 'Age', 'City']
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(data)

在上面的示例中，使用 csv.DictWriter 创建一个写入对象 writer，并通过 writeheader 方法写入标题行，通过 writerows 方法写入数据。

二、使用 pandas 库

pandas 是一个功能强大的数据处理库，广泛用于数据分析和处理。它提供了更加高级和方便的函数来处理 CSV 文件。

1、读取 CSV 文件

使用 pandas 读取 CSV 文件非常简单，可以使用 pd.read_csv 函数。

import pandas as pd
df = pd.read_csv('example.csv')
print(df)

在上面的示例中，pd.read_csv 函数读取了 example.csv 文件，并将其内容存储在 DataFrame 对象 df 中。DataFrame 是 pandas 中的主要数据结构，类似于电子表格或 SQL 表。

2、写入 CSV 文件

写入 CSV 文件可以使用 DataFrame.to_csv 方法。

import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [30, 25, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
df.to_csv('output.csv', index=False)

在上面的示例中，创建了一个 DataFrame 对象 df，并通过 to_csv 方法将其内容写入 output.csv 文件。index=False 参数表示不写入索引列。

3、处理缺失值

CSV 文件中可能包含缺失值，可以使用 pandas 轻松处理缺失值。

import pandas as pd
df = pd.read_csv('example.csv')
df.fillna(0, inplace=True)
print(df)

在上面的示例中，使用 fillna 方法将缺失值填充为 0。inplace=True 参数表示在原 DataFrame 上进行修改。

三、使用 numpy 库

numpy 是一个用于科学计算的库，提供了高效的数组操作。虽然 numpy 不是专门用于处理 CSV 文件的，但它也提供了一些函数来读取和写入 CSV 文件。

1、读取 CSV 文件

使用 numpy.genfromtxt 函数可以读取 CSV 文件，并将其内容存储在 numpy 数组中。

import numpy as np
data = np.genfromtxt('example.csv', delimiter=',', dtype=None, encoding=None, names=True)
print(data)

在上面的示例中，genfromtxt 函数读取了 example.csv 文件，并将其内容存储在 data 数组中。delimiter 参数指定了 CSV 文件的分隔符，dtype 参数指定了数据类型，names=True 参数表示第一行是标题行。

2、写入 CSV 文件

写入 CSV 文件可以使用 numpy.savetxt 函数。

import numpy as np
data = np.array([
    ['Name', 'Age', 'City'],
    ['Alice', 30, 'New York'],
    ['Bob', 25, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
])
np.savetxt('output.csv', data, delimiter=',', fmt='%s')

在上面的示例中，savetxt 函数将 data 数组的内容写入 output.csv 文件。delimiter 参数指定了 CSV 文件的分隔符，fmt='%s' 参数指定了格式化字符串。

四、综合比较

1、csv 模块

优点：

内置模块，无需额外安装。
简单易用，适合处理简单的 CSV 文件。

缺点：

功能相对较少，不适合处理复杂的数据。
处理大数据时性能较低。

2、pandas 库

优点：

功能强大，适合处理复杂的数据。
提供了丰富的数据处理和分析函数。
处理大数据时性能较高。

缺点：

需要额外安装。
相对 csv 模块，学习曲线较陡。

3、numpy 库

优点：

高效的数组操作，适合处理数值数据。
处理大数据时性能较高。

缺点：

功能相对较少，不适合处理非数值数据。
需要额外安装。

五、使用场景

1、简单 CSV 文件处理

对于简单的 CSV 文件处理，可以使用内置的 csv 模块。它提供了基本的读取和写入功能，适合处理小型和简单的 CSV 文件。

2、复杂数据处理和分析

对于复杂的数据处理和分析，建议使用 pandas 库。它提供了丰富的数据处理和分析函数，适合处理大型和复杂的 CSV 文件。pandas 库在数据科学和机器学习领域得到了广泛应用。

3、数值数据处理

对于数值数据的处理，可以使用 numpy 库。它提供了高效的数组操作，适合处理大型数值数据。numpy 库在科学计算和工程计算领域得到了广泛应用。

六、实际案例

1、数据清洗

在实际应用中，CSV 文件可能包含一些不完整或无效的数据。可以使用 pandas 库进行数据清洗。

import pandas as pd
读取 CSV 文件
df = pd.read_csv('example.csv')
删除包含缺失值的行
df.dropna(inplace=True)
填充缺失值
df.fillna(0, inplace=True)
删除重复行
df.drop_duplicates(inplace=True)
保存清洗后的数据
df.to_csv('cleaned_data.csv', index=False)

在上面的示例中，使用 pandas 库读取了 example.csv 文件，并进行了数据清洗操作，包括删除包含缺失值的行、填充缺失值和删除重复行，最后将清洗后的数据保存到 cleaned_data.csv 文件中。

2、数据分析

可以使用 pandas 库对 CSV 文件进行数据分析。例如，计算每个城市的平均年龄。

import pandas as pd
读取 CSV 文件
df = pd.read_csv('example.csv')
计算每个城市的平均年龄
average_age = df.groupby('City')['Age'].mean()
打印结果
print(average_age)

在上面的示例中，使用 pandas 库读取了 example.csv 文件，并通过 groupby 和 mean 函数计算了每个城市的平均年龄。

3、数据可视化

可以使用 pandas 库和 matplotlib 库对 CSV 文件进行数据可视化。例如，绘制每个城市的平均年龄柱状图。

import pandas as pd
import matplotlib.pyplot as plt
读取 CSV 文件
df = pd.read_csv('example.csv')
计算每个城市的平均年龄
average_age = df.groupby('City')['Age'].mean()
绘制柱状图
average_age.plot(kind='bar')
plt.xlabel('City')
plt.ylabel('Average Age')
plt.title('Average Age by City')
plt.show()