用python如何读取excel文件

用Python读取Excel文件可以使用多种方法和库，例如：pandas、openpyxl、xlrd等。其中，pandas库是最常用且功能强大的工具，它不仅支持读取Excel文件，还能进行数据处理和分析。

详细描述： 使用pandas库读取Excel文件非常简单，只需几行代码即可完成。首先，确保已安装pandas库（可以使用pip install pandas命令安装）。然后，通过pandas的read_excel函数读取Excel文件，并将其存储到DataFrame对象中。DataFrame是pandas中的核心数据结构，类似于Excel表格，可以对其进行各种数据处理和分析操作。

下面将详细介绍如何使用pandas读取Excel文件，并介绍其他常用库和方法。

一、PANDAS读取EXCEL文件

1、安装和导入Pandas库

首先，确保你已经安装了pandas库。如果没有安装，可以通过以下命令安装：

pip install pandas

然后，在Python代码中导入pandas库：

import pandas as pd

2、读取Excel文件

使用pandas的read_excel函数读取Excel文件。例如，假设有一个Excel文件名为data.xlsx，可以使用以下代码读取文件：

df = pd.read_excel('data.xlsx')

df是一个DataFrame对象，它存储了Excel文件中的数据。可以通过以下代码查看DataFrame的前几行数据：

print(df.head())

3、指定工作表

如果Excel文件中有多个工作表，可以通过sheet_name参数指定要读取的工作表。例如，读取名为Sheet1的工作表：

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

也可以通过工作表的索引来指定，例如读取第一个工作表：

df = pd.read_excel('data.xlsx', sheet_name=0)

4、读取多个工作表

如果需要读取多个工作表，可以将sheet_name参数设置为一个列表，或者使用None读取所有工作表：

# 读取多个指定工作表
df_dict = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])
读取所有工作表
df_dict = pd.read_excel('data.xlsx', sheet_name=None)

读取多个工作表时，返回的是一个字典，键是工作表名称，值是对应的DataFrame。

5、其他常用参数

read_excel函数还有很多其他参数可以使用，以下是一些常用参数：

header：指定列标题行的索引，默认为0。
skiprows：指定跳过的行数，例如skiprows=2跳过前两行。
usecols：指定要读取的列，例如usecols='A:C'读取A到C列。
nrows：指定读取的行数，例如nrows=10读取前10行。

示例代码：

df = pd.read_excel('data.xlsx', header=1, skiprows=2, usecols='A:C', nrows=10)

二、OPENPYXL读取EXCEL文件

1、安装和导入Openpyxl库

首先，确保你已经安装了openpyxl库。如果没有安装，可以通过以下命令安装：

pip install openpyxl

然后，在Python代码中导入openpyxl库：

import openpyxl

2、读取Excel文件

使用openpyxl的load_workbook函数读取Excel文件。例如，假设有一个Excel文件名为data.xlsx，可以使用以下代码读取文件：

wb = openpyxl.load_workbook('data.xlsx')

wb是一个Workbook对象，它存储了Excel文件中的数据。

3、获取工作表

可以通过wb.sheetnames查看所有工作表的名称：

print(wb.sheetnames)

通过工作表名称获取工作表对象：

sheet = wb['Sheet1']

4、读取数据

可以通过工作表对象的iter_rows和iter_cols方法遍历行和列。例如，读取所有行的数据：

for row in sheet.iter_rows(values_only=True):
    print(row)

values_only=True表示只返回单元格的值，而不是单元格对象。

三、XLRD读取EXCEL文件

1、安装和导入Xlrd库

首先，确保你已经安装了xlrd库。如果没有安装，可以通过以下命令安装：

pip install xlrd

然后，在Python代码中导入xlrd库：

import xlrd

2、读取Excel文件

使用xlrd的open_workbook函数读取Excel文件。例如，假设有一个Excel文件名为data.xlsx，可以使用以下代码读取文件：

workbook = xlrd.open_workbook('data.xlsx')

3、获取工作表

可以通过workbook.sheet_names()查看所有工作表的名称：

print(workbook.sheet_names())

通过工作表名称获取工作表对象：

sheet = workbook.sheet_by_name('Sheet1')

4、读取数据

可以通过工作表对象的row_values和col_values方法读取行和列的数据。例如，读取第一行的数据：

row_values = sheet.row_values(0)
print(row_values)

读取第一列的数据：

col_values = sheet.col_values(0)
print(col_values)

四、COMPARISON OF PANDAS, OPENPYXL AND XLRD

1、功能和适用场景

pandas：功能强大，支持读取和写入Excel文件，并且能够进行复杂的数据处理和分析操作，适用于数据科学和数据分析任务。
openpyxl：支持读取和写入Excel文件，适用于需要处理Excel文件格式和样式的任务，例如创建和修改Excel文件。
xlrd：主要用于读取Excel文件，适用于简单的读取任务，不支持写入Excel文件。

2、性能

pandas和openpyxl在读取大文件时性能较好，而xlrd在读取大文件时可能会有性能问题。

3、兼容性

pandas和openpyxl支持读取Excel 2007及以上版本的.xlsx文件，而xlrd支持读取Excel 97-2003版本的.xls文件，且最新版本的xlrd已不再支持.xlsx文件。

五、EXAMPLES AND APPLICATIONS

1、读取和处理数据

假设有一个Excel文件data.xlsx，其中包含多个工作表，每个工作表包含一些数据。可以使用pandas读取并处理这些数据。

import pandas as pd
读取所有工作表
df_dict = pd.read_excel('data.xlsx', sheet_name=None)
遍历每个工作表
for sheet_name, df in df_dict.items():
    print(f"Sheet: {sheet_name}")
    print(df.head())

可以对每个DataFrame进行数据处理，例如过滤数据、计算统计量等。

# 过滤数据
filtered_df = df[df['column_name'] > threshold]
计算统计量
mean_value = df['column_name'].mean()
sum_value = df['column_name'].sum()

2、修改和保存Excel文件

可以使用openpyxl修改并保存Excel文件。例如，向一个工作表中添加数据：

import openpyxl
读取Excel文件
wb = openpyxl.load_workbook('data.xlsx')
sheet = wb['Sheet1']
添加数据
sheet.append(['A', 'B', 'C'])
sheet.append([1, 2, 3])
保存Excel文件
wb.save('data_modified.xlsx')

3、读取特定格式的Excel文件

可以使用xlrd读取特定格式的Excel文件。例如，读取Excel 97-2003版本的.xls文件：

import xlrd
读取Excel文件
workbook = xlrd.open_workbook('data.xls')
sheet = workbook.sheet_by_name('Sheet1')
读取数据
row_values = sheet.row_values(0)
col_values = sheet.col_values(0)