Python如何从电脑导入表格

一、Python如何从电脑导入表格

Python导入表格的方法有多种，常用的有使用pandas库、openpyxl库、xlrd库。其中，pandas库是最常用的，因为它功能强大，且操作简便。pandas库支持多种文件格式，包括CSV、Excel、JSON等。以下将详细介绍如何使用pandas库来导入Excel表格。

使用pandas库导入Excel表格非常简单，只需几行代码即可完成。首先，确保已安装pandas库，可以通过pip进行安装：

pip install pandas

然后，通过以下代码导入Excel表格：

import pandas as pd
读取Excel文件
df = pd.read_excel('文件路径/文件名.xlsx')
显示数据
print(df.head())

在这段代码中，pd.read_excel()函数用于读取Excel文件，df.head()函数用于显示前几行数据。接下来将详细介绍pandas库的使用方法和其他常用库的特点。

二、PANDAS库的使用方法

1、安装和导入pandas库

首先，确保已安装pandas库。如果未安装，可以通过以下命令进行安装：

pip install pandas

安装完成后，可以在Python脚本中导入pandas库：

import pandas as pd

2、读取Excel文件

使用pd.read_excel()函数可以轻松读取Excel文件。以下是一个示例代码：

import pandas as pd
读取Excel文件
df = pd.read_excel('文件路径/文件名.xlsx')
显示数据
print(df.head())

在这段代码中，pd.read_excel()函数用于读取Excel文件，并将其存储在DataFrame对象中。df.head()函数用于显示前几行数据。

3、读取CSV文件

除了Excel文件，pandas库还支持读取CSV文件。可以使用pd.read_csv()函数读取CSV文件，示例如下：

import pandas as pd
读取CSV文件
df = pd.read_csv('文件路径/文件名.csv')
显示数据
print(df.head())

4、读取多个工作表

如果Excel文件中有多个工作表，可以指定要读取的工作表名称或索引。可以通过sheet_name参数指定工作表名称或索引，示例如下：

import pandas as pd
读取指定工作表
df = pd.read_excel('文件路径/文件名.xlsx', sheet_name='工作表名称')
或者使用工作表索引
df = pd.read_excel('文件路径/文件名.xlsx', sheet_name=0)
显示数据
print(df.head())

5、读取特定列和行

可以使用usecols参数指定要读取的列，使用skiprows参数指定要跳过的行。例如：

import pandas as pd
读取指定列
df = pd.read_excel('文件路径/文件名.xlsx', usecols=['列1', '列2'])
跳过前几行
df = pd.read_excel('文件路径/文件名.xlsx', skiprows=3)
显示数据
print(df.head())

6、处理空值

在读取Excel文件时，可能会遇到空值。可以使用na_values参数指定哪些值应该被视为空值，示例如下：

import pandas as pd
指定空值
df = pd.read_excel('文件路径/文件名.xlsx', na_values=['NA', 'N/A', ''])
显示数据
print(df.head())

7、保存数据

读取数据后，可以对数据进行处理，并将处理后的数据保存为新的Excel或CSV文件。例如：

import pandas as pd
读取Excel文件
df = pd.read_excel('文件路径/文件名.xlsx')
处理数据（示例：删除空值行）
df.dropna(inplace=True)
保存为新的Excel文件
df.to_excel('文件路径/新文件名.xlsx', index=False)
保存为CSV文件
df.to_csv('文件路径/新文件名.csv', index=False)

8、总结

pandas库是Python中最常用的数据分析库之一，功能强大且操作简便。通过pandas库，可以轻松读取和处理Excel和CSV文件。在读取Excel文件时，可以指定工作表、列和行，并处理空值。处理后的数据可以保存为新的Excel或CSV文件。

三、OPENPYXL库的使用方法

1、安装和导入openpyxl库

首先，确保已安装openpyxl库。如果未安装，可以通过以下命令进行安装：

pip install openpyxl

安装完成后，可以在Python脚本中导入openpyxl库：

import openpyxl

2、读取Excel文件

使用openpyxl库读取Excel文件需要更多的代码，但它提供了更灵活的操作方式。以下是一个示例代码：

import openpyxl
打开Excel文件
workbook = openpyxl.load_workbook('文件路径/文件名.xlsx')
获取工作表
sheet = workbook['工作表名称']
读取单元格数据
for row in sheet.iter_rows(min_row=1, max_row=5, min_col=1, max_col=3):
    for cell in row:
        print(cell.value)

在这段代码中，openpyxl.load_workbook()函数用于打开Excel文件，workbook['工作表名称']用于获取指定工作表，sheet.iter_rows()用于迭代读取单元格数据。

3、读取多个工作表

可以使用workbook.sheetnames获取所有工作表的名称，并使用workbook[sheet_name]获取指定工作表。例如：

import openpyxl
打开Excel文件
workbook = openpyxl.load_workbook('文件路径/文件名.xlsx')
获取所有工作表名称
sheet_names = workbook.sheetnames
print(sheet_names)
获取指定工作表
sheet = workbook[sheet_names[0]]

4、读取特定单元格

可以使用sheet.cell()读取特定单元格的数据。例如：

import openpyxl
打开Excel文件
workbook = openpyxl.load_workbook('文件路径/文件名.xlsx')
获取工作表
sheet = workbook['工作表名称']
读取特定单元格
cell_value = sheet.cell(row=1, column=1).value
print(cell_value)

5、写入数据

可以使用openpyxl库将数据写入Excel文件。例如：

import openpyxl
打开Excel文件
workbook = openpyxl.load_workbook('文件路径/文件名.xlsx')
获取工作表
sheet = workbook['工作表名称']
写入数据
sheet.cell(row=1, column=1).value = '新数据'
保存文件
workbook.save('文件路径/文件名.xlsx')

6、总结

openpyxl库提供了更灵活的Excel文件操作方式，可以读取和写入特定单元格数据，并处理多个工作表。虽然代码相对较多，但它适用于需要精细控制Excel文件操作的场景。

四、XLRD库的使用方法

1、安装和导入xlrd库

首先，确保已安装xlrd库。如果未安装，可以通过以下命令进行安装：

pip install xlrd

安装完成后，可以在Python脚本中导入xlrd库：

import xlrd

2、读取Excel文件

使用xlrd库读取Excel文件的示例代码如下：

import xlrd
打开Excel文件
workbook = xlrd.open_workbook('文件路径/文件名.xlsx')
获取工作表
sheet = workbook.sheet_by_name('工作表名称')
读取单元格数据
for row_idx in range(sheet.nrows):
    for col_idx in range(sheet.ncols):
        print(sheet.cell(row_idx, col_idx).value)

在这段代码中，xlrd.open_workbook()函数用于打开Excel文件，workbook.sheet_by_name()用于获取指定工作表，sheet.cell()用于读取单元格数据。

3、读取多个工作表

可以使用workbook.sheet_names()获取所有工作表的名称，并使用workbook.sheet_by_name(sheet_name)获取指定工作表。例如：

import xlrd
打开Excel文件
workbook = xlrd.open_workbook('文件路径/文件名.xlsx')
获取所有工作表名称
sheet_names = workbook.sheet_names()
print(sheet_names)
获取指定工作表
sheet = workbook.sheet_by_name(sheet_names[0])

4、读取特定单元格

可以使用sheet.cell()读取特定单元格的数据。例如：

import xlrd
打开Excel文件
workbook = xlrd.open_workbook('文件路径/文件名.xlsx')
获取工作表
sheet = workbook.sheet_by_name('工作表名称')
读取特定单元格
cell_value = sheet.cell(0, 0).value
print(cell_value)

5、总结

xlrd库主要用于读取Excel文件，操作相对简单，但不支持写入数据。如果需要写入数据，可以结合使用xlwt库。

五、PANDAS、OPENPYXL和XLRD库的比较

1、功能比较

pandas库：功能强大，支持多种文件格式（如CSV、Excel、JSON等），适用于数据分析和处理，操作简便。

openpyxl库：提供了更灵活的Excel文件操作方式，适用于需要精细控制Excel文件操作的场景，支持读取和写入数据。

xlrd库：主要用于读取Excel文件，操作相对简单，但不支持写入数据。如果需要写入数据，可以结合使用xlwt库。

2、性能比较

在处理大数据量时，pandas库的性能较好，因为它基于NumPy库，具有较高的计算效率。openpyxl库在处理大数据量时性能相对较差，因为它逐行读取和写入数据。而xlrd库由于功能简单，性能较好，但仅适用于读取数据的场景。

3、适用场景比较

pandas库：适用于数据分析和处理，尤其是需要处理大数据量和多种文件格式的场景。

openpyxl库：适用于需要精细控制Excel文件操作的场景，如读取和写入特定单元格数据，处理多个工作表等。

xlrd库：适用于简单的Excel文件读取操作，不需要写入数据的场景。

4、总结

在选择Python库导入Excel表格时，可以根据具体需求选择合适的库。如果需要强大的数据分析和处理功能，推荐使用pandas库；如果需要精细控制Excel文件操作，推荐使用openpyxl库；如果仅需要简单的读取操作，推荐使用xlrd库。

六、实战案例

1、使用pandas库进行数据分析

以下是一个使用pandas库读取Excel文件并进行数据分析的示例代码：

import pandas as pd
读取Excel文件
df = pd.read_excel('文件路径/文件名.xlsx')
显示数据
print(df.head())
数据统计
print(df.describe())
数据筛选
filtered_df = df[df['列名'] > 10]
print(filtered_df)
数据分组统计
grouped_df = df.groupby('列名').mean()
print(grouped_df)
数据可视化
import matplotlib.pyplot as plt
df['列名'].hist()
plt.show()

2、使用openpyxl库操作Excel文件

以下是一个使用openpyxl库读取和写入Excel文件的示例代码：

import openpyxl
打开Excel文件
workbook = openpyxl.load_workbook('文件路径/文件名.xlsx')
获取工作表
sheet = workbook['工作表名称']
读取单元格数据
for row in sheet.iter_rows(min_row=1, max_row=5, min_col=1, max_col=3):
    for cell in row:
        print(cell.value)
写入数据
sheet.cell(row=1, column=1).value = '新数据'
保存文件
workbook.save('文件路径/文件名.xlsx')

3、使用xlrd库读取Excel文件

以下是一个使用xlrd库读取Excel文件的示例代码：

import xlrd
打开Excel文件
workbook = xlrd.open_workbook('文件路径/文件名.xlsx')
获取工作表
sheet = workbook.sheet_by_name('工作表名称')
读取单元格数据
for row_idx in range(sheet.nrows):
    for col_idx in range(sheet.ncols):
        print(sheet.cell(row_idx, col_idx).value)

4、综合应用

以下是一个综合应用示例，结合使用pandas库和openpyxl库进行数据处理和文件操作：

import pandas as pd
import openpyxl
读取Excel文件
df = pd.read_excel('文件路径/文件名.xlsx')
数据筛选
filtered_df = df[df['列名'] > 10]
将筛选后的数据保存为新的Excel文件
filtered_df.to_excel('文件路径/筛选后文件名.xlsx', index=False)
使用openpyxl库打开新的Excel文件
workbook = openpyxl.load_workbook('文件路径/筛选后文件名.xlsx')
获取工作表
sheet = workbook.active
写入数据
sheet.cell(row=1, column=1).value = '新数据'
保存文件
workbook.save('文件路径/筛选后文件名.xlsx')

通过上述示例，可以看到如何结合使用不同的Python库进行Excel文件的读取、处理和保存操作。

七、总结

Python提供了多种库来导入和操作Excel表格文件，常用的有pandas、openpyxl和xlrd库。其中，pandas库功能强大，适用于数据分析和处理；openpyxl库提供了更灵活的Excel文件操作方式，适用于需要精细控制Excel文件操作的场景；xlrd库主要用于简单的Excel文件读取操作。根据具体需求选择合适的库，可以高效地完成Excel文件的导入和处理任务。