怎么读取多个excel文件

要读取多个Excel文件，可以使用Python中的pandas库、glob库和os库来简化整个过程。主要方法包括：使用glob库获取文件路径、使用pandas读取文件、数据合并。 以下是详细的操作步骤：

一、安装与导入库

在开始之前，确保你已经安装了pandas和openpyxl库。如果没有安装，可以使用以下命令进行安装：

pip install pandas openpyxl

然后在你的Python脚本中导入需要的库：

import pandas as pd
import glob
import os

二、获取文件路径

使用glob库来获取指定目录下所有Excel文件的路径。glob库提供了一个便捷的方法来匹配文件路径模式。

# 获取当前目录下所有.xlsx文件的路径
file_paths = glob.glob(os.path.join(os.getcwd(), "*.xlsx"))

三、读取Excel文件

使用pandas库的read_excel方法来读取每个Excel文件，并将它们存储在一个列表中。可以使用一个循环来遍历所有文件路径。

# 存储所有数据框
data_frames = []
for file_path in file_paths:
    df = pd.read_excel(file_path)
    data_frames.append(df)

四、合并数据

将所有读取的数据框合并成一个数据框，可以使用pandas的concat方法。

# 合并所有数据框
merged_data = pd.concat(data_frames, ignore_index=True)

五、保存合并后的数据

将合并后的数据保存到一个新的Excel文件中，使用to_excel方法。

merged_data.to_excel("merged_data.xlsx", index=False)

六、示例代码

以下是一个完整的示例代码，展示了如何读取多个Excel文件并将它们合并到一个数据框中：

import pandas as pd
import glob
import os
获取当前目录下所有.xlsx文件的路径
file_paths = glob.glob(os.path.join(os.getcwd(), "*.xlsx"))
存储所有数据框
data_frames = []
for file_path in file_paths:
    df = pd.read_excel(file_path)
    data_frames.append(df)
合并所有数据框
merged_data = pd.concat(data_frames, ignore_index=True)
保存合并后的数据到一个新的Excel文件
merged_data.to_excel("merged_data.xlsx", index=False)

七、处理不同工作表

有时候，一个Excel文件中可能有多个工作表。可以在读取时指定工作表的名称或索引。

# 读取指定工作表
df = pd.read_excel(file_path, sheet_name='Sheet1')
读取所有工作表
df_dict = pd.read_excel(file_path, sheet_name=None)
遍历所有工作表
for sheet_name, sheet_data in df_dict.items():
    data_frames.append(sheet_data)

八、处理不同文件格式

除了.xlsx文件，你可能还需要处理.xls文件。可以在glob路径模式中添加多个文件扩展名。

# 获取当前目录下所有.xlsx和.xls文件的路径
file_paths = glob.glob(os.path.join(os.getcwd(), "*.xlsx")) + glob.glob(os.path.join(os.getcwd(), "*.xls"))

九、数据清洗与预处理

在合并数据之前，可能需要对数据进行清洗和预处理。例如，删除重复行、处理缺失值、标准化列名等。

for df in data_frames:
    df.drop_duplicates(inplace=True)  # 删除重复行
    df.fillna(method='ffill', inplace=True)  # 填充缺失值
    df.columns = [col.strip().lower() for col in df.columns]  # 标准化列名

十、总结

读取多个Excel文件并将它们合并是一个常见的数据处理任务。通过使用Python中的pandas、glob和os库，可以高效地完成这一任务。以上的步骤和示例代码展示了从获取文件路径、读取文件、合并数据到保存结果的完整过程。希望这些内容对你有帮助。如果你有任何进一步的问题或需要更详细的解释，请随时提问。

相关问答FAQs：

1. 如何一次性读取多个Excel文件？

您可以使用Python中的pandas库来读取多个Excel文件。首先，将所有的Excel文件放在同一个文件夹中。然后，使用pandas的read_excel()函数来读取这个文件夹中的所有Excel文件。您可以通过指定文件夹路径和文件扩展名来实现这个功能。例如，使用以下代码来读取所有的Excel文件：

import pandas as pd
import os

folder_path = 'your_folder_path'
file_extension = '.xlsx'  # 或者 '.xls'，取决于您的Excel文件扩展名

excel_files = [file for file in os.listdir(folder_path) if file.endswith(file_extension)]
dataframes = [pd.read_excel(os.path.join(folder_path, file)) for file in excel_files]

这样，您将得到一个包含所有Excel文件数据的列表，每个元素都是一个pandas的DataFrame对象。

2. 如何在读取多个Excel文件时保留文件名信息？

如果您想要在读取多个Excel文件时保留每个文件的文件名信息，您可以使用Python中的os模块来获取文件名，并将其作为DataFrame的一个列。以下是一个示例代码：

import pandas as pd
import os

folder_path = 'your_folder_path'
file_extension = '.xlsx'  # 或者 '.xls'，取决于您的Excel文件扩展名

excel_files = [file for file in os.listdir(folder_path) if file.endswith(file_extension)]
dataframes = []

for file in excel_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_excel(file_path)
    df['filename'] = file  # 添加一个名为'filename'的列，并将文件名赋值给每个单元格
    dataframes.append(df)

这样，您将得到一个包含所有Excel文件数据的列表，每个元素都是一个具有文件名信息的DataFrame对象。

3. 如何合并多个Excel文件的数据？

如果您想要将多个Excel文件中的数据合并成一个DataFrame，您可以使用pandas库中的concat()函数来实现。以下是一个示例代码：

import pandas as pd
import os

folder_path = 'your_folder_path'
file_extension = '.xlsx'  # 或者 '.xls'，取决于您的Excel文件扩展名

excel_files = [file for file in os.listdir(folder_path) if file.endswith(file_extension)]
dataframes = [pd.read_excel(os.path.join(folder_path, file)) for file in excel_files]

combined_df = pd.concat(dataframes, ignore_index=True)

这样，您将得到一个合并了所有Excel文件数据的DataFrame对象。通过设置ignore_index=True，使得合并后的DataFrame的索引重新排序。

文章包含AI辅助创作，作者：Edit2，如若转载，请注明出处：https://docs.pingcode.com/baike/4491315