python如何提取pdf表格的数据库

Python 提取 PDF 表格的数据库

提取 PDF 表格数据并导入数据库是一个复杂但常见的任务，使用PyMuPDF、pdfplumber、Pandas等库、数据清洗与格式化是实现这一目标的有效方法。下面详细描述如何使用这些工具来提取PDF表格数据并导入数据库。

一、安装所需库

在开始之前，我们需要安装一些Python库：

pip install pymupdf pdfplumber pandas sqlalchemy

二、使用 PyMuPDF 提取表格

1. PyMuPDF 简介

PyMuPDF（又称 fitz）是一个强大的 PDF 处理库，可以轻松读取 PDF 文件并提取其内容。使用 PyMuPDF 提取表格数据需要一定的文本处理技巧。

2. 读取 PDF 文件

import fitz
def read_pdf(file_path):
    pdf_document = fitz.open(file_path)
    num_pages = pdf_document.page_count
    text = ""
    for page_num in range(num_pages):
        page = pdf_document.load_page(page_num)
        text += page.get_text("text")
    return text

3. 提取表格数据

import pandas as pd
def extract_table(text):
    # 假设表格数据以换行符和空格分隔
    rows = text.split("n")
    data = [row.split() for row in rows if row.strip() != ""]
    df = pd.DataFrame(data)
    return df

三、使用 pdfplumber 提取表格

1. pdfplumber 简介

pdfplumber 是一个专门用于从 PDF 文件中提取表格的库，具有较高的准确性和易用性。

2. 读取和提取表格

import pdfplumber
def extract_table_with_pdfplumber(file_path):
    with pdfplumber.open(file_path) as pdf:
        first_page = pdf.pages[0]
        table = first_page.extract_table()
    df = pd.DataFrame(table[1:], columns=table[0])
    return df

四、数据清洗与格式化

提取到的表格数据可能包含一些不需要的信息或者格式不正确的数据，清洗和格式化是必要的步骤。

1. 数据清洗

def clean_data(df):
    df.dropna(inplace=True)  # 去除缺失值
    df.columns = df.columns.str.strip()  # 去除列名中的空格
    return df

2. 数据格式化

def format_data(df):
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].str.strip()  # 去除字符串中的空格
    return df

五、导入数据库

使用 SQLAlchemy 将清洗和格式化后的数据导入数据库。

1. 配置数据库连接

from sqlalchemy import create_engine
def get_db_engine(user, password, host, port, db):
    url = f"postgresql://{user}:{password}@{host}:{port}/{db}"
    engine = create_engine(url)
    return engine

2. 导入数据

def import_to_db(df, table_name, engine):
    df.to_sql(table_name, engine, if_exists='replace', index=False)

六、完整示例

结合以上步骤，给出一个完整的示例：

import fitz
import pdfplumber
import pandas as pd
from sqlalchemy import create_engine
def read_pdf(file_path):
    pdf_document = fitz.open(file_path)
    num_pages = pdf_document.page_count
    text = ""
    for page_num in range(num_pages):
        page = pdf_document.load_page(page_num)
        text += page.get_text("text")
    return text
def extract_table(text):
    rows = text.split("n")
    data = [row.split() for row in rows if row.strip() != ""]
    df = pd.DataFrame(data)
    return df
def extract_table_with_pdfplumber(file_path):
    with pdfplumber.open(file_path) as pdf:
        first_page = pdf.pages[0]
        table = first_page.extract_table()
    df = pd.DataFrame(table[1:], columns=table[0])
    return df
def clean_data(df):
    df.dropna(inplace=True)
    df.columns = df.columns.str.strip()
    return df
def format_data(df):
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].str.strip()
    return df
def get_db_engine(user, password, host, port, db):
    url = f"postgresql://{user}:{password}@{host}:{port}/{db}"
    engine = create_engine(url)
    return engine
def import_to_db(df, table_name, engine):
    df.to_sql(table_name, engine, if_exists='replace', index=False)
主函数
def main(file_path, db_config, table_name):
    text = read_pdf(file_path)
    df = extract_table(text)
    df = clean_data(df)
    df = format_data(df)
    engine = get_db_engine(db_config)
    import_to_db(df, table_name, engine)
if __name__ == "__main__":
    file_path = "example.pdf"
    db_config = {
        "user": "username",
        "password": "password",
        "host": "localhost",
        "port": 5432,
        "db": "dbname"
    }
    table_name = "pdf_table"
    main(file_path, db_config, table_name)

通过以上步骤，我们可以使用 Python 提取 PDF 表格数据并导入数据库。使用 PyMuPDF、pdfplumber、Pandas 等库、数据清洗与格式化是实现这一目标的有效方法。使用 SQLAlchemy 可以方便地将处理后的数据导入到 PostgreSQL 等数据库中。