用python爬取数据后如何存入数据库

用Python爬取数据后存入数据库的方法主要有：选择合适的数据库、使用ORM框架、编写SQL语句、数据清洗和处理。 其中，选择合适的数据库尤为重要，不同的数据库适用于不同的使用场景。例如，MySQL适用于大多数Web应用程序，而MongoDB则更适合处理非结构化数据。

一、选择合适的数据库

1.1、关系型数据库

关系型数据库（RDBMS）如MySQL、PostgreSQL等，是许多应用的首选。这些数据库擅长处理结构化数据和复杂的查询。

1.1.1、MySQL

MySQL 是最常见的开源关系型数据库之一，适用于中小型项目。

安装MySQL数据库：
```
sudo apt-get install mysql-server
```

使用Python连接MySQL：

import mysql.connector
mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="yourdatabase"
)
mycursor = mydb.cursor()

1.1.2、PostgreSQL

PostgreSQL 是一个功能更强大、支持更多高级功能的开源关系型数据库。

安装PostgreSQL数据库：

sudo apt-get install postgresql postgresql-contrib

使用Python连接PostgreSQL：

import psycopg2
conn = psycopg2.connect(
  dbname="yourdatabase",
  user="yourusername",
  password="yourpassword",
  host="localhost"
)
cur = conn.cursor()

1.2、非关系型数据库

非关系型数据库（NoSQL）如MongoDB、Redis等，适用于处理大规模非结构化数据。

1.2.1、MongoDB

MongoDB 是一个基于文档存储的NoSQL数据库，适用于处理非结构化数据。

安装MongoDB数据库：
```
sudo apt-get install -y mongodb
```

使用Python连接MongoDB：

from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client.yourdatabase
collection = db.yourcollection

二、使用ORM框架

ORM（Object-Relational Mapping）框架可以简化数据库操作，使得代码更具可读性和可维护性。

2.1、SQLAlchemy

SQLAlchemy 是一个广泛使用的Python ORM框架，支持多种数据库。

安装SQLAlchemy：
```
pip install sqlalchemy
```

使用SQLAlchemy连接数据库：

from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
engine = create_engine('mysql+pymysql://user:password@localhost/yourdatabase')
Base = declarative_base()
Session = sessionmaker(bind=engine)
session = Session()

2.2、Django ORM

Django自带的ORM框架适用于Django项目，简化了数据库操作。

安装Django：
```
pip install django
```

配置Django数据库设置：

DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': 'yourdatabase', 'USER': 'yourusername', 'PASSWORD': 'yourpassword', 'HOST': 'localhost', 'PORT': '3306', } }

三、编写SQL语句

3.1、创建表

在数据库中创建表是存储数据的前提。

CREATE TABLE yourtable (
    id INT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255),
    data TEXT
);

3.2、插入数据

使用SQL语句将爬取的数据插入到数据库中。

sql = "INSERT INTO yourtable (name, data) VALUES (%s, %s)"
val = ("Sample Name", "Sample Data")
mycursor.execute(sql, val)
mydb.commit()

四、数据清洗和处理

4.1、数据清洗

在将数据存入数据库之前，通常需要对数据进行清洗和处理。

import re
def clean_data(data):
    # 移除HTML标签
    data = re.sub(r'<.*?>', '', data)
    # 移除多余的空格和换行
    data = data.strip()
    return data

4.2、数据处理

处理数据使其符合数据库要求，比如数据类型转换、去重等。

def process_data(data):
    # 转换数据类型
    data = int(data) if data.isdigit() else data
    # 去重
    data = list(set(data))
    return data

五、综合示例

5.1、爬取数据

假设我们要爬取一个网页的数据。

import requests
from bs4 import BeautifulSoup
url = "http://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
data = soup.find_all('p')

5.2、清洗和处理数据

对爬取的数据进行清洗和处理。

cleaned_data = [clean_data(d.text) for d in data]
processed_data = [process_data(d) for d in cleaned_data]

5.3、存入数据库

将处理后的数据存入数据库。

import mysql.connector
mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="yourdatabase"
)
mycursor = mydb.cursor()
for d in processed_data:
    sql = "INSERT INTO yourtable (data) VALUES (%s)"
    val = (d,)
    mycursor.execute(sql, val)
mydb.commit()

以上就是用Python爬取数据后存入数据库的完整流程。通过选择合适的数据库、使用ORM框架、编写SQL语句、进行数据清洗和处理，可以有效地将爬取的数据存储到数据库中。

相关问答FAQs：

如何选择合适的数据库来存储爬取的数据？
在选择数据库时，首先需要考虑数据的结构和性质。如果爬取的数据是非结构化的，可以选择NoSQL数据库，如MongoDB；如果数据是结构化的，关系型数据库如MySQL或PostgreSQL可能更合适。此外，还需考虑数据量、查询频率和扩展性等因素。

使用Python连接数据库的步骤是什么？
连接数据库的步骤通常包括安装相应的数据库驱动包、导入相关库、建立连接、创建游标、执行SQL语句以及提交事务。以MySQL为例，可以使用mysql-connector-python库，代码示例如下：

import mysql.connector

# 建立连接
db = mysql.connector.connect(
    host="localhost",
    user="yourusername",
    password="yourpassword",
    database="yourdatabase"
)

# 创建游标
cursor = db.cursor()

# 执行SQL语句
cursor.execute("INSERT INTO yourtable (column1, column2) VALUES (value1, value2)")

# 提交事务
db.commit()

如何处理爬取数据后可能出现的重复记录？
在存储数据时，可以通过设置数据库中的唯一约束来防止重复记录的出现。对于需要去重的情况，还可以在数据插入前先查询数据库，确认该记录是否已存在。此外，使用INSERT IGNORE语句或ON DUPLICATE KEY UPDATE语法也能有效处理重复数据的插入。