python爬虫如何写入文档

Python爬虫写入文档的方法有多种，包括：将数据写入文本文件、将数据写入CSV文件、将数据写入Excel文件、将数据写入数据库等。最常见的是将数据写入文本文件和CSV文件。下面我们将详细描述如何使用Python爬虫将数据写入CSV文件。

一、文本文件写入

文本文件是最简单的一种文件格式，适用于存储简单的、结构化的数据。可以使用Python的内置open()函数创建和写入文本文件。

1、基础示例

import requests
from bs4 import BeautifulSoup
发送HTTP请求
response = requests.get('https://example.com')
解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
查找数据
data = soup.find_all('p')
写入文本文件
with open('output.txt', 'w', encoding='utf-8') as file:
    for item in data:
        file.write(item.get_text() + '\n')

2、分段写入

有时候我们需要在爬取的过程中分段写入文件，以防止数据丢失或内存耗尽。

with open('output.txt', 'a', encoding='utf-8') as file:
    for item in data:
        file.write(item.get_text() + '\n')

二、CSV文件写入

CSV（Comma Separated Values）文件是一种简单的表格文件格式，适用于存储表格数据。可以使用Python的csv模块来创建和写入CSV文件。

1、基础示例

import csv
写入CSV文件
with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    # 写入表头
    writer.writerow(['Column1', 'Column2', 'Column3'])
    # 写入数据行
    writer.writerow(['Data1', 'Data2', 'Data3'])

2、从爬虫写入CSV

import requests
from bs4 import BeautifulSoup
import csv
发送HTTP请求
response = requests.get('https://example.com')
解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
查找数据
data = soup.find_all('p')
写入CSV文件
with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    # 写入表头
    writer.writerow(['Paragraph'])
    for item in data:
        writer.writerow([item.get_text()])

三、Excel文件写入

Excel文件格式复杂，但对于需要处理复杂表格数据的情况，使用Excel文件格式是一个不错的选择。可以使用openpyxl模块来创建和写入Excel文件。

1、基础示例

from openpyxl import Workbook
创建一个新的工作簿
wb = Workbook()
获取活动工作表
ws = wb.active
写入表头
ws.append(['Column1', 'Column2', 'Column3'])
写入数据行
ws.append(['Data1', 'Data2', 'Data3'])
保存文件
wb.save('output.xlsx')

2、从爬虫写入Excel

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
发送HTTP请求
response = requests.get('https://example.com')
解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
查找数据
data = soup.find_all('p')
创建一个新的工作簿
wb = Workbook()
获取活动工作表
ws = wb.active
写入表头
ws.append(['Paragraph'])
for item in data:
    ws.append([item.get_text()])
保存文件
wb.save('output.xlsx')

四、数据库写入

将数据写入数据库是一种更加结构化和持久化的存储方式，适用于需要频繁查询和更新的数据。常用的数据库包括SQLite、MySQL、PostgreSQL等。

1、SQLite数据库写入

SQLite是一个轻量级的嵌入式数据库，适合小型项目。可以使用Python的sqlite3模块来创建和写入SQLite数据库。

import sqlite3
连接到SQLite数据库
conn = sqlite3.connect('example.db')
c = conn.cursor()
创建表
c.execute('''CREATE TABLE IF NOT EXISTS my_table
             (id INTEGER PRIMARY KEY, column1 TEXT, column2 TEXT)''')
插入数据
c.execute("INSERT INTO my_table (column1, column2) VALUES ('Data1', 'Data2')")
提交事务
conn.commit()
关闭连接
conn.close()

2、从爬虫写入SQLite

import requests
from bs4 import BeautifulSoup
import sqlite3
发送HTTP请求
response = requests.get('https://example.com')
解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
查找数据
data = soup.find_all('p')
连接到SQLite数据库
conn = sqlite3.connect('example.db')
c = conn.cursor()
创建表
c.execute('''CREATE TABLE IF NOT EXISTS paragraphs
             (id INTEGER PRIMARY KEY, content TEXT)''')
for item in data:
    # 插入数据
    c.execute("INSERT INTO paragraphs (content) VALUES (?)", (item.get_text(),))
提交事务
conn.commit()
关闭连接
conn.close()

五、MySQL数据库写入

MySQL是一种流行的关系型数据库管理系统，适用于大型项目。可以使用mysql-connector-python库来连接和操作MySQL数据库。

1、安装MySQL连接器

pip install mysql-connector-python

2、基础示例

import mysql.connector
连接到MySQL数据库
conn = mysql.connector.connect(
    host="localhost",
    user="yourusername",
    password="yourpassword",
    database="yourdatabase"
)
c = conn.cursor()
创建表
c.execute('''CREATE TABLE IF NOT EXISTS my_table
             (id INT AUTO_INCREMENT PRIMARY KEY, column1 VARCHAR(255), column2 VARCHAR(255))''')
插入数据
c.execute("INSERT INTO my_table (column1, column2) VALUES (%s, %s)", ('Data1', 'Data2'))
提交事务
conn.commit()
关闭连接
conn.close()

3、从爬虫写入MySQL

import requests
from bs4 import BeautifulSoup
import mysql.connector
发送HTTP请求
response = requests.get('https://example.com')
解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
查找数据
data = soup.find_all('p')
连接到MySQL数据库
conn = mysql.connector.connect(
    host="localhost",
    user="yourusername",
    password="yourpassword",
    database="yourdatabase"
)
c = conn.cursor()
创建表
c.execute('''CREATE TABLE IF NOT EXISTS paragraphs
             (id INT AUTO_INCREMENT PRIMARY KEY, content TEXT)''')
for item in data:
    # 插入数据
    c.execute("INSERT INTO paragraphs (content) VALUES (%s)", (item.get_text(),))
提交事务
conn.commit()
关闭连接
conn.close()

六、PostgreSQL数据库写入

PostgreSQL是一种功能强大的开源关系型数据库系统，适用于复杂的数据需求。可以使用psycopg2库来连接和操作PostgreSQL数据库。

1、安装PostgreSQL连接器

pip install psycopg2

2、基础示例

import psycopg2
连接到PostgreSQL数据库
conn = psycopg2.connect(
    dbname="yourdatabase",
    user="yourusername",
    password="yourpassword",
    host="localhost"
)
c = conn.cursor()
创建表
c.execute('''CREATE TABLE IF NOT EXISTS my_table
             (id SERIAL PRIMARY KEY, column1 VARCHAR(255), column2 VARCHAR(255))''')
插入数据
c.execute("INSERT INTO my_table (column1, column2) VALUES (%s, %s)", ('Data1', 'Data2'))
提交事务
conn.commit()
关闭连接
conn.close()

3、从爬虫写入PostgreSQL

import requests
from bs4 import BeautifulSoup
import psycopg2
发送HTTP请求
response = requests.get('https://example.com')
解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
查找数据
data = soup.find_all('p')
连接到PostgreSQL数据库
conn = psycopg2.connect(
    dbname="yourdatabase",
    user="yourusername",
    password="yourpassword",
    host="localhost"
)
c = conn.cursor()
创建表
c.execute('''CREATE TABLE IF NOT EXISTS paragraphs
             (id SERIAL PRIMARY KEY, content TEXT)''')
for item in data:
    # 插入数据
    c.execute("INSERT INTO paragraphs (content) VALUES (%s)", (item.get_text(),))
提交事务
conn.commit()
关闭连接
conn.close()