如何解决python爬取时被拒绝访问

要解决Python爬取时被拒绝访问的问题，首先可以尝试使用代理、设置适当的请求头、实现延时请求、使用分布式爬虫和模拟登录。这些策略可以帮助你绕过一些常见的反爬虫措施。其中，使用代理是一种非常有效的方法，通过轮换代理IP，可以避免被目标网站封禁。代理服务器的选择和管理是关键，需要确保代理的高匿名性和稳定性。

一、使用代理

使用代理服务器是最常见的解决方法之一，通过代理服务器可以隐藏你的真实IP，从而避免被目标网站的反爬虫系统检测到。

1.1 代理的类型

代理服务器有多种类型，包括透明代理、匿名代理和高匿名代理。高匿名代理是最为推荐的，因为它不仅可以隐藏你的真实IP，还可以伪装成正常的用户请求。

1.2 如何获取代理

获取代理有两种方式：免费代理和付费代理。免费代理虽然成本低，但稳定性和匿名性较差。付费代理则相对稳定可靠，适合长时间、大量数据的爬取任务。

import requests
使用代理服务器
proxies = {
    'http': 'http://your_proxy_ip:your_proxy_port',
    'https': 'https://your_proxy_ip:your_proxy_port',
}
response = requests.get('http://example.com', proxies=proxies)
print(response.text)

1.3 轮换代理IP

为了进一步提高爬取的成功率，可以使用代理池来轮换代理IP。通过轮换IP，可以有效避免被封禁。

import requests
from itertools import cycle
假设我们有一个代理IP池
proxy_pool = cycle(['http://proxy1', 'http://proxy2', 'http://proxy3'])
for i in range(10):
    proxy = next(proxy_pool)
    response = requests.get('http://example.com', proxies={'http': proxy, 'https': proxy})
    print(response.status_code)

二、设置适当的请求头

设置适当的请求头可以模拟真实的用户请求，避免被反爬虫系统识别。

2.1 User-Agent

User-Agent是最基本的请求头之一，用于标识请求的客户端类型。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get('http://example.com', headers=headers)
print(response.text)

2.2 其他请求头

除了User-Agent，还可以设置Referer、Accept-Encoding、Accept-Language等请求头来进一步模拟真实用户。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'http://google.com',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'en-US,en;q=0.9'
}
response = requests.get('http://example.com', headers=headers)
print(response.text)

三、实现延时请求

过于频繁的请求会引起目标网站的注意，导致IP被封禁。实现延时请求可以有效避免这一问题。

3.1 使用time模块

通过time模块可以在每次请求之间加入延时。

import time
import requests
for i in range(10):
    response = requests.get('http://example.com')
    print(response.status_code)
    time.sleep(5)  # 延时5秒

3.2 使用随机延时

为了增加请求的随机性，可以使用random模块实现随机延时。

import time
import random
import requests
for i in range(10):
    response = requests.get('http://example.com')
    print(response.status_code)
    time.sleep(random.uniform(1, 5))  # 延时1到5秒之间的随机时间

四、使用分布式爬虫

当需要大量数据时，单台机器的爬取速度和效率是有限的。使用分布式爬虫可以大大提高爬取效率，并且降低被封禁的风险。

4.1 Scrapy框架

Scrapy是Python中非常流行的爬虫框架，支持分布式爬虫。

4.2 Scrapy-Redis

Scrapy-Redis是Scrapy的一个扩展，支持分布式爬虫。通过将任务队列存储在Redis中，可以实现多台机器协同工作。

# settings.py
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://user:password@hostname:port'
spider.py
import scrapy
from scrapy_redis.spiders import RedisSpider
class MySpider(RedisSpider):
    name = 'my_spider'
    redis_key = 'my_spider:start_urls'
    def parse(self, response):
        # 解析逻辑
        pass

五、模拟登录

有些网站通过登录来限制访问内容，模拟登录可以绕过这一限制。

5.1 使用Session保持会话

通过requests.Session可以保持会话，模拟登录。

import requests
session = requests.Session()
模拟登录
payload = {
    'username': 'your_username',
    'password': 'your_password'
}
login_url = 'http://example.com/login'
session.post(login_url, data=payload)
登录后访问页面
response = session.get('http://example.com/protected_page')
print(response.text)

5.2 使用Selenium模拟浏览器操作

Selenium可以模拟真实的浏览器操作，包括登录、点击等。

from selenium import webdriver
driver = webdriver.Chrome()
打开登录页面
driver.get('http://example.com/login')
输入用户名和密码
username = driver.find_element_by_name('username')
password = driver.find_element_by_name('password')
username.send_keys('your_username')
password.send_keys('your_password')
提交表单
login_button = driver.find_element_by_name('submit')
login_button.click()
登录后访问页面
driver.get('http://example.com/protected_page')
print(driver.page_source)
driver.quit()