python3如何判断网页是否存在

Python3 如何判断网页是否存在

使用 Python3 判断网页是否存在，可以通过发送 HTTP 请求并检查响应状态码、使用 try-except 处理异常、检查响应内容。 其中，通过发送 HTTP 请求并检查响应状态码是最常用的方法之一。接下来，我们将详细描述如何使用这些方法来判断网页是否存在。

一、通过 HTTP 请求检查网页状态

1、使用 requests 库

Python 的 requests 库使得发送 HTTP 请求变得非常简单。我们可以通过发送一个 GET 请求来检查网页是否存在。如果响应状态码为 200，则表示网页存在。常见的状态码如下：

200: 请求成功，网页存在。
404: 未找到网页，网页不存在。
500: 服务器内部错误，可能存在问题，但不能确定网页是否存在。

import requests
def check_website_exists(url):
    try:
        response = requests.get(url)
        # 通过状态码判断网页是否存在
        if response.status_code == 200:
            return True
        else:
            return False
    except requests.exceptions.RequestException as e:
        # 处理请求异常
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

2、使用 urllib 库

urllib 是 Python 内置的库，也可以用来发送 HTTP 请求并检查网页是否存在。与 requests 库类似，我们可以通过捕获异常来处理请求失败的情况。

from urllib.request import urlopen
from urllib.error import URLError, HTTPError
def check_website_exists(url):
    try:
        response = urlopen(url)
        if response.status == 200:
            return True
        else:
            return False
    except HTTPError as e:
        print(f"HTTP error occurred: {e.code}")
        return False
    except URLError as e:
        print(f"URL error occurred: {e.reason}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

二、处理异常

1、捕获请求异常

在发送 HTTP 请求时，可能会遇到各种异常情况，例如网络连接失败、超时等。因此，捕获异常并进行相应处理是非常重要的。

import requests
def check_website_exists(url):
    try:
        response = requests.get(url, timeout=10)
        if response.status_code == 200:
            return True
        else:
            return False
    except requests.exceptions.Timeout:
        print("The request timed out")
        return False
    except requests.exceptions.TooManyRedirects:
        print("Too many redirects")
        return False
    except requests.exceptions.RequestException as e:
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

2、处理 HTTP 错误

在捕获 HTTP 错误时，可以根据不同的状态码进行不同的处理。例如，对于 404 错误，可以明确告知用户网页不存在；对于 500 错误，可以提示用户服务器内部错误。

from urllib.request import urlopen
from urllib.error import URLError, HTTPError
def check_website_exists(url):
    try:
        response = urlopen(url)
        if response.status == 200:
            return True
        else:
            return False
    except HTTPError as e:
        if e.code == 404:
            print("Error 404: Not Found")
        elif e.code == 500:
            print("Error 500: Internal Server Error")
        else:
            print(f"HTTP error occurred: {e.code}")
        return False
    except URLError as e:
        print(f"URL error occurred: {e.reason}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

三、检查响应内容

1、检查特定关键字

有时网页可能返回状态码 200，但内容却是一个错误页面。这种情况下，可以通过检查响应内容中的特定关键字来进一步确认网页是否存在。例如，可以检查网页标题是否包含 "404" 或 "Not Found" 等关键词。

import requests
def check_website_exists(url):
    try:
        response = requests.get(url, timeout=10)
        if response.status_code == 200:
            # 检查响应内容中的特定关键字
            if "404" in response.text or "Not Found" in response.text:
                return False
            return True
        else:
            return False
    except requests.exceptions.RequestException as e:
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

2、检查网页标题

另一种方法是检查网页标题是否匹配预期的内容。可以通过解析 HTML 内容并检查 <title> 标签中的文本来实现这一点。

import requests
from bs4 import BeautifulSoup
def check_website_exists(url):
    try:
        response = requests.get(url, timeout=10)
        if response.status_code == 200:
            # 解析 HTML 内容并检查标题
            soup = BeautifulSoup(response.text, 'html.parser')
            title = soup.find('title').text
            if "404" in title or "Not Found" in title:
                return False
            return True
        else:
            return False
    except requests.exceptions.RequestException as e:
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

四、使用头部请求

1、发送 HEAD 请求

发送 HEAD 请求只会获取响应头部，而不会下载整个网页内容。这种方法可以提高效率，特别是在检查大量网页时。

import requests
def check_website_exists(url):
    try:
        response = requests.head(url, timeout=10)
        if response.status_code == 200:
            return True
        else:
            return False
    except requests.exceptions.RequestException as e:
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

2、处理重定向

在发送 HEAD 请求时，网页可能会进行重定向。在这种情况下，可以选择是否跟随重定向。

import requests
def check_website_exists(url, allow_redirects=True):
    try:
        response = requests.head(url, allow_redirects=allow_redirects, timeout=10)
        if response.status_code == 200:
            return True
        else:
            return False
    except requests.exceptions.RequestException as e:
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

五、使用第三方服务

1、使用 HTTP 状态码检查服务

有些第三方服务专门提供 HTTP 状态码检查，可以通过这些服务来判断网页是否存在。例如，使用 httpbin.org 提供的服务。

import requests
def check_website_exists(url):
    try:
        response = requests.get(f"https://httpbin.org/status/200?url={url}", timeout=10)
        if response.status_code == 200:
            return True
        else:
            return False
    except requests.exceptions.RequestException as e:
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")

2、使用在线工具

一些在线工具和 API 可以帮助检查网页是否存在，例如 isitdownrightnow.com 或 downforeveryoneorjustme.com。可以通过调用这些 API 来检查网页状态。

import requests
def check_website_exists(url):
    try:
        response = requests.get(f"https://isitdownrightnow.com/check.php?domain={url}", timeout=10)
        if "is UP" in response.text:
            return True
        else:
            return False
    except requests.exceptions.RequestException as e:
        print(f"An error occurred: {e}")
        return False
示例
url = "https://www.example.com"
if check_website_exists(url):
    print("Website exists.")
else:
    print("Website does not exist.")