使用 Python 的requests库获取网站的源代码

互联网是信息的宝库,有时,您可能希望出于各种目的(例如数据提取、分析或自动化)访问网站的底层 HTML 源代码。Python 凭借其丰富的库生态系统,使网页抓取成为一项简单的任务。

在本文中,我们将探讨如何使用 Python 获取网站的源代码。

1. 安装所需的库

要阅读本文,您将需要以下内容:

  • Python 3.6 或更高版本
  • requests 库

蟒蛇 3.6

在我们深入研究网络抓取之前,请确保您的系统上安装了 Python。您可以从 python.org 下载最新版本。

requests 库

Python 中的“请求”库是一个流行且广泛使用的库,用于向 Web 服务、网站和 API 发出 HTTP 请求。它简化了发送 HTTP 请求和处理 HTTP 响应的过程,使开发人员更容易与 Web 资源进行交互。

要在Python中安装“Requests”库,您可以使用 Python 包管理器 。以下是安装请求的步骤:pip

  1. 打开命令提示符或终端。
  2. 运行以下命令以安装 Requests:
pip install requests

2. 编写 Python 代码

现在我们已经安装了 Requests,让我们编写一个简单的 Python 脚本来检索网站的源代码。

import requests

# Define the URL of the website you want to scrape
url = 'https://example.com'

# Send an HTTP GET request to the URL
response = requests.get(url)

# Check if the request was successful (status code 200)
if response.status_code == 200:
    # Print the HTML source code
    print(response.text)
else:
    print('Failed to retrieve the webpage. Status code:', response.status_code)

在此脚本中:

  1. 我们使用 导入 Requests 库。import requests
  2. 我们用我们想要抓取的网站的 URL 来定义变量。您可以替换为目标网站的 URL。url'https://example.com'
  3. 我们用于向指定的 URL 发送 HTTP GET 请求,并将响应存储在变量中。requests.get(url)response
  4. 我们通过检查 HTTP 状态代码来检查请求是否成功。状态代码 200 表示成功。
  5. 如果请求成功,我们将使用 .response.text

以下示例展示了如何使用上述代码获取 Google 首页的源代码:

import requests

# Define the URL of the website you want to scrape
url = 'https://google.com'

# Send an HTTP GET request to the URL
response = requests.get(url)

# Check if the request was successful (status code 200)
if response.status_code == 200:
    # Print the HTML source code
    print(response.text)
else:
    print('Failed to retrieve the webpage. Status code:', response.status_code)

输出:

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="en">
<head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type">
  <meta content="width=device-width, initial-scale=1.0" name="viewport">
  <title>Google</title>
  ...
</head>
<body>
  ...
</body>
</html>

结论

使用 Python 的 Requests 库进行网页抓取是访问网站源代码的一种简单而有效的方法。但是,在抓取网站时,必须了解网站服务条款和法律注意事项。始终确保您的网页抓取活动是合乎道德的并遵守网站的政策。借助 Requests,您可以使用一个强大的工具来收集数据、自动执行任务和探索广阔的 Web 内容世界。

参考:

https://requests.readthedocs.io/en/latest/?embedable=true

https://pytutorial.com/getting-website-source-using-python-requests/?embedable=true

发表评论

邮箱地址不会被公开。 必填项已用*标注