Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

尚可签

已于 2023-03-11 13:27:00 修改

阅读量2.6k

点赞数 2

分类专栏：初学篇文章标签： python 爬虫 beautifulsoup

于 2023-03-07 17:11:30 首次发布

本文链接：https://blog.csdn.net/weixin_51151534/article/details/129386310

版权

初学篇专栏收录该内容

69 篇文章 4 订阅

订阅专栏

本文介绍了使用Python的Requests库发送HTTP请求和BeautifulSoup库解析网页内容来实现网络爬虫。首先安装并导入相关库，然后向目标网站发送请求，获取网页HTML。接着使用BeautifulSoup解析HTML，选择需要的数据，如标题和内容。最后，将爬取到的信息存储到本地文件。

摘要由CSDN通过智能技术生成

标题：Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

Python爬虫技术是网络爬虫中的一种，它可以从互联网上抓取各种网页信息，如文本、图片、视频等，并将它们存储在本地数据库中。Python语言具有简单易学、语法简洁、代码规范、开发效率高等优点，成为了爬虫开发中广泛使用的一种语言。本文将介绍使用Python的Requests和BeautifulSoup库实现爬取网页内容的具体实现。

1.安装和导入相关库
在使用Requests和BeautifulSoup库进行爬虫开发之前，需要安装并导入相关库。可以通过以下代码来实现：

import requests
from bs4 import BeautifulSoup

2.发送HTTP请求获取网页内容
在Python爬虫中，首先需要向目标网站发送HTTP请求，以获取网页内容。这里我们使用Requests库发送HTTP请求，并使用BeautifulSoup库来解析网页内容。

url = 'https://www.example.com'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')

在上面的代码中，我们指定了目标网站的URL，并设置了请求头部信息。其中，User-Agent用于伪装请求，避免被服务器禁止访问。

3.解析网页内容
BeautifulSoup库提供了一种方便的方法来解析网页内容。我们可以使用BeautifulSoup库提供的标签选择器和属性选择器来提取我们需要的内容。

title = soup.select('title')[0].get_text()
content = soup.select('div[class="content"]')[0].get_text()

在上面的代码中，我们使用了标签选择器和属性选择器来选择网页中的标题和正文内容。其中，[0]表示选择第一个匹配的元素，get_text()方法用于提取元素的文本内容。

4.存储网页内容
最后，我们将爬取到的网页内容存储到本地文件或数据库中。这里我们以将爬取到的内容保存为TXT文件为例。

with open('example.txt', 'w', encoding='utf-8') as f:
    f.write(title + '\n')
    f.write(content)

在上面的代码中，我们使用Python的with语句打开文件，并将爬取到的标题和正文内容写入到文件中。

总结

# 导入相关库
import requests
from bs4 import BeautifulSoup

# 指定目标网站的URL，并设置请求头部信息
url = 'https://www.example.com'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 发送HTTP请求并获取网页内容
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')

# 解析网页内容
title = soup.select('title')[0].get_text()
content = soup.select('div[class="content"]')[0].get_text()

# 存储网页内容
with open('example.txt', 'w', encoding='utf-8') as f:
    f.write(title + '\n')
    f.write(content)

本文介绍了Python爬虫技术中使用Requests和BeautifulSoup库实现爬取网页内容的具体步骤。通过学习本文，读者可以了解到Python爬虫开发的基本流程，并了解到如何使用Python的相关库来实现

尚可签

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

Python爬虫技术是网络爬虫中的一种，它可以从互联网上抓取各种网页信息，如文本、图片、视频等，并将它们存储在本地数据库中。通过学习本文，读者可以了解到Python爬虫开发的基本流程，并了解到如何使用Python的相关库来实现。在上面的代码中，我们使用了标签选择器和属性选择器来选择网页中的标题和正文内容。在上面的代码中，我们指定了目标网站的URL，并设置了请求头部信息。在上面的代码中，我们使用Python的with语句打开文件，并将爬取到的标题和正文内容写入到文件中。2.发送HTTP请求获取网页内容。
复制链接

扫一扫