python进行网页数据爬取（一）

最新推荐文章于 2024-05-13 13:07:07 发布

weixin_43869694

最新推荐文章于 2024-05-13 13:07:07 发布

阅读量818

点赞数 2

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_43869694/article/details/108664203

版权

本文介绍了Python进行网页数据爬取的基本流程，包括通过requests库获取HTML数据，使用BeautifulSoup解析HTML，解析后的目标信息存储，以及如何进行批量网页爬取。

摘要由CSDN通过智能技术生成

网络数据采集的一般流程：

1、通过网站域名获取HTML数据；

2、根据目标信息解析数据；

3、存储目标信息；

4、若有必要，移到另一个网页重复这个过程。

一、通过网站域名获取HTML数据；
使用requests库来进行获取HTML数据

import requests

url = 'https://www.runoob.com/python3/python3-tutorial.html'

r = requests.get(url)
html = r.text.encode(r.encoding).decode()
print(html)

二、根据目标信息解析数据；

1、html网页结构；
一个页面包含了head和body两部分的内容，需要的内容一般是在body中。
在这里插入图片描述

2、利用BeautifulSoup解析html

#根据目标信息解析html文档
import requests
from bs4 import BeautifulSoup

url = 'https://www.runoob.com/python3/python3-tutorial.html'
r = requests.get(url)
html = r.text.encode(r.encoding).decode()
soup = BeautifulSoup(html,

最低0.47元/天解锁文章

weixin_43869694

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python进行网页数据爬取（一）

网络数据采集的一般流程：1、通过网站域名获取HTML数据；2、根据目标信息解析数据；3、存储目标信息；4、若有必要，移到另一个网页重复这个过程。一、通过网站域名获取HTML数据；使用requests库来进行获取HTML数据import requestsurl = 'https://www.runoob.com/python3/python3-tutorial.html'r = requests.get(url)html = r.text.encode(r.encoding).deco
复制链接

扫一扫