Python_BeautifulSoup4爬虫应用案例

最新推荐文章于 2024-04-24 22:52:03 发布

VIP文章 statistics_man

最新推荐文章于 2024-04-24 22:52:03 发布

阅读量1.6k

点赞数 2

分类专栏： Python爬虫文章标签： python 爬虫 BeautifulSoup4

本文链接：https://blog.csdn.net/weixin_45498948/article/details/127177906

版权

前言：BeautifulSoup4是爬虫必学的技能，和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。下面分享如何运用Python的第三方库BeautifulSoup4来爬取中国城市的天气。

中国天气网站（华北）：http://www.weather.com.cn/textFC/hb.shtml
华北分页
可以看到url中的 hb表示华北，其他区域则分别是：db(东北)、hd(华东)、hz(华中)、hn(华南)、xb(西北)、xn(西南)、gat(港澳台)。

我们的爬虫需求是：爬取全中国所有城市以及对应的最低气温。

页面结构分析，通过页面导航可以发现：
（1）整个分页都在<div class="conMidtab">...</div> == $0 标签里，同级标签有7个，对应7个日期的分页：
页面分析1
（2）一个<div class="conMidtab">标签下面有多个<div class="conMidtab2">的标签，一个<div class="conMidtab2">标签的节点集对应一个省/直辖市：
页面分析2
（3）一个<div class="conMidtab2">标签下面有两个节点标签：其中table标签（表格标签）包含了整个省/直辖市的所有城市及对应城市的天气信息，<div class="contentLtab">...</div>标签是分隔行“返回顶部”：
页面分析3.1
页面分析3.2
（4）一个tr标签表示一行，第一个城市的名称和对应的天气在第三行（即第三个tr标签），第二个城市的名称和对应的天气在第四行，以此类推：
页面分析4
（5）一个td标签表示一个单元格，城市名称在第二个单元格（即第二个td标签，该td标签下面还有一个a标签），最低气温在倒数第二个单元格：
页面分析5
（6）验证数据在不在网页源代码中：
页面分析6 可以看到需要的信息都在对应的标签里。

案例实现：

import requests
from bs4 import BeautifulSoup

# 定义一个函数，用来获取网页源码并进行解析
def parse_page(url):
    headers = {

最低0.47元/天解锁文章

statistics_man

关注

2
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
Python_BeautifulSoup4爬虫应用案例

BeautifulSoup4和 lxml 一样，也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据，本篇文章主要分享了如何运用BeautifulSoup4解析器来爬取中国城市的天气数据。
复制链接

扫一扫