爬虫实战：从外地天气到美食推荐，探索干饭人的世界

Python_魔力猿

于 2024-03-14 09:34:24 发布

阅读量1.7k

点赞数 23

文章标签：爬虫美食

本文链接：https://blog.csdn.net/weixin_68789096/article/details/136698734

版权

今天是第二堂课，我们将继续学习爬虫技术。在上一节课中，我们已经学会了如何爬取干饭教程。正如鲁迅所说（我没说过），当地吃完饭就去外地吃，这启发了我去爬取城市天气信息，并顺便了解当地美食。这个想法永远是干饭人的灵魂所在。

今天我们的目标是学习如何爬取城市天气信息，因为要计划去哪里玩耍，首先得了解天气情况。虽然我们的手机已经装有许多免费天气软件，但是也不妨碍我们学习。

在我们开始学习爬虫技术之前，首先需要找到一个容易爬取数据的天气网站。并不要求特定网站，只要易于爬取的网站即可。毕竟我们目前并不需要爬取特定网站来抢票或抢购商品，我们的主要目的是学习爬虫技术。

天气爬虫

在进行爬虫操作时，如果不确定一个网站是否易于爬取，可以先尝试输入该网站的首页地址，查看能否成功解析出HTML网页。如果解析出来的页面与实际浏览的页面一致，那么说明该网站可能没有设置反爬虫机制；反之，如果解析出来的页面与实际不同，那么该网站很可能设置了反爬虫措施。在学习阶段，建议选择较为容易爬取的网站进行练习，避免过早挑战难度过大的网站。

好的，废话不多说，我们现在就开始抓取该网站上的所有城市信息。

城市列表

天气信息肯定与城市相关，因此几乎每个天气网站都会有城市列表。让我们先来抓取这些城市列表并保存起来，以备后续使用。以下是相应的代码：

# 导入urllib库的urlopen函数
from urllib.request import urlopen,Request
# 导入BeautifulSoup
from bs4 import BeautifulSoup as bf

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}
req = Request("https://www.tianqi.com/chinacity.html",headers=headers)
# 发出请求，获取html
# 获取的html内容是字节，将其转化为字符串
html = urlopen(req)
html_text = bytes.decode(html.read())
obj = bf(html_text,'html.parser')
# 使用find_all函数获取所有图片的信息
province_tags = obj.find_all('h2')
for province_tag in province_tags:
    province_name = province_tag.text.strip()
    cities = []
    print(province_name)
    next_sibling = province_tag.find_next_sibling()
    city_tags = next_sibling.find_all('a')
    for city_tag in city_tags:
        city_name = city_tag.text.strip()
        cities.append(city_name)
        print(city_name)

在上述操作中，主要的步骤是从城市地址页面中获取信息，对其进行解析以获取省份和城市之间的对应关系。目前仅仅进行了简单的打印输出。

城市天气

在获取城市信息之后，接下来的步骤是根据城市信息获取天气信息。在这里，我们仅考虑直辖市的天气情况，而省份的天气信息获取相比直辖市多了一步省份的跳转。我们暂时不进行省份天气信息的演示。现在，让我们一起来看一下代码：

# 导入urllib库的urlopen函数
from urllib.request import urlopen,Request
# 导入BeautifulSoup
from bs4 import BeautifulSoup as bf

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}
req = Request(f"https://www.tianqi.com/beijing/",headers=headers)
# 发出请求，获取html
# 获取的html内容是字节，将其转化为字符串
html = urlopen(req)
html_text = bytes.decode(html.read())
obj = bf(html_text,'html.parser')
city_tags = obj.find_all('div',class_='mainWeather')
for city_tag in city_tags:
    a_tags = city_tag.find_all('a', class_=lambd

最低0.47元/天解锁文章

Python_魔力猿

关注

23
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
爬虫实战：从外地天气到美食推荐，探索干饭人的世界

在今天的学习中，所涉及的知识点基本延续了上一次的内容，并没有太多新的拓展。主要是对网页进行解析，提取信息并保存，最后根据这些信息来动态改变链接地址，最终完成了一个简单的与用户交互的演示项目。我希望你也能跟着动手实践，尽管这个过程可能会有些痛苦，不过虽然并没有给你的技术水平带来实质性提升，但至少可以拓展你的技术广度。
复制链接

扫一扫