Python爬虫 | 以滑雪为例演示大众点评商铺信息采集！

最新推荐文章于 2024-05-18 22:15:37 发布

爬遍天下无敌手

最新推荐文章于 2024-05-18 22:15:37 发布

阅读量1.1k

点赞数 1

分类专栏： Python 文章标签： python 正则表达式 java 数据挖掘编程语言

本文链接：https://blog.csdn.net/weixin_43881394/article/details/112366054

版权

本文以滑雪为例，详细介绍了如何使用Python爬虫采集大众点评的商铺信息，包括字体反爬处理、单页店铺信息解析和全部页数据获取。首先，通过获取字体文件并创建字体与实际字符的映射关系，解决了字体反爬问题。接着，利用正则表达式解析HTML获取商铺的ID、名称、星级、地址、评价数和人均消费。最后，通过获取总页数并循环爬取，收集全部商铺信息。

摘要由CSDN通过智能技术生成

1.简述
2.字体反爬处理
2.1.获取字体文件链接
2.2.创建三类字体与实际字符映射关系
3.单页店铺信息解析
4.全部页数据获取
4.1.获取数据页数
4.2.采集全部数据
5.总结

冬天是一个适合滑雪的季节，但是滑雪需谨慎，比如初学者就不要上高级道，能不能滑心里要有点哔数。

那么今天，咱们就以滑雪为关键字，演示一下如何用Python爬虫采集大众点评的商铺信息吧。

在搜索结果以翻页的形式通过 request.get() 即可获取页面数据，然后再对网页数据进行相关解析即可获得我们需要的商铺信息。

不过在爬虫过程中，我们会发现比如商铺评价数、人均消费以及商铺的地址等信息在网页上显示为 □ ，在get的数据中是类似 &#xf622 ，咋一看不知道是什么。这里其实是一种字体反爬，接下来我们就将其个个击破吧。

以下是我们需要采集的数据字段：

字段	说明	获取方式	字体

2.字体反爬处理

打开大众点评，搜索滑雪，我们在搜索结果页面按F12进入到开发者模式，选到评价数可以看到其 class 为 shopNum且内容为□ ，在右侧styles中可见其字体font-family为PingFangSC-Regular-shopNum 。其实，点击右侧.css链接可以找到其字体文件链接。考虑到其他涉及到字体反爬的字段信息对应的字体文件链接可能有差异，我们采集另外一种方式进行一次性获取（具体请看下一段）。

2.1.获取字体文件链接

我们在网页的head 部分，可以找到图文混排css ，其对应的css地址就包含了后续会用到的全部字体文件链接，直接用requess.get()请求改地址即可返回全部字体名称及其字体文件下载链接。

- 定义获取网页数据的函数方法get_html()

# 获取网页数据 def get_html(url, headers): try: rep = requests.get(url ,headers=headers) except Exception as e : print(e) text = rep.text html = re.sub('\s', '', text) #去掉非字符数据 return html

- 获取网页数据

import re import requests # Cookie部分，直接复制浏览器里的即可 headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36", "Cookie":"你的浏览器Cookie", } # 搜索关键字 key = '滑雪' # 基础url url = f'https://www.dianping.com/search/keyword/2/0_{key}' # 获取网页数据 html = get_html(url, headers)

- 获取字体文件链接

# 正则表达式获取head里图文混排css中的字体文件链接 text_css = re.fin

最低0.47元/天解锁文章

爬遍天下无敌手

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫 | 以滑雪为例演示大众点评商铺信息采集！

1.简述 2.字体反爬处理 2.1.获取字体文件链接 2.2.创建三类字体与实际字符映射关系 3.单页店铺信息解析 4.全部页数据获取 4.1.获取数据页数 4.2.采集全部数据 5.总结冬天是一个适合滑雪的季节，但是滑雪需谨慎，比如初学者就不要上高级道，能不能滑心里要有点哔数。那么今天，咱们就以滑雪为关键字，演示一下如何用Python爬虫采集大众点评的商铺信息吧。在搜索结果以翻页的形式通过 request..
复制链接

扫一扫

专栏目录