大众点评数据获取 — 基础版本
大众点评是一款非常受普罗大众喜爱的一个第三方的美食相关的点评网站。
因此,该网站的数据也就非常有价值。优惠,评价数量,好评度等数据也就非常受数据公司的欢迎。
今天就写了一个简单的大众点评列表页数据抓取demo。
希望对看到这篇文章的朋友有所帮助。
- 环境和工具包:
- python 3.6
- 自建的IP池(代理)(使用的是ipidea的国内代理)
- parsel(页面解析)
- loguru(报错提示)
下面就让我看开启探索之旅
第一步,页面解析
从图中可以看到,对应的数字都是方框。那具体是什么呢?
下图是我简单处理后,控制台输出的内容。以及直接在html中右键查看网页源码
由此可以看到下面连个内容
{
'名称': 'Maison Lameloise 莱美露滋(上海中心店)', '评分': '4.90', '评价数': '11\ueeb5\ue753', '人均花费': '¥\uf802\uf0b6\ue753\ue867', '推荐': ['鸭肝棒棒糖', '前菜', '餐后甜品']}
<b>11<svgmtsi class="shopNum"></svgmtsi><svgmtsi class="shopNum"></svgmtsi></b>
<b>¥<svgmtsi class="shopNum"></svgmtsi><svgmtsi class="shopNum"></svgmtsi><svgmtsi class="shopNum"></svgmtsi><svgmtsi class="shopNum"></svgmtsi></b>
也就是说,评价数据和人均消费价格数据,都应经被隐藏了。
这种方式焦作svg映射。
那么该怎么搞定这些数据呢。
首先我们需要找到网页打开后,他们所引用的woff字体文件。
在F12中,选中Network,然后再次选中第三行菜单栏中的Font。现在,在杂论