前言
笔者是一个写 java 的苦逼程序猿,因为室友妹子的工作需求,帮她爬取大众点评的商户信息,顺便也试试使用 python 爬虫和使用 java 爬虫有什么不同。
爬取过程
爬取城市信息
这一步最简单, 因为大众点评的城市信息写在静态页上的, 只需要进入大众点评的官网上, 点击左上角的城市,就可以看到这个页面:
打开网页调试器就可以看到每个城市的 url 地址, 爬取下来即可, 最后获得每个城市的 url 地址,为接下来爬取商户信息做准备
爬取商户地址
这里我只爬取学习培训下的商户信息, 所以直接城市的 url 地址加上 /ch75/p1 就可以直接进入到商户的列表,以成都为例 http://www.dianping.com/chengdu/ch75/p1 可以直接进入到成都的学习培训的商户列表,打开网页调试器, 爬取到每页的商户的 url 地址信息即可,得到每个商户的 url 地址
第二