副标题:数据抓取与质量校验——以杭州市公交线路为例
参考文章:Python爬取公交站点和线路数据(上下行双向) - 知乎 (zhihu.com)
之前也讲过数据抓取类型的文章很讲究时效性,该篇文章发于2020年,因为高德api策略的更新和网站抓取数据的机制变化等原因,如今脚本已经不能直接使用,我们这篇是对脚本原理的解释和流程的优化,本篇文章讲二个重点:1、解释清楚逻辑并略作优化让脚本可以重新跑起来了;2、讲一下数据质量,本文以杭州市公交线路为例,那么杭州市到底有多少条公交线路呢?
先讲一下方法思路,一共三个步骤;
方法思路
- 获取公交信息网站——8684网站
- 获取经纬度——通过调用高德地图API
- 坐标转换——高德坐标系(