爬虫很多时候除了能够做成项目在服务器上跑以外,还可以做成接口的形式够其他语言调用,即爬虫可以实时的镶嵌到app,web或者其他场景下,当有客户调用时就会启动,无人调用时,就静静的待着。下面说一下利用python中的flask框架来写一个简单的爬虫来供其他语言调用。初级入门很简单的web框架和爬虫之间的结合应用。如果有其他的应用需求,请自行研究。
首先,导包不解释了,自行安装flask就可以了。
然后实例化一个flask对象:
然后写我们的爬虫方法,这里我们以 http://qq.ip138.com/idsearch/index.asp?为例,一个输入身份证便可以查询归属地的网址。
首先我们需要分析这个网页构造,来确定我们的爬虫该怎么写。
我们查看网页源代码,发现我们想要的归属地的信息就在源码中,所以我们利用正则就很方便的取出归属地。