python是简单易上手的一门语言,可以快速实现简单的爬虫。
我们使用python作为工具
确定目标网站
我从网上找到一个每天更新,并且存有中国所有省市当天和全部新冠病毒感染人数信息的网站。
链接: https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5
打开网站,可以看到里面的内容(如上图所示)
这就是我们接下来将要爬取的数据源。
数据获取
你会发现网站里的内容是以json格式储存的纯数据,因此我们只需要使用requests库的get方法,就可以获取网站的数据
- 导入requests库
import requests
- 确定将要爬取的网站
url = ‘https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5’
- 使用requests库的get方法,获取网页内容
r = requests.get(url)
- 查看爬取的数据
#网站的所有信息都储存在r里面,网页上的数据可以用r.text查看
print