从网站上爬取疫情数据的方法
爬取疫情数据的网站是:link.
这是实现爬虫的主要方法:
// 国内各省疫情情况
import requests
import re
from util.commonFunc import WriteToDb
def parse_url(page_url):
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
try:
r=requests.get(page_url,headers=headers,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
html = r.text
except:
print('访问失败')
html=re.sub(r'provinceShortName','cityName',html) #获取省或城市的信息,为避免遗漏省份,可以先将"provinceShortName"替换"cityName"再分析
html=re.search('{ window.getAreaStat =