实现目标:爬取某地历史天气情况(以深圳2019年为例)
需要的库:requests,bs4,pandas
PS:requests 和 bs4 库很小,大概150K左右
第一步:
找目标url;
第二步:获取网页源代码
url = 'http://www.tianqihoubao.com/lishi/shenzhen/month/201901.html'
req = requests.get(url)
html = req.text
第三步:数据提取,提取自己需要的内容
soup = BeautifulSoup(html,'html.parser')
tr_list = soup.find_all('tr')
datas,condition,temp = [], [], []
for data in tr_list[1:]:
sub_data = data.text.split()
a = sub_data[0].replace('年','/')#将年月日用'/'代替,此处可省略,看个人需求
b = a.replace('月','/')
c = b.replace('日', '')
datas.append(c)
condition.append(''.join(sub_data[1: