本节主要内容有:
- 通过requests库模拟表单提交
- 通过pandas库提取网页表格
上周五,大师兄发给我一个网址,哭哭啼啼地求我:“去!把这个网页上所有年所有县所有作物的数据全爬下来,存到Access里!”
私信小编001即可获取大量Python学习资料!
我看他可怜,勉为其难地挥挥手说:“好嘞,马上就开始!”
目标分析
大师兄给我的网址是这个:https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg
打开长这样:
根据我学爬虫并不久的经验,通常只要把年月日之类的参数附加到url里面去,然后用requests.get拿到response解析html就完了,所以这次应该也差不多——除了要先想办法获得具体有哪些年份、地名、作物名称,其他部分拿以前的代码稍微改改就能用了,毫无挑战性工作,生活真是太无聊了
点击 View Summary 后出现目标网页长这样
那个大表格的数据就是目标数据了,好像没什么了不起的——
有点不对劲
目标数据所在网页的网址是这样的:https://www.ctic.org/crm/?action=result ,刚刚选择的那些参数并没有作为url的参数啊!网址网页都变了,所以也不是ajax
这和我想象的情况有巨大差别啊
尝试获取目标页面
让我来康康点击View Summary这个按钮时到底发生了啥:右键View Summary检查是这样:
实话说,这是我第一次遇到要提交表单的活儿。以前可能是上天眷顾我,统统get就能搞定,今天终于让我碰上一个post了。
点击View Summary,到DevTools里找network第一条:
不管三七二十一,post一下试试看
import requests url = 'https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/74.0.3729.131 Safari/537.36',
'Host': 'www.ctic.org'}data = {'_csrf': 'SjFKLWxVVkkaSRBYQWYYCA1TMG8iYR8ReUYcSj04Jh4EBzIdBGwmLw==',
'CRMSearchForm[year]': '2011',
'CRMSearchForm[format]': 'Acres',
'CRMSearchForm[area]': 'County',
'CRMSearchForm[region]': 'Midwest',
'CRMSearchForm[state]': 'IL',
'CRMSearchForm[county]': 'Adams',
'CRMSearchForm[crop_type]': 'All',
'summary': 'county'}response = requests.post(url, data=data, headers=headers)print(resp