requests库的使用
python应用的一个典型的实例就是网络爬虫。那么什么是网络爬虫呢?网络爬虫就是向网络自动获取数据,自动向网络发送数据的一种程序。
网络爬虫一般分为两个步骤:
1.通过网络连接获取网页内容
2.对获得的网页内容进行处理
最主流的两个用于实现爬虫的库为requests库和beautifulsoup4库。我们可以通过pycharm进行下载。
这一次我们先来聊聊requests库:
requests库是用于处理HTTP请求的第三方库。包括国际域名和URL获取、HTTP长连接和连接缓存、HTTP会话等等。
(此处省略一些专业术语,想了解的朋友们可以访问下面这个网址了解更多。)
http://docs.python-requests.org
网页请求函数
①get(url[,timeout=n]):
对应于HTTP的GET方式,用于获取网页。timeout参数可选,用于设定每次请求超时时间为n秒
②post(url,data={‘key’:‘value’}):
对应于HTTP的POST方式,字典变量用于传递客户端数据
③delete(url)
对应于HTTP的DELETE方式
④head(url)
对应于HTTP的HEAD方式
⑤options(url)
对应于HTTP的OPTIONS方式
⑥put(url,data={‘key’:‘value’})
对应于HTTP的PUT方式,字典变量用于传递客户端数据
用于获取一个网页最常用的方法是get方法,使用get函数后,会返回一个Res