python爬虫

今天要来电代码吗

于 2021-03-06 16:21:35 发布

阅读量323

点赞数 1

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/wzy1414/article/details/114440464

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Requests库的7种方法

方法	说明
requests.request()	构造一个请求，支持以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头部信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
request.put()	向HTNL网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改的请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

import requests
r = requests.get("http://www.baidu.com")
r.status_code //如果是200，则访问成功；否则访问失败

Response对象的属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败（其实只要不是200都是失败）
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式(备选编码方式)
r.content	HTTP响应内容的二进制形式

理解Requests库的异常

异常	说明
requests.ConnectionError	网络来凝结错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超出最大重定向次数，产生重定向异常
requests.ConnectionTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
raise_for_status()	如果不是200，则产生requests.HTTPError异常

网络连接有风险，异常处理很重要，所以写爬虫框架时一定要用try和except来处理

import requests
try:
	r = requests.get(url,timeout = 30)
	r.raise_for_status()
	r.encoding = r.apparent_encoding
	return r.text
except:
	return "发生异常"

这里给出的是爬取一个网站100百次的时间作为参考

import requests
import time

def MySpider(url):
	#必须用try和except来写框架，保证安全性
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "发生异常"

if __name__ == '__main__':
    url = "http://www.baidu.com"  #这里爬取的是百度网页，也可以爬取别的网页，自行填写
    totaltime = 0
    for i in range(100):
        starttime = time.perf_counter()
        MySpider(url)
        endtime = time.perf_counter()
        print("第{0}次爬取，用时{1:.4f}秒".format(i + 1,endtime - starttime))
        totaltime = totaltime + endtime - starttime
    print("总共用时{:.4f}秒".format(totaltime))