下面以百度首页为例,介绍python自带的request库
urllib库中几个函数
from urllib import request
from urllib import parse
resp= request.urlopen("http://www.baidu.com")
**#urlopen抓取网站上所有源代码 ''按住ctrl+b 与鼠标点击可迅速得到函数原型,返回文件句柄对象**
request.urlretrieve('https://baidu.com','D:\\Gest\\crawler\\bd.html')
#urlretrieve方法将网页文件 下载到本地存储
print(resp.readline())
#打印出来,redline(),readlines(),读取多行
urlencode在parse中
url转换(作用)
params=('name':'as',"age":18)
result=parse.urlencode(params)
url中不能有中文字符,所以把中文部分用字典暂存,在拼接
url1="https://www.baidu.com/s"
params2={"wd":"猫"}
qs=parse.urlencode(params2)
url1=url1+ '?'+qs#拼接
#qs保存编码后的结果
parse_qs函数解码
获取状态码
data=request.urlopen(url1)
print(data.read())
print(resp.getcode())