pyhton爬虫urllib常用库函数

下面以百度首页为例,介绍python自带的request库
urllib库中几个函数


from urllib import request
from urllib import parse
resp= request.urlopen("http://www.baidu.com")
**#urlopen抓取网站上所有源代码 ''按住ctrl+b 与鼠标点击可迅速得到函数原型,返回文件句柄对象**
request.urlretrieve('https://baidu.com','D:\\Gest\\crawler\\bd.html')
#urlretrieve方法将网页文件 下载到本地存储

print(resp.readline())
#打印出来,redline(),readlines(),读取多行

urlencode在parse中
url转换(作用)

params=('name':'as',"age":18)
result=parse.urlencode(params)

url中不能有中文字符,所以把中文部分用字典暂存,在拼接

url1="https://www.baidu.com/s"
params2={"wd":"猫"}
qs=parse.urlencode(params2)
url1=url1+ '?'+qs#拼接
#qs保存编码后的结果

parse_qs函数解码

获取状态码

data=request.urlopen(url1)
print(data.read())
print(resp.getcode())
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值