urllib库
urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。
urllib是Python自带的标准库,无需安装,直接可以用。
- urlopen函数:
在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlopen函数基本的使用:
from urllib import request
resp = request.urlopen('http://www.baidu.com')
print(resp.read())
- urlretrieve函数:
这个函数可以方便的将网页上的一个文件保存到本地。以下代码可以非常方便的将百度的首页下载到本地:
from urllib import request
#request.urlretrieve('http://www.baidu.com/','baidu.html')
request.urlretrieve('http://img.tuguaishou.com/ips_templ_preview/63/ef/6a/lg_3681877_1609827288_5ff403d82ffb4.jpg!l800?auth_key=2242915200-0-0-09189a907b1072c3149b54b7f25a8207','cow.jpg')
- urlencode函数:
urlencode可以把字典数据转换为URL编码的数据。
示例代码如下:
rom urllib import parse
data = {'name':'爬虫基础','greet':'hello world','age':100}
qs = parse.urlencode(data)
print(qs)
- parse_qs函数:
可以将经过编码后的url参数进行解码。
from urllib import parse
from urllib import request
data = {'name':'爬虫基础','greet':'hello world','age':100}
qs = parse.urlencode(data)
#print(qs)