urllib简介
用于处理一系列url的操作
- urllib.request:用于爬取页面内容
- urllib.parse:用于解析url
跟着顺序做即可
- 分析链接 http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50
关键词 kw
防止乱码 ie
pn 表示每页几行数据 - 导入我们使用到的包
import urllib.parse as up
import urllib.request as ur
- 根据刚刚的链接分析,定义字典存储需要使用到的参数
data = {
'kw':'python‘,
'ie':'utf-8',
'pm':'200' #第四页
}
-
如果参数带有空格和特殊字符时使用.
当字符串数据以url的形式传递给web服务器时,字符串中是不允许出现空格和特殊字符的,所以我们需要对参数 进行解码
将特殊字符转换为*%E5%B0%B1%E4%B8%9A%E5%89%8D%E6%99%AF*这样的形式
data_url=up.urlencode(data) #解码
data = up.unquote(data_url) #编码
-
请求链接
#data_url为刚编码后的数据
request = ur.Request('https://www.baidu.com/s?' + data_url)
- 获取页面
response = ur.urlopen(request).read()
- 将页面存至本地
with open('%s.html' % kw, 'wb') as f:
f.write(response)