1. urllib
库的使用
1.1 urllib
相关方法
urlopen
(默认为get请求方式,data中添加了数据后为post请求方式)
from urllib import request
resp = request.urlopen('http://www.baidu.com')
print(resp)
urlretrieve
(下载网页文件,一行代码,极其方便)
from urllib import request
# 第一个参数为网址,第二个参数为文件保存路径
# 如下面把网址下载存储到路径中为baidu.html
request.urlretrieve('http://www.baidu.com','baidu.html')
-
urlencode
函数当请求网页时网页参数用到中文时,直接请求会出现中文无法编译为ascii码,因此需要用
urlencode
进行编码
from urllib import request
from urllib import parse
url = 'http://www.baidu.com/s'
params = {"wd":"刘德华"}
qs = parse.urlencode(params)
url = url +"?"+qs
resp = request.urlopen(url)
print(resp.read())
-
parse_qs
函数可以将经过编码后的参数进行解码。示例代码如下:
from urllib import parse
qs = 'name=%E5%88%98%E5%BE%B7%E5%8D%8E'
print(parse.parse_qs(qs))
-
urlparse
和urlsplit
函数用法如果拿到一个
url
需要进行分割,那么就需要使用urlparse
和urlsplit
函数,他们基本一样,唯一不一样的是urlparse
多了一个params
属性,而urlsplit
没有这个params
属性
from urllib import parse
url = 'http://www.baidu.com/s?wd=python&username=abc'
result = parse.urlparse(url)
result2 = parse.urlsplit(url)
print('urlpath:',result)
print('urlsplit:',result2)
print('scheme:', result.scheme)
print('netloc:', result.netloc)
print('path:', result.path)
print('params:', result.params)
print('query:', result.query)
[output]:
urlpath: ParseResult(scheme='http', netloc='www.baidu.com', path='/s', params='', query='wd=python&username=abc', fragment='')
urlsplit: SplitResult(scheme='http', netloc='www.baidu.com', path='/s', query='wd=python&username=abc', fragment='')
scheme: http
netloc: www.baidu.com
path: /s
params:
query: wd=python&username=abc
1.2 request.Request
类
如果想要在请求的时候增加一些请求头,那么就必须使用request.Request
类来实现,比如增加一个User-Agent
示例code如下:
from urllib import request
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
req = requst.Request('http://www.baidu.com/', headers=headers)
resp = request.urlopen(req)
print(resp.read())
拉勾网招聘信息爬取
简述:拉勾网具有一定的反爬虫机制,如果识别出是非浏览器的情况下的,将会给予一个错误的信息,因此需要在headers和data中伪装携带和浏览器访问时一样的数据,代码如下:
from urllib import request, parse
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
'referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
'cookie': 'JSESSIONID=ABAAAECABIEACCAABAE8817BDF769A71E4A864994F95DD9ID=6a8d6a7eddac4d3a920406ed92f6088e'
}
data = {
'first': 'true',
'pn': 1,
'kd': 'python'}
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
req = request.Request(url, headers=headers, data=parse.urlencode(data).encode('utf-8'), method='POST')
resp = request.urlopen(req)
print(resp.read().decode('utf-8'))
1.3 代理ip
from urllib import request
# 没有使用代理的
# url = 'http://httpbin.org/ip'
# resp =request.urlopen(url)
# print(resp.read().decode('utf-8'))
"""[output]:{
"origin": "112.2.254.52"
}
"""
# 使用代理服务器
url = 'http://httpbin.org/ip'
# 1.使用ProxyHandler, 传入代理构建一个handler
handler = request.ProxyHandler({"http":"223.241.78.43:8010"})
# 2. 使用上面创建的handler创建一个opener
opener = request.build_opener(handler)
# 3. 使用opener去发送一个请求
resp = opener.open(url)
print(resp.read().decode('utf-8'))
1.4 cookie
http.cookiejar模块主要的类有CookieJar、FileCookieJar和LWPCookieJar.
- CookieJar: 管理http cookie值,存储HTTP请求生成的cookie,向传出的HTTP请求添加cookie对象,整个cookie信息存储到内存里,对CookieJar进行垃圾回收后cookie也将丢失。
- FileCookieJar(filename, delayload=None, police=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中,filename为存储到的文件名,delayload为True时,子好吃延迟访问访问文件,即只有在需要时才能读取文件或在文件中存储数据。
- MozillaCookieJar (filename, delayload=None,police=None); 从FileCookieJar派生而来,创建与Mozilla浏览器cookie.txt兼容的FileCookieJar实例。
- LWPCookieJar(filename, delayload=None, police=None); 从FileCookieJar派生而来,创建与libwww-per标准的Set-Cookies3文件格式兼容的FileCookieJar实例。
使用http.cookiejar和request.HTTPCookieProcessor登录人人网。相关示例code如下:
from urllib import request
from urllib import parse
from http.cookiejar import CookieJar
# 1. 登录
# 1.1 创建一个cookiejar对象
cookiejar = CookieJar()
# 1.2 使用cookiejar创建一个HTTPCookieProcess对象
handler = request.HTTPCookieProcessor(cookiejar)
# 1.3 使用handler创建一个opener
opener = request.build_opener(handler)
# 1.4 使用opener发送登录的请求
header = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
data = {'email': 'tmwu2018@163.com',
'password': '************'}
login_url = 'http://www.renren.com/PLogin.do'
req = request.Request(login_url,
data=parse.urlencode(data).encode('utf-8',),
headers=header)
opener.open(req)
# 2.访问个人主页
dapeng_url = 'http://www.renren.com/880151247/profile'
# 获取个人主页的页面的时候,不要新建一个opener
# 而应该使用之前那个opener,因为之前那个opener已经包括了登录所需要的cookie信息
req1 = request.Request(dapeng_url, headers=header)
resp = opener.open(req1)
with open('renren.html', 'w',encoding='utf-8') as f:
f.write(resp.read().decode('utf-8'))
代码重构:
from urllib import request
from urllib import parse
from http.cookiejar import CookieJar
header = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
data = {'email': 'tmwu2018@163.com',
'password': '************'}
def create_opener():
cookiejar = CookieJar()
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
login_url = 'http://www.renren.com/PLogin.do'
req = request.Request(login_url,
data=parse.urlencode(data).encode('utf-8',),
headers=header)
return opener.open(req)
def login_renren(opener):
# 2.访问个人主页
dapeng_url = 'http://www.renren.com/880151247/profile'
# 获取个人主页的页面的时候,不要新建一个opener
# 而应该使用之前那个opener,因为之前那个opener已经包括了登录所需要的cookie信息
req1 = request.Request(dapeng_url, headers=header)
resp = opener.open(req1)
return resp
def save_html():
with open('renren.html', 'w',encoding='utf-8') as f:
f.write(resp.read().decode('utf-8'))
if __name__ == "__main__":
opener = create_opener()
resp = login_renren(opener)
save_html(resp)
cookie
信息的保存与使用
将cookie保存到本地:
from urllib import request
from http.cookiejar import MozillaCookieJar
cookiejar = MozillaCookieJar('baidu_cookie.txt')
url = 'http://www.baidu.com/'
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
opener.open(url)
cookiejar.save()
对过期的cookie也进行保存
from urllib import request
from http.cookiejar import MozillaCookieJar
cookiejar = MozillaCookieJar('baidu_cookie.txt')
# cookiejar.load(ignore_discard=True)
url = 'http://httpbin.org/cookies/set?person=py'
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
opener.open(url)
cookiejar.save(ignore_discard=True)
for cookie in cookiejar:
print(cookie)