python爬虫之urllib库的使用

1. urllib库的使用

1.1 urllib相关方法
  • urlopen(默认为get请求方式,data中添加了数据后为post请求方式)
from urllib import request
resp = request.urlopen('http://www.baidu.com')
print(resp)
  • urlretrieve(下载网页文件,一行代码,极其方便)
from urllib import request
# 第一个参数为网址,第二个参数为文件保存路径
# 如下面把网址下载存储到路径中为baidu.html
request.urlretrieve('http://www.baidu.com','baidu.html') 
  • urlencode函数

    当请求网页时网页参数用到中文时,直接请求会出现中文无法编译为ascii码,因此需要用urlencode进行编码

from urllib import request
from urllib import parse
url = 'http://www.baidu.com/s'
params = {"wd":"刘德华"}
qs = parse.urlencode(params)
url = url +"?"+qs
resp = request.urlopen(url)
print(resp.read())
  • parse_qs函数

    可以将经过编码后的参数进行解码。示例代码如下:

from urllib import parse
qs = 'name=%E5%88%98%E5%BE%B7%E5%8D%8E'
print(parse.parse_qs(qs))
  • urlparseurlsplit函数用法

    如果拿到一个url需要进行分割,那么就需要使用urlparseurlsplit函数,他们基本一样,唯一不一样的是urlparse多了一个params属性,而urlsplit没有这个params属性

from urllib import parse

url = 'http://www.baidu.com/s?wd=python&username=abc'
result = parse.urlparse(url)
result2 = parse.urlsplit(url)
print('urlpath:',result)
print('urlsplit:',result2)
print('scheme:', result.scheme)
print('netloc:', result.netloc)
print('path:', result.path)
print('params:', result.params)
print('query:', result.query)
[output]:
urlpath: ParseResult(scheme='http', netloc='www.baidu.com', path='/s', params='', query='wd=python&username=abc', fragment='')
urlsplit: SplitResult(scheme='http', netloc='www.baidu.com', path='/s', query='wd=python&username=abc', fragment='')
scheme: http
netloc: www.baidu.com
path: /s
params: 
query: wd=python&username=abc
1.2 request.Request

如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现,比如增加一个User-Agent

示例code如下:

from urllib import request
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
req = requst.Request('http://www.baidu.com/', headers=headers)
resp = request.urlopen(req)
print(resp.read())
拉勾网招聘信息爬取

简述:拉勾网具有一定的反爬虫机制,如果识别出是非浏览器的情况下的,将会给予一个错误的信息,因此需要在headers和data中伪装携带和浏览器访问时一样的数据,代码如下:

from urllib import request, parse
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
    'cookie': 'JSESSIONID=ABAAAECABIEACCAABAE8817BDF769A71E4A864994F95DD9ID=6a8d6a7eddac4d3a920406ed92f6088e'
}
data = {
    'first': 'true',
    'pn': 1,
    'kd': 'python'}
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

req = request.Request(url, headers=headers, data=parse.urlencode(data).encode('utf-8'), method='POST')
resp = request.urlopen(req)
print(resp.read().decode('utf-8'))
1.3 代理ip
from urllib import request

# 没有使用代理的
# url = 'http://httpbin.org/ip'
# resp =request.urlopen(url)
# print(resp.read().decode('utf-8'))
"""[output]:{
  "origin": "112.2.254.52"
}
"""
# 使用代理服务器
url = 'http://httpbin.org/ip'
# 1.使用ProxyHandler, 传入代理构建一个handler
handler = request.ProxyHandler({"http":"223.241.78.43:8010"})
# 2. 使用上面创建的handler创建一个opener
opener = request.build_opener(handler)
# 3. 使用opener去发送一个请求
resp = opener.open(url)
print(resp.read().decode('utf-8'))

1.4 cookie

http.cookiejar模块主要的类有CookieJar、FileCookieJar和LWPCookieJar.

  • CookieJar: 管理http cookie值,存储HTTP请求生成的cookie,向传出的HTTP请求添加cookie对象,整个cookie信息存储到内存里,对CookieJar进行垃圾回收后cookie也将丢失。
  • FileCookieJar(filename, delayload=None, police=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中,filename为存储到的文件名,delayload为True时,子好吃延迟访问访问文件,即只有在需要时才能读取文件或在文件中存储数据。
  • MozillaCookieJar (filename, delayload=None,police=None); 从FileCookieJar派生而来,创建与Mozilla浏览器cookie.txt兼容的FileCookieJar实例。
  • LWPCookieJar(filename, delayload=None, police=None); 从FileCookieJar派生而来,创建与libwww-per标准的Set-Cookies3文件格式兼容的FileCookieJar实例。

使用http.cookiejar和request.HTTPCookieProcessor登录人人网。相关示例code如下:

from urllib import request
from urllib import parse
from http.cookiejar import CookieJar
# 1. 登录
# 1.1 创建一个cookiejar对象
cookiejar = CookieJar()
# 1.2 使用cookiejar创建一个HTTPCookieProcess对象
handler = request.HTTPCookieProcessor(cookiejar)
# 1.3 使用handler创建一个opener
opener = request.build_opener(handler)
# 1.4 使用opener发送登录的请求
header = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
data = {'email': 'tmwu2018@163.com',
        'password': '************'}
login_url = 'http://www.renren.com/PLogin.do'
req = request.Request(login_url,
                      data=parse.urlencode(data).encode('utf-8',),
                      headers=header)
opener.open(req)

# 2.访问个人主页
dapeng_url = 'http://www.renren.com/880151247/profile'
# 获取个人主页的页面的时候,不要新建一个opener
# 而应该使用之前那个opener,因为之前那个opener已经包括了登录所需要的cookie信息
req1 = request.Request(dapeng_url, headers=header)
resp = opener.open(req1)

with open('renren.html', 'w',encoding='utf-8') as f:
    f.write(resp.read().decode('utf-8'))

代码重构:

from urllib import request
from urllib import parse
from http.cookiejar import CookieJar

header = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
data = {'email': 'tmwu2018@163.com',
        'password': '************'}
def create_opener():
    cookiejar = CookieJar()
    handler = request.HTTPCookieProcessor(cookiejar)
    opener = request.build_opener(handler)
    login_url = 'http://www.renren.com/PLogin.do'
    req = request.Request(login_url,
                          data=parse.urlencode(data).encode('utf-8',),
                          headers=header)
    return opener.open(req)
    
def login_renren(opener):
    # 2.访问个人主页
    dapeng_url = 'http://www.renren.com/880151247/profile'
    # 获取个人主页的页面的时候,不要新建一个opener
    # 而应该使用之前那个opener,因为之前那个opener已经包括了登录所需要的cookie信息
    req1 = request.Request(dapeng_url, headers=header)
    resp = opener.open(req1)
    return resp
def save_html():
    with open('renren.html', 'w',encoding='utf-8') as f:
        f.write(resp.read().decode('utf-8'))
        
if __name__ == "__main__":
    opener = create_opener()
    resp = login_renren(opener)
    save_html(resp)
cookie信息的保存与使用

将cookie保存到本地:

from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar('baidu_cookie.txt')
url = 'http://www.baidu.com/'
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
opener.open(url)
cookiejar.save()

对过期的cookie也进行保存

from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar('baidu_cookie.txt')
# cookiejar.load(ignore_discard=True)
url = 'http://httpbin.org/cookies/set?person=py'
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
opener.open(url)
cookiejar.save(ignore_discard=True)
for cookie in cookiejar:
    print(cookie)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值