python爬虫之urllib库的使用

最新推荐文章于 2024-04-01 15:58:27 发布

随着风儿去流浪

最新推荐文章于 2024-04-01 15:58:27 发布

阅读量147

点赞数 1

分类专栏： python爬虫文章标签： python cookie session

本文链接：https://blog.csdn.net/weixin_45915507/article/details/114645650

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. `urllib`库的使用

1.1 `urllib`相关方法

urlopen(默认为get请求方式，data中添加了数据后为post请求方式)

from urllib import request
resp = request.urlopen('http://www.baidu.com')
print(resp)

urlretrieve(下载网页文件，一行代码，极其方便)

from urllib import request
# 第一个参数为网址，第二个参数为文件保存路径
# 如下面把网址下载存储到路径中为baidu.html
request.urlretrieve('http://www.baidu.com','baidu.html')

urlencode函数

当请求网页时网页参数用到中文时，直接请求会出现中文无法编译为ascii码，因此需要用urlencode进行编码

from urllib import request
from urllib import parse
url = 'http://www.baidu.com/s'
params = {"wd":"刘德华"}
qs = parse.urlencode(params)
url = url +"?"+qs
resp = request.urlopen(url)
print(resp.read())

parse_qs函数

可以将经过编码后的参数进行解码。示例代码如下：

from urllib import parse
qs = 'name=%E5%88%98%E5%BE%B7%E5%8D%8E'
print(parse.parse_qs(qs))

urlparse和urlsplit函数用法

如果拿到一个url需要进行分割，那么就需要使用urlparse和urlsplit函数,他们基本一样，唯一不一样的是urlparse多了一个params属性，而urlsplit没有这个params属性

from urllib import parse

url = 'http://www.baidu.com/s?wd=python&username=abc'
result = parse.urlparse(url)
result2 = parse.urlsplit(url)
print('urlpath:',result)
print('urlsplit:',result2)
print('scheme:', result.scheme)
print('netloc:', result.netloc)
print('path:', result.path)
print('params:', result.params)
print('query:', result.query)

[output]:
urlpath: ParseResult(scheme='http', netloc='www.baidu.com', path='/s', params='', query='wd=python&username=abc', fragment='')
urlsplit: SplitResult(scheme='http', netloc='www.baidu.com', path='/s', query='wd=python&username=abc', fragment='')
scheme: http
netloc: www.baidu.com
path: /s
params: 
query: wd=python&username=abc

1.2 `request.Request`类

如果想要在请求的时候增加一些请求头，那么就必须使用request.Request类来实现，比如增加一个User-Agent

示例code如下：

from urllib import request
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
req = requst.Request('http://www.baidu.com/', headers=headers)
resp = request.urlopen(req)
print(resp.read())

拉勾网招聘信息爬取

简述：拉勾网具有一定的反爬虫机制，如果识别出是非浏览器的情况下的，将会给予一个错误的信息，因此需要在headers和data中伪装携带和浏览器访问时一样的数据，代码如下：

from urllib import request, parse
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
    'cookie': 'JSESSIONID=ABAAAECABIEACCAABAE8817BDF769A71E4A864994F95DD9ID=6a8d6a7eddac4d3a920406ed92f6088e'
}
data = {
    'first': 'true',
    'pn': 1,
    'kd': 'python'}
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

req = request.Request(url, headers=headers, data=parse.urlencode(data).encode('utf-8'), method='POST')
resp = request.urlopen(req)
print(resp.read().decode('utf-8'))

1.3 代理`ip`

from urllib import request

# 没有使用代理的
# url = 'http://httpbin.org/ip'
# resp =request.urlopen(url)
# print(resp.read().decode('utf-8'))
"""[output]:{
  "origin": "112.2.254.52"
}
"""
# 使用代理服务器
url = 'http://httpbin.org/ip'
# 1.使用ProxyHandler, 传入代理构建一个handler
handler = request.ProxyHandler({"http":"223.241.78.43:8010"})
# 2. 使用上面创建的handler创建一个opener
opener = request.build_opener(handler)
# 3. 使用opener去发送一个请求
resp = opener.open(url)
print(resp.read().decode('utf-8'))

1.4 `cookie`

http.cookiejar模块主要的类有CookieJar、FileCookieJar和LWPCookieJar.

CookieJar: 管理http cookie值，存储HTTP请求生成的cookie，向传出的HTTP请求添加cookie对象，整个cookie信息存储到内存里，对CookieJar进行垃圾回收后cookie也将丢失。
FileCookieJar(filename, delayload=None, police=None):从CookieJar派生而来，用来创建FileCookieJar实例，检索cookie信息并将cookie存储到文件中，filename为存储到的文件名，delayload为True时，子好吃延迟访问访问文件，即只有在需要时才能读取文件或在文件中存储数据。
MozillaCookieJar (filename, delayload=None,police=None); 从FileCookieJar派生而来，创建与Mozilla浏览器cookie.txt兼容的FileCookieJar实例。
LWPCookieJar(filename, delayload=None, police=None); 从FileCookieJar派生而来，创建与libwww-per标准的Set-Cookies3文件格式兼容的FileCookieJar实例。

使用http.cookiejar和request.HTTPCookieProcessor登录人人网。相关示例code如下：

from urllib import request
from urllib import parse
from http.cookiejar import CookieJar
# 1. 登录
# 1.1 创建一个cookiejar对象
cookiejar = CookieJar()
# 1.2 使用cookiejar创建一个HTTPCookieProcess对象
handler = request.HTTPCookieProcessor(cookiejar)
# 1.3 使用handler创建一个opener
opener = request.build_opener(handler)
# 1.4 使用opener发送登录的请求
header = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
data = {'email': 'tmwu2018@163.com',
        'password': '************'}
login_url = 'http://www.renren.com/PLogin.do'
req = request.Request(login_url,
                      data=parse.urlencode(data).encode('utf-8',),
                      headers=header)
opener.open(req)

# 2.访问个人主页
dapeng_url = 'http://www.renren.com/880151247/profile'
# 获取个人主页的页面的时候，不要新建一个opener
# 而应该使用之前那个opener，因为之前那个opener已经包括了登录所需要的cookie信息
req1 = request.Request(dapeng_url, headers=header)
resp = opener.open(req1)

with open('renren.html', 'w',encoding='utf-8') as f:
    f.write(resp.read().decode('utf-8'))

代码重构：

from urllib import request
from urllib import parse
from http.cookiejar import CookieJar

header = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
data = {'email': 'tmwu2018@163.com',
        'password': '************'}
def create_opener():
    cookiejar = CookieJar()
    handler = request.HTTPCookieProcessor(cookiejar)
    opener = request.build_opener(handler)
    login_url = 'http://www.renren.com/PLogin.do'
    req = request.Request(login_url,
                          data=parse.urlencode(data).encode('utf-8',),
                          headers=header)
    return opener.open(req)
    
def login_renren(opener):
    # 2.访问个人主页
    dapeng_url = 'http://www.renren.com/880151247/profile'
    # 获取个人主页的页面的时候，不要新建一个opener
    # 而应该使用之前那个opener，因为之前那个opener已经包括了登录所需要的cookie信息
    req1 = request.Request(dapeng_url, headers=header)
    resp = opener.open(req1)
    return resp
def save_html():
    with open('renren.html', 'w',encoding='utf-8') as f:
        f.write(resp.read().decode('utf-8'))
        
if __name__ == "__main__":
    opener = create_opener()
    resp = login_renren(opener)
    save_html(resp)

`cookie`信息的保存与使用

将cookie保存到本地：

from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar('baidu_cookie.txt')
url = 'http://www.baidu.com/'
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
opener.open(url)
cookiejar.save()

对过期的cookie也进行保存

from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar('baidu_cookie.txt')
# cookiejar.load(ignore_discard=True)
url = 'http://httpbin.org/cookies/set?person=py'
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
opener.open(url)
cookiejar.save(ignore_discard=True)
for cookie in cookiejar:
    print(cookie)

随着风儿去流浪

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之urllib库的使用

1. urllib库的使用1.1 urllib相关方法urlopen(默认为get请求方式，data中添加了数据后为post请求方式)from urllib import requestresp = request.urlopen('http://www.baidu.com')print(resp)urlretrieve(下载网页文件，一行代码，极其方便)from urllib import request# 第一个参数为网址，第二个参数为文件保存路径# 如下面把网址下载存储到路
复制链接

扫一扫