Python爬虫——Urllib

朂後哋箹萣

已于 2022-08-14 09:54:36 修改

阅读量1.3k

点赞数 2

分类专栏： python 文章标签： python 爬虫

于 2022-08-13 22:24:11 首次发布

本文链接：https://blog.csdn.net/z1171127310/article/details/126299982

版权

python 专栏收录该内容

10 篇文章 6 订阅

订阅专栏

一、urllib库使用

二、请求对象的定制

三、编解码

1.get请求方式：urllib.parse.quote（）

2.get请求方式：urllib.parse.urlencode（）

3.post请求方式（百度翻译）

四、ajax的get请求（豆瓣电影前十页数据）

五、ajax的post请求（KFC前三页数据）

一、urllib库使用

# 模拟浏览器向服务器发送请求

urllib . request . urlopen ()

        response 服务器返回的数据

        response的数据类型是 HttpResponse

        字节 ‐‐> 字符串

#解码decode

response.read.decode('utf-8')

        字符串 ‐‐> 字节

        编码encode

        read () 字节形式读取二进制扩展： rede ( 5 ) 返回前几个字节

        readline () 读取一行

        readlines () 一行一行读取直至结束

#获取状态码

response.getcode ()

# 获取 url

response.geturl ()

#获取 headers

response.getheaders ()

#下载

urllib . request . urlretrieve (url,'文件名')

        请求网页

        请求图片

        请求视频

import urllib.request

url = 'http://www.baidu.com'

response = urllib.request.urlopen(url)

content = response.read().decode('utf-8')

content = response.read(5)

content = response.readline()

content = response.readlines()

print(response.getcode())

print(response.geturl())

print(response.getheaders())

urllib.request.urlretrieve(url,"baidu.html")

url_img = 'https://img0.baidu.com/it/u=4012520431,1093551712&fm=253&fmt=auto&app=138&f=JPEG?w=333&h=500'
urllib.request.urlretrieve(url_img,"lisa.jpg")

url_video = 'http://mediaplay.kksmg.com/2021/11/12/h264_450k_mp4_SHNewsHD30000002021111237854878091_aac.mp4'
urllib.request.urlretrieve(url_video,'飞船抵达国际空间站.mp4')

二、请求对象的定制

把上面的url = 'http://www.baidu.com' 修改为：url = 'https://www.baidu.com' 运行时会发现显示出来的数据不全，这是因为我们遇到了反扒，而遇到反扒的原因是我们在访问时给到的数据不够完整。

UA介绍: User Agent中文名为用户代理，简称UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。

查找自己电脑本机的User-Agent：打开谷歌浏览器 --> 右键点击检查 --> 点击网络（network）--> 刷新本网页 --> 点击‘名称’下面的第一个文件 --> 在右方表头（header）最下方就可以找到自己的User-Agent。


# 使用urllib来获取百度首页的源码
import urllib.request

# （1）定义url
url = 'https://www.baidu.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}

# 因为urlopen方法中不能存储字典，所以headers不能传递进去
# 请求对象定制
# 注意：因为参数顺序的问题，不能直接写url和headers  原参数中间还有一个data，所以我们需要关键字传参
request = urllib.request.Request(url=url,headers=headers)

# （2）模拟浏览器向服务器发送数据
response = urllib.request.urlopen(request)

# （3）获取响应中的页面的源码

content = response.read().decode('utf-8')

# （4）打印数据
print(content)

三、编解码

1.get请求方式：urllib.parse.quote（）

urllib.parse.quote（）方法可以把一个词转化为对应的unicode编码。

import urllib.request
import urllib.parse

url = 'https://www.baidu.com/s?wd='

# 请求对象定制是为了解决反扒的第一种手段
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}

# 将周杰伦三个字变为unicode编码格式
# 我们需要依赖于urllib.parse
name = urllib.parse.quote('周杰伦')

url = url + name

# 请求对象的定制
request = urllib.request.Request(url=url,headers = headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的内容
content = response.read().decode('utf-8')

# 打印数据
print(content)

2.get请求方式：urllib.parse.urlencode（）

在上个案例中使用rllib.parse.quote（）方法可以传递一个参数，但是如果我们有两个参数或者更多是我们就需要使用 urllib.parse.urlencode（）方法了。

import urllib.parse
import urllib.request

# https://www.baidu.com/s?wd=周杰伦&sex=男

base_url = 'https://www.baidu.com/s?'

data = {
    'wd' : '周杰伦',
    'sex' : '男',
    'location' : '中国台湾省'
}

new_data = urllib.parse.urlencode(data)

# 请求资源路径
url = base_url + new_data

# 请求对象定制是为了解决反扒的第一种手段
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}

# 请求对象的定制
request = urllib.request.Request(url = url,headers = headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取网页源码的数据
content = response.read().decode('utf-8')

# 打印数据
print(content)

3.post请求方式（百度翻译）

以百度翻译为例：

案例一：

# post请求案例一
import urllib.request
import urllib.parse
import json

url = 'https://fanyi.baidu.com/sug'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}

data = {
    'kw' : 'spider'
}

# post请求的参数 必须进行编码
data = urllib.parse.urlencode(data).encode('utf-8')

# post的请求参数，是不对拼接在url的后面的 而是需要放在请求对象定制的参数中
# post请求的参数必须进行编码
request = urllib.request.Request(url = url,data = data,headers = headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('utf-8')

# 将字符串json转换为python的字典
obj = json.loads(content)
print(obj)

案例二：

# post请求案例二：百度翻译之详细翻译
import urllib.request
import urllib.parse
import json

url = 'https://fanyi.baidu.com/v2transapi?from=en&to=zh'

headers = {
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Acs-Token': '1660287615129_1660351591633_SE+8Vutz/+xDfhHlNTX11Q5kcgoKISVEIe3SKT1Bgt14HAKcuMDbax4acagAshcT8VVEnI0Z3f2EmC0ROVo9hMRZJky17OvVYSml3pGHkcHTy9YebViI/TgqvJaWl6MAuuGwsSOY6fxCTXCDw1zKYYUSfHsSfU4FUmPxMBWn2EsXi9SK17J17TPgSR8OJe6/GiW0AGEngAfwqz4T+93PyimjaSfw4OCm/W2LMVy8Ugn8k9wcxIFSCMOFmCChJ/MSE3B/EehmL+bd4eA0PQ8kVC5hi5I8hFk9Y09NfSeUCmowcdtfxbcYvzR64aBXqLf5',
    'Connection': 'keep-alive',
    'Content-Length': '133',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Cookie': 'BIDUPSID=532072A821136DF8C2EB95AA81E78D9C; PSTM=1660186655; BAIDUID=532072A821136DF854C5AFDE13568E28:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BAIDUID_BFESS=532072A821136DF854C5AFDE13568E28:FG=1; ZFY=sYlYXnP5MlA5Wb:Bj2GuHKBIx1zBseY:BhnC9G7hWJ0ic:C; RT="z=1&dm=baidu.com&si=spox3tvdb8&ss=l6pvshek&sl=1&tt=1ek&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=27g&ul=80v&hd=82o"; BA_HECTOR=8g8ha4a1050h2ka40h2h427j1hfbght16; APPGUIDE_10_0_2=1; FANYI_WORD_SWITCH=1; REALTIME_TRANS_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BDUSS=lDckh2LUFyakVYfjNiR2w0a09YNVY0VVBzfk9BcDluWEgyQUhXeE1IZlItaDFqRUFBQUFBJCQAAAAAAAAAAAEAAADL8CCSWkwxMTcxMTI3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAANFt9mLRbfZiQW; BDUSS_BFESS=lDckh2LUFyakVYfjNiR2w0a09YNVY0VVBzfk9BcDluWEgyQUhXeE1IZlItaDFqRUFBQUFBJCQAAAAAAAAAAAEAAADL8CCSWkwxMTcxMTI3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAANFt9mLRbfZiQW; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=2; H_PS_PSSID=36548_36460_37115_37107_36413_36954_36917_36802_37136_26350; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1660314249,1660351574; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1660351588; ab_sr=1.0.1_OTlkYmM1ZmIxNmVhYTg0NWVhZWFjNDg0MGJlY2RlNmI1YzM3MDE4NmY5ZWEwNzM2NzRmOWViNjFjMDM3ODA1OTNmODM0OTAxNmZhYmQ0OGE0NDA0MjU2NTRmNjljYmMxYjExZTZjYThkOWI2MDhmZTA3NjY3OGU2M2JmNmE0YmEyOGRkZjAyMzY1NjZiZGI5ZDRlMmIxNWRiYWU3YTNjOTQxODBiMDQwODg3ZjAzOWIzMTU5YjQ0ZjJmZDljNmVi',
    'Host': 'fanyi.baidu.com',
    'Origin': 'https://fanyi.baidu.com',
    'Referer': 'https://fanyi.baidu.com/?aldtype=16047',
    'sec-ch-ua': '".Not/A)Brand";v="99", "Google Chrome";v="103", "Chromium";v="103"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

data = {
    'from': 'en',
    'to': 'zh',
    'query': 'lo',
    'transtype': 'realtime',
    'simple_means_flag': '3',
    'sign': '646722.867699',
    'token': '98b2765edb67461fe2e8773520d0e91b',
    'domain': 'common',
}

# post请求的参数  必须进行编码  并且调用encode方法
data = urllib.parse.urlencode(data).encode('utf-8')

# 请求对象的定制
request = urllib.request.Request(url = url,data = data,headers = headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('utf-8','ignore')

# 将字符串json转换为python的字典
obj = json.loads(content)
print(obj)

四、ajax的get请求（豆瓣电影前十页数据）

# get请求
# 获取豆瓣电影的前十页数据，并且保存起来

# 第一页   https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20
# 第二页   https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=20&limit=20
# 第三页   https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=40&limit=20
# 第四页   https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=60&limit=20
# ......

# page  1   2   3   4
# start 0   20  40  60
#
# start (page - 1 ) * 20

# 请求对象定制
# 获取响应的数据
# 下载数据
import urllib.parse
import urllib.request

#请求对象的定制方法
def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'

    data = {
        'start' : (page - 1) *20,
        'limit' : 20
    }

    data = urllib.parse.urlencode(data)
    url = base_url + data

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }

    request  = urllib.request.Request(url=url,headers=headers)
    return request


# 获取响应数据方法
def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

# 下载的方法
def down_load(page,content):
    with open('douban_'+ str(page) +'.json','w',encoding='utf-8')as fp:
        fp.write(content)


# 程序入口
if __name__ == '__main__':
    satrt_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束的页码'))

    for page in range(satrt_page,end_page+1):
        request = create_request(page)
        content = get_content(request)
        down_load(page,content)

下载好的数据查看时，可是使用ctrl+alt+l 快捷键进行格式化，方便查看。