Python爬虫入门

最新推荐文章于 2024-07-23 14:36:35 发布

九命相柳

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量424

点赞数 1

分类专栏： python 文章标签： python cookie 爬虫

本文链接：https://blog.csdn.net/zwj5361826/article/details/51912598

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

构造cookie

cookie = http.cookiejar.MozillaCookieJar('cookie.txt')
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)

保存和读取cookie

//保存cookie
cookie = http.cookiejar.MozillaCookieJar('cookie.txt')
cookie.save(ignore_discard = True, ignore_expires = True)
//读取cookie
cookie = http.cookiejar.MozillaCookieJar()
cookie.load('cookie.txt', ignore_discard = True, ignore_expires = True)

构造头部信息

headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
}
header = []
for key, value in headers.items():
    elem = (key, value)
    header.append(elem)
opener.addheaders = header

构造post信息

postRowdata = {
    'id':'*************',
    'pwd':'************',
    'xdvfb':xdvfb
}
postData = urllib.parse.urlencode(postRowdata).encode()

访问网站

result = opener.open(postUrl, postData)
result = opener.open(postUrl)

解压信息

def ungzip(data):
    try:
# 尝试解压
        print('正在解压.....')
        data = gzip.decompress(data)
        print('解压完毕!')
    except:
        print('未经压缩, 无需解压\n')
    return data

保存页面

page = result.read()
page = ungzip(page)
open('logined.html', 'wb').write(page)

下载文件

urllib.request.urlretrieve(imgurl,'file.txt')

九命相柳

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫入门

构造cookiecookie = http.cookiejar.MozillaCookieJar('cookie.txt')handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)保存和读取cookie//保存cookiecookie = http.c
复制链接

扫一扫

专栏目录