爬虫之urllib基本库的使用

最新推荐文章于 2023-02-27 10:34:14 发布

唐僧爱吃唐僧肉

最新推荐文章于 2023-02-27 10:34:14 发布

阅读量82

点赞数 1

分类专栏：爬虫专栏

本文链接：https://blog.csdn.net/znevegiveup1/article/details/107468318

版权

爬虫专栏专栏收录该内容

18 篇文章 2 订阅

订阅专栏

1.使用urlopen构造最基本的http请求方法，模拟浏览器的一个请求发起的过程

import  urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))

使用两行代码完成了python官网的抓取过程，输出了网页的源代码，它是一个HTTPResponse类型的对象，主要包括read(),readinto(),getheader(name),getheaders()等的方法
2.使用urlopen获取响应的状态码以及响应的状态头信息

import  urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(response.status)
print(response.getheaders())
#获取响应的整个头部内容
print(response.getheader('Server'))
#获取响应中带有'Server'的头部信息

3.data参数可选，需要使用bytes()方法将参数转化为字节流编码格式的内容，即bytes类型。另外如果传递了这个参数，则它的请求就不再是GET方式，而是POST方式。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

唐僧爱吃唐僧肉

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫之urllib基本库的使用

1.使用urlopen构造最基本的http请求方法，模拟浏览器的一个请求发起的过程import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(response.read().decode('utf-8'))使用两行代码完成了python官网的抓取过程，输出了网页的源代码，它是一个HTTPResponse类型的对象，主要包括read(),readinto(),getheader(name
复制链接

扫一扫