第三章 3.1 Urlib库

本文介绍了Python内置库urllib在Python3.x中的使用,包括库的概念,如何导入和使用urllib.request模块进行网页爬取,以及POST请求的实现。示例代码展示了读取网页内容、处理POST请求以及设置超时时间的方法。
摘要由CSDN通过智能技术生成

第三章 学习目标

在这里插入图片描述

3.1.1urllib库的概念

urllib库是Python编写爬虫程序操作URL的常用内置库。在不同的Python解释器版本下,使用方法也稍有不同,本书采用Python3.x来讲解urllib库,具体版本是Python 3.6.1。 需要说明的是,在Python 2.x中urllib库包含urllib2和urllib两个版本,而在Python 3.x中urllib2合并到了urllib中。在此总结了一些urllib模块在Python2.x和Python3.x中使用的变动,方便大家快速掌握该库的用法,具体如下所示:

在这里插入图片描述

3.1.2 urllib库的使用

3.1.1节对urllib库作了简单的介绍,接下来讲解如何使用urllib库快速爬取一个网页。具体步骤如下:
导入urllib.reques模块。
使用urllib.request.urlopen()方法打开并爬取一个网页。
使用response.read()方法读取网页内容,并以utf-8格式进行解码。
具体示例代码如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值