【python教程入门学习】第一个Python爬虫程序

python自由菌

已于 2022-02-16 18:03:29 修改

阅读量138

点赞数

分类专栏：程序员 python 游戏开发文章标签： python 爬虫开发语言

于 2022-01-10 00:49:26 首次发布

本文链接：https://blog.csdn.net/zihong523/article/details/122402547

版权

本文介绍了一个简单的Python爬虫程序，利用urllib库获取网页HTML信息。首先，通过urlopen()方法向指定URL发起请求，获取响应对象。接着，使用read()方法读取HTML内容并进行decode()转换。文章还提到了Request()方法用于创建请求对象，以及urlopen()和Request()的相关参数。

摘要由CSDN通过智能技术生成

本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。

下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。

获取网页html信息

1) 获取响应对象

向百度发起请求，获取百度首页的 HTML 信息，代码如下：


1.  #导包,发起请求使用urllib库的request请求模块
2.  import urllib.request
3.  # urlopen()向URL发请求,返回响应对象,注意url必须完整
4.  response=urllib.request.urlopen('http://www.baidu.com/')
5.  print(response)

上述代码会返回百度首页的响应对象，其中 urlopen() 表示打开一个网页地址。注意：请求的 url 必须带有 http 或者 https 传输协议。

输出结果，如下所示：

上述代码也有另外一种导包方式，也就是使用 from，代码如下所示：


1.  #发起请求使用urllib库的request请求模块
2.  from urllib import request
3.  response=request.urlopen('http://www.baidu.com/')
4.  print(response)

最低0.47元/天解锁文章

python自由菌

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【python教程入门学习】第一个Python爬虫程序

本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。获取网页html信息1) 获取响应对象向百度发起请求，获取百度首页的 HTML 信息，代码如下：1. #导包,发起请求使用urllib库的request请求模块2. import urllib.request3. # urlopen()
复制链接

扫一扫