Urllib库获取网页信息:

Urllib库获取网页信息:

1、直接获取一个网页的get请求(网页无防爬虫)

# 获取一个get请求(不需要传参数)

response = urllib.request.urlopen("http://www.baidu.com") # 获取网页,返回一个对象保存网页中所有的信息
print(response.read())           # 返回对象调用read方法读取网页内容, 编码为二进制(type为bytes)
print(response.read().decode('utf-8'))      # 用utf-8编码格式解码,防止中文乱码,除去换行符

结果:
使用get请求获取的网页源码(二进制格式)
在这里插入图片描述
使用get请求获取的网页源码(由utf-8解码二进制后)
在这里插入图片描述

2、利用测试网页获取pos请求

测试网站http://httpbin.org

# 获取一个pos请求(需要二进制编码参数)

import urllib.parse             # 用于解析下面的键值对
data = bytes(urllib.parse.urlencode({"hello": "world"}), encoding="utf-8")   # 解析utif-8格式的键值对,并转化为bytes二进制类型,最后传入数据包中
response = urllib.request.urlopen("http://httpbin.org/post", data=data)
print(response.read().decode("utf-8"))

测试结果:
在这里插入图片描述

3、超时操作

try:
    response = urllib.request.urlopen("http://httpbin.org/get", timeout=0.01)   # 获取网页,返回一个对象保存网页中所有的信息,并定义超时时间为0.01s
    print(response.read().decode('utf-8'))  # 返回对象调用read方法读取网页内容, 编码为二进制(type为bytes)
except urllib.error.URLError as e:
    print("time out!")

超时操作结果:
在这里插入图片描述

4、用post方式爬取一个防爬虫网页

# 伪装成浏览器访问豆瓣网页(用post方式访问,需要参数)

import urllib.parse
url = "https://www.douban.com"
headers = {                  # 定义一个请求的头部信息,并复制浏览器访问时的headers中的User-Agent信息
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
data = bytes(urllib.parse.urlencode({"hello": "world"}), encoding="utf-8")
req = urllib.request.Request(url=url,                   # 自定义封装一个请求,模拟浏览器访问网页时的请求,关键点是模拟User-Agent内容
                             data=data,
                             headers=headers,
                             method='POST')
response = urllib.request.urlopen(req)    # 根据封装的对象信息,返回信息
print(response.read().decode("utf*8"))

结果:
用post方式爬取一个防爬虫网页
在这里插入图片描述

5、用get方式爬取一个防爬虫网页

# 伪装成浏览器访问豆瓣网页(用get方式访问,不需要参数)

url = "https://www.douban.com"
headers = {                  # 定义一个请求的头部信息,并复制浏览器访问时的headers中的User-Agent信息
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
req = urllib.request.Request(url=url,                   # 自定义封装一个请求,模拟浏览器访问网页时的请求,关键点是模拟User-Agent内容
                             headers=headers,)
response = urllib.request.urlopen(req)    # 根据封装的对象信息,返回信息
print(response.read().decode("utf*8"))

结果:
用get方式爬取一个防爬虫网页在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值