Python零基础入门53-56(爬虫)

**#Python入门**

知识点:
0.Python如何访问互联网:

  • urllib(URL+lib):它是一个包
  • URL的一般格式为:
  • URL由三部分组成:(1)协议:http,https,ftp,file,ed2k。 (2)存放资源的服务器的域名系统或IP地址 (3)资源的具体地址,如目录或者文件的名字

1.访问网站:
在这里插入图片描述

2.实战:
(1)下载一只猫:
在这里插入图片描述
在这里插入图片描述
(2)利用有道词典翻译:
在这里插入图片描述

3.隐藏:使其更像普通浏览器访问,从而通过反爬虫机制。浏览器通过User-Agent来判断用户是人还是机器。语句:class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
其中 headers 要求是一个字典。

  • 方法1:在request对象生成之前将head作为一个参数传进去。
    在这里插入图片描述
    在这里插入图片描述
  • 方法2:在request生成之后通过add_header(‘key‘,‘value’)这个方法将User-Agent传递进去。
    在这里插入图片描述

4.代理:每个代理拥有不同的ip地址且与本机的ip地址不同。我们可以同时使用多个代理来爬取信息,从而使增加效率。
步骤:

  • 参数是一个字典{‘类型’:‘代理IP:端口号’}
    Proxy_support =urllib.request.ProxyHandler({})
  • 定制、创建一个opener
    Opener = urllib.request.build_opener(proxy_suuport)
  • 安装opener(永久有效)
    Urllib.request.install_opener(opener)
    调用opener(临时调用)
    Opener.open(url)

5.爬取煎蛋网图片实例:

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值