**#Python入门**
知识点:
0.Python如何访问互联网:
- urllib(URL+lib):它是一个包
- URL的一般格式为:
- URL由三部分组成:(1)协议:http,https,ftp,file,ed2k。 (2)存放资源的服务器的域名系统或IP地址 (3)资源的具体地址,如目录或者文件的名字
1.访问网站:
2.实战:
(1)下载一只猫:
(2)利用有道词典翻译:
3.隐藏:使其更像普通浏览器访问,从而通过反爬虫机制。浏览器通过User-Agent来判断用户是人还是机器。语句:class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
其中 headers 要求是一个字典。
- 方法1:在request对象生成之前将head作为一个参数传进去。
- 方法2:在request生成之后通过add_header(‘key‘,‘value’)这个方法将User-Agent传递进去。
4.代理:每个代理拥有不同的ip地址且与本机的ip地址不同。我们可以同时使用多个代理来爬取信息,从而使增加效率。
步骤:
- 参数是一个字典{‘类型’:‘代理IP:端口号’}
Proxy_support =urllib.request.ProxyHandler({}) - 定制、创建一个opener
Opener = urllib.request.build_opener(proxy_suuport) - 安装opener(永久有效)
Urllib.request.install_opener(opener)
调用opener(临时调用)
Opener.open(url)
5.爬取煎蛋网图片实例: