文章目录
1.pip的使用
1.常用的命令
- pip install 包名
- 安装指定的包
- pip uninstall 包名
- 删除指定的包
- pip list
- 显示已经安装的包
- pip freeze
- 显示已经安装的包,并且以指定的格式显示
2.修改pip下载源
-
运行pip install 命令会从网站上下载指定的python包,默认是从https://files.pythonhosted.org/网站上下载,这是个国外的网站,遇到网络情况不好的时候,可能会下载失败,可以通过命令,修改pip下载软件时的源。
pip install 包名 -i https://pypi.mirrors.ustc.edu.cn/simple/
此为从中国科技大学(ustc)的服务器上下载requests(基于python的第三方web框架)
-
国内常用的pip下载源列表:
- 阿里云:http://mirrors.aliyun.com/pypi/simple/
- 中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/
- 豆瓣:http://pypi.douban.com/simple/
- 清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/
2. Urlib
1.什么是互联网爬虫?
- 通过一个程序,根据Url(http://www.taobao.com)进行爬取网页,获取有用的信息
- 使用程序模拟浏览器,去向服务器发送请求,获取响应信息
2.爬虫核心?
- 爬取网页:爬取整个网页,包含了网页中所有的信息
- 解析数据:将网页中你所得到的数据,进行解析
- 难点:爬虫和反爬虫之间的博弈
3.爬虫的用途?
- 数据分析/人工数据集
- 社交软件冷启动
- 舆情监控
- 竞争对手监控
4.爬虫分类
1.通用爬虫
- 功能:访问网页->抓取数据->数据存储->数据处理->提供检索服务
- 缺点:
- 抓取的数据大多是无用的
- 不能根据用户的需求来精准获取数据
2.聚焦爬虫
- 根据需求,实现爬虫程序,抓取需要的数据
- 如何访问
- 设计思路:
- 确定要获取的url
- 模拟浏览器通过http协议访问url,获取服务器返回的html代码
- 如何访问
- 解析html字符串(根据一定规则提取需要的数据)
- 如何解析
5.反爬手段
-
User-Agent:
中文名为用户代理,简称UA,它是一个特殊字符串,使得服务器能够识别客户使用的操作系统以及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等
-
代理IP:
西次代理
快代理
什么是高匿名、匿名和透明代理?它们有什么区别?
- 使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP
- 使用匿名代理,对方服务器可以知道你使用了代理,但是不知道你的真实IP
- 使用高匿名代理,对方服务器不知道你使用了代理,也不知道你的真实IP
-
验证码访问
打码平台
云打码平台
-
动态加载网页,网站返回的是js数据,不是真实的网页数据
-
数据加密
分析js代码
6.urllib库使用
7.请求对象的定制
8.编解码
1.get请求方式:urllib.parse.quote()
9.Handler处理器
10.代理服务器
- 代理的常用功能:
- 突破自身IP访问限制,访问国外站点
- 访问一些单位或者团体内部的资源
- 某大学FTP(前提是该代理地址在该资源的允许访问范围之内),使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务
- 提高访问速度
- 扩展:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时,则直接由缓冲区中读取信息,传给用户,以提高访问速度
- 隐藏真实IP
- 扩展:上网者也可以通过这种方法隐藏自己的IP,免受攻击
- 代码配置代理
- 创建Request对象
- 创建ProxyHandler对象
- 用handler对象创建opener对象
- 使用opener.open函数发送请求