1、爬虫的步骤是:
获取数据: 爬虫会拿到我们要它去爬的网址,像服务器发出请求,获得服务器返回的数据。
解析数据:爬虫会将服务器返回的数据转换成人能看懂的样式。
筛选数据:爬虫会从返回的数据中筛选出我们需要的特定数据
存储数据:爬虫会根据我们设定的存储方式,将数据保存下来,方便我们进行后一步的操作。
2、res=requests.get(url)
这里的res是一个对象,它是一个requests.models.Response类,简单来说就是一个请求响应对象,
可以使用下面的函数进行获取里面的一些信息:
res.status_code——查看请求返回的状态码,可以请求是否正常:
1xx——请求接受
2xx——请求成功
3xx——重定向
4xx——客户端错误
5xx——服务器错误
一些常用的比如:
100:继续提出请求
200:请求成功
305:应使用代理访问
403:禁止访问
503:服务器不可用
res.content——查看返回的二进制数据
res.text——查看字符串数据
res.encoding——查看对象的编码
3、网络爬虫
概念:
又称为网页蜘蛛或者是网络机器人,是一种按照一定的规则自动的抓取万维网信息的程序或者是脚本
爬虫的分类:
通用爬虫:通常指搜索引擎的爬虫
聚焦爬虫:针对特定网站的爬虫
爬虫常识
最新推荐文章于 2021-04-06 16:28:47 发布