爬虫常识

最新推荐文章于 2021-04-06 16:28:47 发布

G-无忧仙-LB

最新推荐文章于 2021-04-06 16:28:47 发布

阅读量106

点赞数

分类专栏：爬虫文章标签：爬虫学习

本文链接：https://blog.csdn.net/weixin_44981850/article/details/114885796

版权

爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1、爬虫的步骤是：
    获取数据: 爬虫会拿到我们要它去爬的网址，像服务器发出请求，获得服务器返回的数据。
    解析数据:爬虫会将服务器返回的数据转换成人能看懂的样式。
    筛选数据:爬虫会从返回的数据中筛选出我们需要的特定数据
    存储数据：爬虫会根据我们设定的存储方式，将数据保存下来，方便我们进行后一步的操作。

2、res=requests.get(url)
    这里的res是一个对象，它是一个requests.models.Response类，简单来说就是一个请求响应对象，
    可以使用下面的函数进行获取里面的一些信息：
        res.status_code——查看请求返回的状态码，可以请求是否正常：
            1xx——请求接受
            2xx——请求成功
            3xx——重定向
            4xx——客户端错误
            5xx——服务器错误
            一些常用的比如：
                100：继续提出请求
                200：请求成功
                305：应使用代理访问
                403：禁止访问
                503：服务器不可用
        res.content——查看返回的二进制数据
        res.text——查看字符串数据
        res.encoding——查看对象的编码

3、网络爬虫
         概念：
    又称为网页蜘蛛或者是网络机器人，是一种按照一定的规则自动的抓取万维网信息的程序或者是脚本

         爬虫的分类：
    通用爬虫：通常指搜索引擎的爬虫
    聚焦爬虫：针对特定网站的爬虫