爬虫常识

1、爬虫的步骤是:
    获取数据: 爬虫会拿到我们要它去爬的网址,像服务器发出请求,获得服务器返回的数据。
    解析数据:爬虫会将服务器返回的数据转换成人能看懂的样式。
    筛选数据:爬虫会从返回的数据中筛选出我们需要的特定数据
    存储数据:爬虫会根据我们设定的存储方式,将数据保存下来,方便我们进行后一步的操作。

2、res=requests.get(url)
    这里的res是一个对象,它是一个requests.models.Response类,简单来说就是一个请求响应对象,
    可以使用下面的函数进行获取里面的一些信息:
        res.status_code——查看请求返回的状态码,可以请求是否正常:
            1xx——请求接受
            2xx——请求成功
            3xx——重定向
            4xx——客户端错误
            5xx——服务器错误
            一些常用的比如:
                100:继续提出请求
                200:请求成功
                305:应使用代理访问
                403:禁止访问
                503:服务器不可用
        res.content——查看返回的二进制数据
        res.text——查看字符串数据
        res.encoding——查看对象的编码

3、网络爬虫
         概念:
    又称为网页蜘蛛或者是网络机器人,是一种按照一定的规则自动的抓取万维网信息的程序或者是脚本

         爬虫的分类:
    通用爬虫:通常指搜索引擎的爬虫
    聚焦爬虫:针对特定网站的爬虫
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值