Python学习之网络爬虫01--网络爬虫的定义

Python学习之网络爬虫01–网络爬虫的定义

概念:

网络爬虫就是自动从互联网中定向或者不定项地采集信息的一种程序。

定向:即聚焦,我们知道从哪个网站中采,具体要采哪些信息,是一个有目的的采集。
不定向:类似搜索引擎,没有固定的要求,只是纯粹的想要去搜集。

网络爬虫有很多种,常用的有通用网络爬虫、聚焦网络爬虫、深层页面爬虫。

通用网络爬虫:我不知道我要爬取什么,记录式的去爬取。
聚焦网络爬虫:我明确我要去爬取什么,有目的的去爬取。
深层页面爬虫:后续学到再补充...(不知道我就不写,就是这么任性)

作用:

  1. 搜索引擎

  2. 采集金融数据

  3. 采集商品数据

  4. 自动过滤广告

  5. 采集竞争对手的客户数据

  6. 采集行业相关数据,进行数据分析

工作原理:

通用与聚焦网络爬虫的运行原理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值