爬虫练习生|爬虫前奏(爬虫介绍、工具的安装、爬虫分类、爬虫须知)

一.爬虫介绍

1.什么是网络爬虫

  • 通俗的说,爬虫,就是 模拟人进行访问网站行为 的一种方式。可以自动请求网页,并把数据抓取下来,通过一定的方式来获取你需要的数据。
  • 详情请见:百度百科—网络爬虫

2.网络爬虫的应用领域

  • web开发:通过python可以使程序员轻松地开发和管理复杂的Web程序。
  • 为搜索引擎提供数据源(百度、Google等):我们通过搜索引擎搜索信息,而搜索引擎通过其内部强大的爬虫程序向全球网站发送请求,然后将获得的信息保存在自己的数据库中,供人们进行访问。
  • 应用于数据分析:案例:淘宝物品价格
    我们可以通过爬虫插件获取物品某时期的价格,通过价格的波动来分析现在的价格是否合理。
  • 应用于大数据领域:通过数据挖掘获取我们想要的信息。

3.用python网爬的优势

相对于一些计算机语言,我们来做一个简单对比。

  • PHP:PHP是世界上最好的语言这个梗,相信大家并不陌生 😛。但是,它对多线程、异步⽀持不太好,并发处理能力弱。因为爬虫是工具性程序,所以对速度和速率有较高的要求。
  • Java:虽然生态圈很完善,是python爬虫的最有力竞争者。但是Java的代码量较大,而且语言比较笨重,代码重构成本高。
  • C/C++:虽然很香,但是学习和开发成本较高,代码量较大,难以编写。
  • python:代码简洁,生态完善,⽀持模块多,开发效率⾼ (scrapy框架),通过python的种种优势使得我们开发爬虫变得更加简单。

二.工具的安装(win)

1.python的安装

2.pycharm的安装

  • 同样的在小白学python专栏中,我也写了pycharm(社区版)的安装。
  • Pycharm的安装

三.网络爬虫分类

详情请见:百度百科—网络爬虫分类

  • 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:
  • 通用网络爬虫(General Purpose Web Crawler)
  • 聚焦网络爬虫(Focused Web Crawler)
  • 增量式网络爬虫(Incremental Web Crawler)
  • 深层网络爬虫(Deep Web Crawler)

1. 通⽤⽹络爬⾍

通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。
通用网络爬虫的结构大致可以分为页面爬行模块 、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。

2.聚焦网络爬虫

  • 聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选有择性地爬取一些特定主题的内容。

聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。
爬虫策略可分为:基于内容评价的爬行策略、 基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略

3.增量式网络爬虫

  • 增量式网络爬虫(Incremental Web Crawler)是指对已下载的⽹⻚采取增量式的更新和只爬取新产⽣的或者已经发⽣变化⽹⻚的爬⾍。

增量式网络爬虫的体系结构包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL集。

4.深层网络爬虫

  • 深层网络爬虫(Deep Web Crawler)是指那些⼤部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有⽤户提交⼀些关键词才能获得的web⻚⾯。

例如:⽤户登录注册才能访问的⻚⾯。
深层网络爬虫(Deep Web Crawler)爬取过程中最重要部分就是表单填写,包含两种类型:基于领域知识的表单填写、基于网页结构分析的表单填写

四.网络爬虫须知

1.爬虫须知

详情请见:robots协议

robots协议叫robots.txt 是一种存放于网站根目录下的一个文本文件。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

2.如何查看robots.txt

  • 可以通过 主域名/robots.txt 这种方式查看
  • 例如: https://jingyan.baidu.com/robots.txt

3.robots.txt展示

  • 通过截取部分 https://jingyan.baidu.com/robots.txt 进行robots,txt展示。
    robots
©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页