演员灬-CSDN博客

原创爬虫从小白到精通笔记---第四周--Scrapy+Scrapy项目练习

四、Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。 Scrapy架构图(绿线是数据流向)： Scrapy

2020-12-03 16:15:16 2323

原创爬虫从小白到精通笔记---第三周--动态HTML处理和机器图像识别

三、动态HTML处理和机器图像识别 3.1 动态HTML介绍 JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集用户的跟踪数据,不需要重载页面直接提交表单，在页面嵌入多媒体文件，甚至运行网页游戏。我们可以在网页源代码的<scripy>标签里看到，比如： <script type="text/javascript" src="https://statics.huxiu.com/w/mini/static_2015/js/sea.js?v=

2020-12-03 16:07:36 287

原创爬虫从小白到精通笔记---第二周---非结构化数据和结构化数据的提取

二、非结构化数据和结构化数据的提取页面解析和数据提取一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。非结构化数据：先有数据，再有结构，（http://www.baidu.com）/) 结构化数据：先有结构、再有数据（http://wangyi.butterfly.mopaasapp.com/news/api?type=war&page=1&limit=10）不同类型的数据，我们需要采用不同的方式来处理

2020-12-03 16:04:32 507

原创爬虫从小白到精通笔记---第一周--爬虫原理和数据抓取

一、爬虫原理和数据抓取 1.1 通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用搜索引擎（Search Engine）工作原理：通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索

2020-12-03 15:52:59 3461 2