- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 爬虫从小白到精通笔记---第四周--Scrapy+Scrapy项目练习
四、Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。 Scrapy架构图(绿线是数据流向): Scrapy
2020-12-03 16:15:16 2323
原创 爬虫从小白到精通笔记---第三周--动态HTML处理和机器图像识别
三、动态HTML处理和机器图像识别 3.1 动态HTML介绍 JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 我们可以在网页源代码的<scripy>标签里看到,比如: <script type="text/javascript" src="https://statics.huxiu.com/w/mini/static_2015/js/sea.js?v=
2020-12-03 16:07:36 287
原创 爬虫从小白到精通笔记---第二周---非结构化数据和结构化数据的提取
二、非结构化数据和结构化数据的提取 页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构,(http://www.baidu.com)/) 结构化数据:先有结构、再有数据(http://wangyi.butterfly.mopaasapp.com/news/api?type=war&page=1&limit=10) 不同类型的数据,我们需要采用不同的方式来处理
2020-12-03 16:04:32 507
原创 爬虫从小白到精通笔记---第一周--爬虫原理和数据抓取
一、爬虫原理和数据抓取 1.1 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作原理: 通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索
2020-12-03 15:52:59 3461 2
Base16 Ocean
2020-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人