为什么要做爬虫
著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT即数据技术,由数据在推倒人们的衣食住行,当今时代是一个大数据时代,数据从何而来?
企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所
政府机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克
数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询
爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么就可以招/做一名爬虫工程师,自己动手丰衣足食。拉勾网Python爬虫职位
爬虫是什么?
百度百科:网络爬虫
关于Python爬虫,我们需要学习的有:
Python基础语法学习(基础知识)
HTML页面的内容抓取(数据抓取)
HTML页面的数据提取(数据清洗)
Scrapy框架以及scrapy-redis分布式策略(第三方框架)
爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争。。。。
通用爬虫和聚焦爬虫
网络爬虫可分为通用爬虫和聚焦爬虫两种。
通用搜索引擎(Search Enging)工作原理
通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否及时,因此其性能的优劣直接影响着搜索引擎的效果。
第一步:抓取网页
搜索引擎网络爬虫的基本工作流程如下: