了解爬虫
定义
通过代码的方式自动获取互联网上的资源。
本质上就是模拟浏览器的操作,获取网页中我们需要的数据。
数据
最近几年天眼查越来越火,他背后一定有什么秘密。
天眼查是我们找工作什么的会访问的一个网站,主要是买会员,给会员提供一些数据上的服务。那么这个网站本身的会有数据采集、数据清洗、数据聚会、数据建模、数据产品化的一套大数据解决方案。原来不用开工厂,数据就可以卖钱!
这从一个方面就解释了为什么要爬虫,因为数据是有价值的。
Python爬虫
爬虫作为一项技术,已经存在了很长时间;但是现在提到爬虫都会第一时间联想到Python。
为什么爬虫都用Python呢?它有以下优势:
-
简单、方便、快捷
没别的了,就这些;已经足够了! -
在爬取数据阶段
python有urllib2等包提供了完善的访问接口。
python有Requests等包提供了模拟用户行为的设置。 -
在数据处理阶段
python的beautifulsoap等包提供了简洁的文档处理功能。
以上功java、C#也能搞,但是用python能够更快。
所以说,人生苦短,干嘛不用python。
使用场景
简单的
- 获取某某网站的天气预报信息。
- 获取某某网站的新闻资讯信息。
- 获取某某网站的美女图片并自动下载保存。
- …
深入的
- 电影天堂
如果你使用知道电影天堂,你仔细看它的电脑详情基本上和豆瓣电影中的一毛一样。。你懂了把…