最近用java爬虫,其实爬的东西没啥用处,但是过程中还是爽歪歪,真的是爬虫一时爽,一直爬一直爽。这也是软件的魅力所在,希望感兴趣的可以一直钻研下去,说不定哪天成爬虫工程师了,java只是打个基础,更方便的还是用python。
一.先来点干货
1.1 什么是爬虫?
网络爬虫本质上就是一个程序 或者 脚本, 网络爬虫按照一定规则获取互联网中信息(数据), 一般来说爬虫被分为三大模块: 获取数据 解析数据 保存数据
1.2 爬虫价值:
爬虫的价值本质就是获取数据的价值. 数据的价值越高, 爬虫的价值越高
- 数据的价值: 一切皆为数据
- 例如: 获取到了大量的用户信息(基本信息, 购物信息, 浏览信息):
- 广告推荐 用户行为分析(用户画像)
- 例如: 获取到了大量的商品的信息(基本信息, 价格):
- 比价网
1.3 爬虫的分类:
常见分类有两种:
- 通用爬虫: 指的获取互联网中所有的数据, 不局限于网站, 行业, 分类
- 百度 谷歌
- 垂直爬虫: 指的获取互联网中某一个网站, 某一个行业, 某一个分类下的数据
实际开发中: 一般书写那种爬虫
垂直爬虫(数据分析处理)