作者一直从事移动端开发,最近利用业余时间研究下网络爬虫。
网络爬虫-Web Crawler,也称为网络蜘蛛-Web Spider 或Web信息采集器。按照指定规则自动抓取或下载资源的计算机程序或自动化脚本。
就是通过http/https等网络协议,广度或深度依次检索url链接,通过url链接获取html或json等内容,存储需要的内容。
我们常用的Google、百度、必应等搜索引擎都会通过爬虫技术采集互联网数据,提供强大的内容搜索能力。
大致结构是:
互联网数据---->数据采集---->数据存储---->数据预处理---->搜索引擎---->用户
网络采集作用
1. 大数据环境下舆情分析与检测
2. 大数据环境下用户分析
3. 科研需求
网络爬虫分类
1. 通用网络爬虫(全网络爬虫)
2. 聚焦网络爬虫(主题网络爬虫)
3. 增量网络爬虫
4. 深度网络爬虫
网络爬虫流程
网络爬虫学习建议
1. 掌握Java基础知识
2. 理解网络爬虫原理
3. 吃透基本爬虫代码
4. 学会搜索解决问题