数据使用:数据分析服务、互联网金融、数据建模、医疗病例分析、自然语言处理、信息聚类
scrapy+elasticsearch+django 获取数据 深入认识网络知识和编程知识
1、环境配置基础知识 2、爬取数据 3、突破反爬虫 4、进阶 5、分布式爬虫 6、组件搜索引擎
1- 1、正则表达式 2、深度优先和广度优先 3、url去重策略
2- 爬取技术社区、问答网站、招聘网站 分析网站结构网络请求 通过xpath+css提取数据
模拟登录 spider、 item 、item loader、pipeline、feed export、CrawlSpider
3- 图片验证码、ip访问频率限制、user-agent随机切换
4- 原理及中间件开发
动态网站抓取处理 、selenuum 和phantomjs集成、log配置 email发送、信号处理
5- redis分布式爬虫 理解分布式爬虫,集成bloomfilter到系统中
6- 混合搜索引擎 文章、问答、职位 实现 联想输入