一、爬虫前奏
1.什么是网络爬虫
2.HTTP协议介绍
3.urllib库
4. requests库
二、数据提取
1.XPath语法和lxml模块
2.BeautifulSoup4库
3.正则表达式和re模块
三、数据存储
1.json文件处理
2.csv文件处理
3.MySQL数据库操作
4.MongoDB数据库操作
四、爬虫进阶
1.多线程爬虫
2.动态网页数据抓取
3.图形验证码识别技术
五、Scrapy
1.Scrapy框架架构
2.Scrapy快速入门
3.CrawlSpider
4.Scrapy Shell
5.Request和Response对象
6.下载文件和图片
7.Downloader Middlewares(下载器中间件)
8.Scrapy爬虫实战
六、Scrapy-Redis分布式组件
1.redis教程