一、爬虫前奏
1.什么是网络爬虫
![](https://i-blog.csdnimg.cn/blog_migrate/b277111f5c3595f7e4c5c8b0b68d0850.png)
![](https://i-blog.csdnimg.cn/blog_migrate/246167f3e526d943349d24d395fbdf0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ac3ad3fc820e065d9b02abfccf627d1c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a46c14d6c967b4a8e224964c25b80136.png)
2.HTTP协议介绍
![](https://i-blog.csdnimg.cn/blog_migrate/70c741576b5067ab0f40b08f824fa189.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4315157cb334483dd048b5a556c1b554.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a43f3d4f132dca26ed01c83976d541b4.png)
3.urllib库
4. requests库
二、数据提取
1.XPath语法和lxml模块
2.BeautifulSoup4库
3.正则表达式和re模块
三、数据存储
1.json文件处理
2.csv文件处理
3.MySQL数据库操作
4.MongoDB数据库操作
四、爬虫进阶
1.多线程爬虫
2.动态网页数据抓取
3.图形验证码识别技术
五、Scrapy
1.Scrapy框架架构
2.Scrapy快速入门
3.CrawlSpider
4.Scrapy Shell
5.Request和Response对象
6.下载文件和图片
7.Downloader Middlewares(下载器中间件)
8.Scrapy爬虫实战
六、Scrapy-Redis分布式组件
1.redis教程