前言
记录爬虫过程中所用到的一些重要模块和重要功能,并简要解释,以便之后看起来顺利些。
小说爬取功能简介
这个系列的主要是爬取笔趣阁小说,排行榜前列的小说,后续会有更新已经爬取的,目前只有爬取正本小说的
重要功能
- 请求网页:一个get请求,将目标网页拉下来;
- 分析网页:将网页内容解析出来,以得到自己想要的数据;
- 数据库操作:mongodb存进去就好了;
- 自建代理池:防止访问频率过高被封掉ip;
- 线程池:提升爬取网站的速度;
- 线程锁:操作同步资源时使用;
重要模块
- requests:请求网站时使用;
- pyquery:分析网页,筛选内容时类似于jQuery的选择器使用就好了;
- pymongo:连接数据库操作;
- ThreadPoolExecutor:创建线程池;
- threading:线程模块,这个项目主要是使用他的线程锁,达到线程同步的作用;
结尾
后续补充更多