支持正版,一切只为学习
之前写的笔趣阁爬虫有不少同学说不能爬了,我后来发现是网站改版的缘故,前些日子把书里的爬虫项目都整的差不多了,现在又有些不知道爬什么好了,刚好在这段时间把笔趣阁爬虫代码重写一下。
(PS:我看自己之前写的代码感觉写的好丑哦,官方吐槽,最为致命,以前的链接)
做了以下改进:
- 将爬虫代码写入对象中,把用户选择判断的语句写在外部,使得爬虫本身更加简洁;
- 优化互动的相关代码,操作更舒适;
- 采用多进程爬取小说各章节的内容,速度更快;
- 加入UA代理,尽可能反反爬虫,安全性更高 。
前期准备,需要在cmd里下载安装以下第三方库:
pip install requests
pip install python-docx
一、基本思路
以下是爬取笔趣阁小说的主体思路,爬虫代码在这个思路上扩展构建。
二、构建爬虫
笔趣阁的网站众多,这是我爬取的笔趣阁网址:http://www.biquge.tv/
我将爬虫写到