工具
- Python3
- requests
- pypdf2
- Linux
- convert
- pdftk
- calibre,电子书格式转换神器
漫画爬取
这一部分使用Python
代码完成
第三方库:
requests
、bs4
# coding: utf-8
import requests
# 这里爬取的是"漫画台"的漫画
index_url = "http://www.manhuatai.com"
# 观察需要爬取的漫画,可以发现几个规律
# 多点开几个漫画的图片可以发现,它的图片地址是由不同章节和页数来变化的,所以我们只需要替换下面的两个数字即可完成整个漫画的爬取。661表示话与1表示页数
pic_url = "http://mhpic.manhualang.com/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%2F661%E8%AF%9DSM%2F1.jpg-mht.middle"