漫画屋 - 爬取所有漫画(js解析-只要有就能获取)
JS解析网站大体流程(自我感觉一般都是这个流程)
- 网站踩点 ----- 先去查看这个网站数据加载的一种方式或者说网站加载的流程
- 接口分析 ----- 找到数据接口分析出必要的加密参数
- 加密算法 ----- 通过加密的参数找到加密算法的JS代码
- 伪造请求 ----- JS简单的话可以翻译成python代码,如果复杂可以使用nodejs、execjs等去进行调用
- 获取数据 ----- 可以进一步的进行数据清洗以及后期扩展
1. 解析网站
要进行爬取的网站:http://www.dm5.com/manhua-list-p1/
-
我们先看看全部漫画,它的漫画封面 漫画名字是怎么请求的以及翻页
-
既然找到漫画封面加载方式那么就点开一个漫画看看,这种连载章名是可以直接获取出来的
-
那就打开章节漫画看看里面的漫画是如何加载的
- 但多点击几页发现一直会请求这两个数据包 每一个都返回了这个eval函数, 这一点有些不同
- 把这段js代码放到控制台 此时我们就找到了这个图片的URL存储地址
- 既然找到了图片的加载方式,那就看看它是怎么进行获取的
7. 那我们继续搜索DM5_VIEWSIGN这个参数最后发现这个参数是在源码中 既然这个参数在源码中那么其他的参数也应该是在源码中了 现在我们找到了所有的参数那么我们就可以进行伪造请求获取数据了
2. 代码实现
代码分析流程:获取漫画名字以及漫画详情的URL并创建漫画文件夹 ----- 获取漫画详情章节并创建章节文件夹 ----- 获取图片URL取出js代码片段 ----- 调用js代码获取图片链接 ----- 进行下载保存漫画图片
使用模块:os、re、execjs、requests、BeautifulSoup
import os
import re
import execjs
import requests
from bs4 import BeautifulSoup as bs
HOST = 'http://www.dm5.com'
ROOT = '漫画'
def safe_string(str):
"""去除特殊符号"""
return re.sub('[:,.\'@#$%……¥&*~`]', '_', str)
def get_index():
"""获取所有漫画的URL"""
page = 1
while 1:
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.