python爬取鬼灭漫画+简单JS分析

雪碧没气阿

于 2024-04-10 15:15:00 发布

阅读量830

点赞数 24

分类专栏： Python爬虫文章标签： python 开发语言爬虫

本文链接：https://blog.csdn.net/xxue345678/article/details/137587373

版权

Python爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、获取所有章节URL地址

打开网址后，使用Chrome抓包，发现所有章节的数据如下所示：

def get_html(url):
    r=requests.get(url,headers=header)
    r.encoding='gbk'
    if r.status_code==200:
        return r.text
    except:
        print('网络连接异常')

def get_total_chapter():
    data=json.loads(get_html(url))
    chapter_total=data['Comics'][2]['Chapters']
    for item in chapter_total:
        yield item.get('Url')

二、解析图片地址，进行简单JS解密

点击进入第一话后，分析网页源码，发现图片保存在a标签下的img中，但是需要爬取的src是用javascript写的！这个时候直接用lxml库去解析是拿不到图片的。这里，我们先分析图片链接的组成，用正则把提取出来即可。

src='"+m201304d+"newkuku/2016/02/15/鬼灭之刃][第1话/JOJO_001513.jpg'

其中，m201304是加密的部分，这个网站比较简单，直接找到js4.js文件，即可发现m201304对应的是http://v2.kukudm.com/，除此之外还有三个加密码，我们可以构建成列表，用if判断是否含如下加密码，再用replace替换即可。

三、翻页分析

分析URL可知，第一话共54页，通过改变末尾的/number.html即可实现翻页

全部代码

所有图片都放在桌面的comic文件夹下

import requests
import json
import os
import re
import time
os.chdir('C:/Users/dell/Desktop/comic')
url='https://api.soman.com/soman.ashx?action=getsomancomicdetail&comicname=%E9%AC%BC%E7%81%AD%E4%B9%8B%E5%88%83&source=kuku%E5%8A%A8%E6%BC%AB'
header={'user-agent':"Opera/9.80 (Windows NT 6.0; U; en) Presto/2.8.99 Version/11.10"}

def get_html(url):
    r=requests.get(url,headers=header,timeout=5)
    r.encoding='gbk'
    if r.status_code==200:
        return r.text
    else:
        print('网络连接异常')

def get_total_chapter():
    data=json.loads(get_html(url))
    chapter_total=data['Comics'][2]['Chapters']
    for item in chapter_total:
        yield item.get('Url')

        
def save_items(url,count):
    r=requests.get(url,headers=header,timeout=5)
    with open('./第{}话/'.format(count)+str(int(time.time()))+'.jpg','wb') as f:
        f.write(r.content)

def get_all_img():  #得到每话总图片数
    src_list=["m200911d","m201001d","m201304d","k0910k"]
    count=0
    for chapter in get_total_chapter():
        try:
            count+=1
            os.makedirs('./第{}话'.format(count))
            pat='共(.*?)页'
            total_page=re.search(pat,get_html(chapter)).group(1)
            for page in range(1,int(total_page)+1):
                pat1='<IMG SRC=(.*)></a>'
                src=re.search(pat1,get_html(chapter)).group(1)
                for item in src_list:
                    if item in src_list:
                        src=src.replace("+"+item+"+",'http://v2.kukudm.com/').replace('"','')            
                save_items(eval(src),count)
                print('第{}话第{}页爬取完成'.format(count,page))
                now_page=re.search('.*/(.*)\.htm',chapter).group(1)
                chapter=chapter.replace(str(now_page)+'.htm',str(page+1)+'.htm')
        except:
            print('未爬取到数据')
if __name__=='__main__':
    get_all_img()

最终爬取的漫画如下(这里仅作示例，只爬取了前10话的内容)：10话大概爬取了25分钟左右，算下来，爬完188话，也要7个多小时…后续可以用多进程方法加速一下爬取速度。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】

雪碧没气阿

关注

24
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
python爬取鬼灭漫画+简单JS分析

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。点击进入第一话后，分析网页源码，发现图片保存在a标签下的img中，但是需要爬取的src是用。最终爬取的漫画如下(
复制链接

扫一扫

专栏目录