过去，我买漫画看；现在，我用Python爬虫来看

最新推荐文章于 2024-03-18 15:54:29 发布

程序员王饱饱

最新推荐文章于 2024-03-18 15:54:29 发布

阅读量335

点赞数

分类专栏： python 文章标签： python 爬虫 Python入门网络爬虫

本文链接：https://blog.csdn.net/weixin_55154866/article/details/134092329

版权

python 专栏收录该内容

571 篇文章 25 订阅

订阅专栏

本文介绍了如何使用Python的requests和urllib库结合多线程技术，实现从网站上爬取并下载漫画。作者详细展示了获取网页链接、漫画名称和章节名称的步骤，并提供了完整的代码示例。

摘要由CSDN通过智能技术生成

原标题：运用Python多线程爬虫下载漫画

以前，我都是买漫画书看的，那个时候没有电脑。今天，我到网上看了一下，发现网上提供漫画看，但是时时需要网络啊！为什么不将它下载下来呢！

文章目录

- - 原标题：运用Python多线程爬虫下载漫画
  - - 1.怎样实现
    - - 1.1 爬取我们需要的数据(网页链接、漫画名称、漫画章节名称)
    - 2.完整代码
    - 3.总结

1.怎样实现

这个项目需要的模块有：requests、urllib、threading、os、sys
其中requests模块也可以不用，只要urllib模块即可，但我觉得requests模块爬取数据代码量少。
os模块主要是为了创建文件夹，sys主要是为了结束程序（当然，这里我只是判断是否已经存在我即将创建的文件夹，如果存在，我就直接结束程序了，这个位于代码的开头）。

1.1 爬取我们需要的数据(网页链接、漫画名称、漫画章节名称)

在这里插入图片描述
我爬取漫画的网址为：漫客栈
我们到搜索栏上输入一个漫画名称
我输入的是：斗破苍穹，点击搜索，可以看到这个界面：

对这个网址进行分析：https://www.mkzhan.com/search/?keyword={}
大括号代表的内容就是我们输入的漫画名称，我们只要这样组合，就可以得到这个网址：

from urllib import parse

_name=input('请输入你想看的漫画:')
name_=parse.urlencode({'keyword':_name})
url='https://www.mkzhan.com/search/?{}'.format(name_)

之后，就是对这个网址下面的内容进行爬取了，这个过程很容易，我就不讲了。
我们点击一下其中的一本漫画，来到这个界面
在这里插入图片描述
这个网址，需要我们从上一个网址中得到并进行拼接，我们需要得到这个网址下面的漫画所有章节的链接和名称。
我们按F12来到开发者工具：
可以发现这些章节的内容在这个标签下面：

html1=requests.get(url=url1)
content1=html1.text
soup1=BeautifulSoup(content1,'lxml')
str2=soup1.select('ul.chapter__list-box.clearfix.hide')[0]
list2=str2.select('li>a')
name1=[]
href1=[]
for str3 in list2:
    href1.append(str3['data-hreflink'])   # 漫画一章的链接
    name1.append(str3.get_text().strip()) # 漫画一章的题目,去空格

这样我们就可以得到我们想要的内容了，我们点击其中的一章进入，发现里面只不过是一些图片罢了，我们只需把这些图片下载下来就行了。
在这里插入图片描述
代码运行结果：

下载完成之后，会在同一个文件夹下面多出一个文件夹，文件夹的名称为你输入漫画名称，这个文件夹下面会有很多文件夹，这些文件夹的名称是漫画章节的名称。

2.完整代码

import requests
from urllib import parse
from bs4 import BeautifulSoup
import threading
import os
import sys

_name=input('请输入你想看的漫画:')

try:
    os.mkdir('./{}'.format(_name))
except:
    print('已经存在相同的文件夹了,程序无法在继续进行！')
    sys.exit()

name_=parse.urlencode({'keyword':_name})
url='https://www.mkzhan.com/search/?{}'.format(name_)
html=requests.get(url=url)
content=html.text
soup=BeautifulSoup(content,'lxml')
list1=soup.select('div.common-comic-item')
names=[]
hrefs=[]
keywords=[]
for str1 in list1:
    names.append(str1.select('p.comic__title>a')[0].get_text())   # 匹配到的漫画名称
    hrefs.append(str1.select('p.comic__title>a')[0]['href'])      # 漫画的网址
    keywords.append(str1.select('p.comic-feature')[0].get_text())          # 漫画的主题
print('匹配到的结果如下：')
for i in range(len(names)):
    print('【{}】-{}     {}'.format(i+1,names[i],keywords[i]))

i=int(input('请输入你想看的漫画序号:'))
print('你选择的是{}'.format(names[i-1]))


url1='https://www.mkzhan.com'+hrefs[i-1]      # 漫画的链接
html1=requests.get(url=url1)
content1=html1.text
soup1=BeautifulSoup(content1,'lxml')
str2=soup1.select('ul.chapter__list-box.clearfix.hide')[0]
list2=str2.select('li>a')
name1=[]
href1=[]
for str3 in list2:
    href1.append(str3['data-hreflink'])   # 漫画一章的链接
    name1.append(str3.get_text().strip()) # 漫画一章的题目,去空格

def Downlad(href1,path):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400'}
    url2='https://www.mkzhan.com'+href1
    html2=requests.get(url=url2,headers=headers)
    content2=html2.text
    soup2=BeautifulSoup(content2,'lxml')
    list_1=soup2.select('div.rd-article__pic.hide>img.lazy-read')  # 漫画一章中的所有内容列表
    urls=[]
    for str_1 in list_1:
        urls.append(str_1['data-src'])

    for i in range(len(urls)):
        url=urls[i]
        content3=requests.get(url=url,headers=headers)
        with open(file=path+'/{}.jpg'.format(i+1),mode='wb') as f:
            f.write(content3.content)
    return True


def Main_Downlad(href1:list,name1:list):
    while True:
        if len(href1)==0:
            break
        href=href1.pop()
        name=name1.pop()
        try:
            path='./{}/{}'.format(_name,name)
            os.mkdir(path=path)
            if Downlad(href, path):
                print('线程{}正在下载章节{}'.format(threading.current_thread().getName(),name))
        except:
            pass

threading_1=[]
for i in range(30):
    threading1=threading.Thread(target=Main_Downlad,args=(href1,name1,))
    threading1.start()
    threading_1.append(threading1)
for i in threading_1:
    i.join()
print('当前线程为{}'.format(threading.current_thread().getName()))

3.总结

我觉得这个程序还有很大的改进空间，如做一个ip代理池，这样再也不用担心ip被封了，另外，还可以做一个自动播放漫画图片的程序，这样就可以减少一些麻烦了。
注意:本程序代码仅供娱乐和学习，且莫用于商业活动，一经发现，概不负责。
如果大家觉得这个还可以的话，记得给我点一个小小的赞。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，Python自动化测试学习等教程。带你从零基础系统性的学好Python！

一、Python学习大纲

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

二、Python必备开发工具

在这里插入图片描述

三、入门学习视频

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。在这里插入图片描述

五、python副业兼职与全职路线

在这里插入图片描述

上述这份完整版的Python全套学习资料已经上传CSDN官方，如果需要可以微信扫描下方CSDN官方认证二维码即可领取

👉[[CSDN大礼包：《python兼职资源&全套学习资料》免费分享]]（安全链接，放心点击）

程序员王饱饱

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
过去，我买漫画看；现在，我用Python爬虫来看

原标题：运用Python多线程爬虫下载漫画以前，我都是买漫画书看的，那个时候没有电脑。今天，我到网上看了一下，发现网上提供漫画看，但是时时需要网络啊！为什么不将它下载下来呢！文章目录原标题：运用Python多线程爬虫下载漫画1.怎样实现1.1 爬取我们需要的数据(网页链接、漫画名
复制链接

扫一扫

专栏目录