自动化编程第十一章：自动下载所有XKCD漫画附anaconda安装（高度集成，数据分析和爬虫很适合）

最新推荐文章于 2021-09-15 10:50:00 发布

Curtain....1 s'T

最新推荐文章于 2021-09-15 10:50:00 发布

阅读量152

点赞数

分类专栏：笔记 python作业题文章标签： python

本文链接：https://blog.csdn.net/weixin_45109435/article/details/106262869

版权

python作业题同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

笔记

4 篇文章 0 订阅

订阅专栏

作业题目如下

XKCD极客漫画网上的照片进行爬爬取
根据pre这个按钮自动进入下一个漫画的链接进行下载
重复第一步第二步

解决思路

慢慢一步步先下载一个网页上需要的png图像，之后递归即可

import requests,bs4
from urllib import request
import chardet
import os
import time
timestart=time.time()
print('start'+str(timestart))
# #源码获得
# response = request.urlopen("http://xkcd.com")
# html = response.read()
# charset = chardet.detect(html)
# # 对该html进行编码的获取
# cha=charset['encoding']# 打印编码格式}'ascii'
# a=requests.get("http://xkcd.com").content
# print(a)
#下载图片的链接
# soup=bs4.BeautifulSoup(requests.get("http://xkcd.com").content,features='html.parser')
# c=soup.select('#comic img')
# for i in c:
#     print(i['src'])
# for i in c:
#    if i.getText()=='< Prev':
#       print(i['href'])
#       break
##地址为/html/body/div[2]/div[2]/img
# #下载手续
# b=requests.get("http://imgs.xkcd.com/comics/mbmbam.png").content
# with open('asd','wb') as f:
#     f.write(b)
# #下一页的链接
# soup=bs4.BeautifulSoup(a,features='html.parser')
# c=soup.select('.comicNav a')
# print(c)
# for i in c:
#    if i.getText()=='< Prev':
#       print(i['href'])
#       break
# #路径/html/body/div[2]/ul[1]/li[2]/a
# #循环
lisdata=[]
pic=[]
def xunhuan(src,n,j=0):
    a = requests.get(src).content.decode('ascii')
    soup = bs4.BeautifulSoup(a,features='html.parser')
    c = soup.select('.comicNav a')
    for i in c:
        if i.getText() == '< Prev':
            lisdata.append(i['href'])
            break
    j=j+1
    soup = bs4.BeautifulSoup(requests.get(src).content, features='html.parser')
    c = soup.select('#comic img')
    for i in c:
        pic.append(i['src'])
    if int(j)==int(n):
     return lisdata,pic
    else:
        xunhuan('https://xkcd.com'+lisdata[j-1], n,j)
xunhuan('https://xkcd.com',10)
# #下载
# #for i in data
'''得到的数据lisdata为图片编号，pic为下载图片的地址
lisdata
['/2315/']
pic
['//imgs.xkcd.com/comics/hair_growth_rate.png']'''
print(lisdata)
print(pic)
for i in range(len(pic)):
            with open('/home/roy/PycharmProjects/untitled/venv'+str(i)+'.png', 'wb') as f:
                print('downloading'+lisdata[i]+'on'+pic[i])
                f.write(requests.get('http:'+pic[i]).content)
                print('done'+lisdata[i])
print('time cost'+str(time.time()-timestart))

#first time cost time cost149.1481626033783

介绍一款软件anaconda（高度集成，数据分析和爬虫很适合）

使用界面

有丰富的教程
丰富教程和多样的应用
在这里插入图片描述

下载链接

https://www.anaconda.com/

爬坑注意事项：

UnboundLocalError: local variable ‘DISTRO_NAME’ referenced before assignment#关于此问题的解决，更改159行中的缩进问题
在这里插入图片描述

Curtain....1 s'T

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自动化编程第十一章：自动下载所有XKCD漫画附anaconda安装（高度集成，数据分析和爬虫很适合）

作业题目题目：请输入星期几的第一个字母来判断一下是星期几，如果第一个字母一样，则继续判断第二个字母。程序分析：用情况语句比较好，如果第一个字母一样，则判断用情况语句或if语句判断第二个字母。。程序源代码：...
复制链接

扫一扫