接上篇——从数据库中提取图片url并下载

最新推荐文章于 2022-11-28 16:37:04 发布

Kylo_Cheok

最新推荐文章于 2022-11-28 16:37:04 发布

阅读量2.7k

点赞数 1

分类专栏： python-spider 文章标签： python

本文链接：https://blog.csdn.net/zy714816/article/details/80970695

版权

python-spider 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

上篇我们成功抓取了天猫评论中的内容和图片，今天我写了个下载器，目的在于将保存在数据库中的图片url提取出来，并将这些图片下载到本地。

第一步，利用pymysql将所需的链接提取出来：

首先，链接数据库

conn = pymysql.connect(host="localhost", user="root", password="1409", port=3306, db="tmall", charset="utf8")

然后将我们所需的数据拿出来

    conn=connect_db()
    cursor=conn.cursor()
    sql='select flag,pics,appendpics from nikeshoes'
    cursor.execute(sql)
    imgs = cursor.fetchall()
    return  imgs

这里，我不仅拿了url，还将flag也拿出来了，这里的flag是序号，我数据库里有1000条信息，所以flag就是1到1000，拿这个信息的目的在于之后的图片命名，不然我哪知道下载下来的图片是哪条评论的。

第二步，对拿出来的信息进行筛选、格式补全

    for i in range(0, 1000):
        for j in (1, 2):  # 1:pics 2:appendpics
            if (imgs[i][j].strip() != ''):
                img_url = re.findall(r'//[^\s]*', imgs[i][j])
                for k in range(0, len(img_url)):
                    a = 'http:' + img_url[k].strip().strip('\']\,')

因为之前抓取信息时，将图片链接保存在一起了，导致发生三条图片url被当作一个url进行保存，所以我这里使用正则将每个url分离出来，分离后发现它作为下载链接还存在格式上的错误，所以用strip（）删除一些不要的字符并在最前面加上 http: ,这样a就是一个完整的可用于下载的图片链接

最后一步，下载

urllib.request.urlretrieve(a, 'D:/tmall_pics/' + str(imgs[i][0]) + '_' + str(j) + '_' + str(k) + '.jpg')
#imgs[i][0]为flag，说明该图片来自哪个评论，命名给规则为：序号为flag的评论 的第几个图片  或追加评论的第几个图片

为了识别图片来自哪条评论，这里做了特殊的命名规则

成果展示：