爬虫爬取京东某类书籍图片并保存到本地

最新推荐文章于 2023-11-23 14:01:45 发布

叶片儿

最新推荐文章于 2023-11-23 14:01:45 发布

阅读量315

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43978056/article/details/106168377

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

python爬虫爬取京东某类书籍图片并保存到本地
完整代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import re
import urllib.request
import urllib.error
import urllib.parse


sum = 0
def craw(url,page):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36')
    html1 = urllib.request.urlopen(req).read()
    html1=str(html1)
    pat1 = '<div id="J_goodsList".+?<span class="clr"></span>'
    result1=re.compile(pat1).findall(html1)
    result1=result1[0]
    pat2 = '<img width="" height="" data-img="1" src="//(.+?[\.jpg|\.png])"'
    
    imagelist=re.compile(pat2).findall(result1)
    x=1
    global sum
    for imageurl in imagelist:
        imagename='E:/pythonProjects/paChong/jdBook/'+str(page)+'-'+str(x)+'.jpg'
        imageurl="http://"+imageurl

        try:
            urllib.request.urlretrieve(imageurl,filename=imagename)
        except urllib.error.URLError as e:
            if hasattr(e,'code') or hasattr(e,'reason'):
                x+=1

        print('成功爬取第%d页第%d张图片'%(page,x))
        x+=1
        sum+=1

for i in range(1,20):
    url='https://list.jd.com/list.html?cat=1713,3287,3805&page='+str(i)
    craw(url,i)
print('爬取结束，总共保存了%d张图'%sum)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

叶片儿 CSDN认证博客专家 CSDN认证企业博客

码龄6年

18: 原创

9万+: 周排名

103万+: 总排名

137万+: 访问

: 等级

1284: 积分

100: 粉丝

348: 获赞

187: 评论

1269: 收藏

私信

关注

热门文章

分类专栏

Webpack 1篇
深度学习 6篇
python 4篇
tensorflow 4篇
Vue.js 3篇
npm 4篇
Cordova 2篇
Android studio 1篇
TensorFlow.js 1篇
前端小知识 4篇

最新评论

python问题 Traceback (most recent call last)
sin²x+cos²x: Traceback (most recent call last): File "D:/py/day03/test9.6.1.py", line 14, in <module> printf(f'normal_price = {normal_price}') NameError: name 'printf' is not defined 请问有没有佬知道这个怎么解决
python问题 Traceback (most recent call last)
sin²x+cos²x: Traceback (most recent call last): File "D:/py/day03/test9.6.1.py", line 14, in <module> printf(f'normal_price = {normal_price}') NameError: name 'printf' is not defined
python问题 Traceback (most recent call last)
啸笑啸笑啸: ERROR: Could not find a version that satisfies the requirement snot.pipelines (from versions: none) ERROR: No matching distribution found for snot.pipelines
python问题 Traceback (most recent call last)
2401_86265885: Traceback (most recent call last): File "code.py", line 39, in <module> pgzrun.go() File "code.py", line 32, in on_key_down xue-=1 UnboundLocalError: local variable 'xue' referenced before assignment
python问题 Traceback (most recent call last)
筱世一: ValueError: Key backend: 'module://ipympl.backend_nbagg' is not a valid value for backend; supported values are ['gtk3agg', 'gtk3cairo', 'gtk4agg', 'gtk4cairo', 'macosx', 'nbagg', 'notebook', 'qtagg', 'qtcairo', 'qt5agg', 'qt5cairo', 'tkagg', 'tkcairo', 'webagg', 'wx', 'wxagg', 'wxcairo', 'agg', 'cairo', 'pdf', 'pgf', 'ps', 'svg', 'template', 'inline'] 这种怎么回事啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。