实例001_py：爬取京东收集图片

最新推荐文章于 2024-05-15 16:47:05 发布

zhuzongzhi856

最新推荐文章于 2024-05-15 16:47:05 发布

阅读量1.2k

点赞数

分类专栏：网络爬虫（Python3）

网络爬虫（Python3）专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、爬取目标

URL:https://list.jd.com/list.html?cat=9987,653,655

2、代码

import re
import urllib.request

def  craw(url, page):
    htmlMain = urllib.request.urlopen(url).read();
    htmlMain = str(htmlMain);
    pattern1 = '<div id="plist".+? <div class="page clearfix">';
    rst1 = re.compile(pattern1).findall(htmlMain);
    rst1 = rst1[0];
    pattern2 = '<img width="220" height="220" .+?//.+?\.jpg';
    imagelist = re.compile(pattern2).findall(rst1);

    x = 1;
    for imageurl in imagelist:
        imagename = "D:/python/精通Python网路爬虫实例/Cha6/image/"+str(page)+"_"+str(x)+".jpg";
        pattern3 = '//.+?\.jpg';
        imageurl = re.compile(pattern3).findall(imageurl);
        imageurl = "http:"+imageurl[0];
        try:
            urllib.request.urlretrieve(imageurl, filename=imagename);
        except urllib.error.URLError as e:
            if hasattr(e, 'code'):
                x+=1;
            if hasattr(e, 'reason'):
                x+=1;
        x+=1;

for i in range(1, 51):
    url = "https://list.jd.com/list.html?cat=9987,653,655&page=" + str(i);
    craw(url, i);

3、效果

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
实例001_py：爬取京东收集图片

实例001_py：爬取京东收集图片
复制链接

扫一扫

专栏目录

zhuzongzhi856 CSDN认证博客专家 CSDN认证企业博客

码龄7年

6: 原创

39万+: 周排名

83万+: 总排名

3万+: 访问

: 等级

409: 积分

3: 粉丝

13: 获赞

6: 评论

13: 收藏

私信

关注

热门文章

分类专栏

最新评论

实例001_py：爬取京东收集图片
M_A_R_: 哪个是保存路径？我把第15行的改成保存路径，不过没有实现
Sublime Text3 支持Less
zhuzongzhi856: HBuilder 上使用 less: 1、查看less插件是否已安装工具 -- 插件安装 -- 查看是否有less scss编译（node插件） 2、预编译器设置工具 -- 预编译器设置 -- 新建文件后缀： .less 触发命令地址： C:\Users\j\AppData\Roaming\npm\lessc.cmd 命令参数： %FileName% %FileBaseName%.css 点击智能完成 -- 确定 -- 确定 3、编译less文件，保存后在当前目录下自动生成相同名称的css文件；
Sublime Text3 支持Less
zhuzongzhi856: 出现 less2css error:[WinError 2] 系统找不到指定文件报错？说明 lessc没有安装，lessc -v 验证lessc是否安装。
Sublime Text3 支持Less
zhuzongzhi856: 注意事项： 1、sublime text3手动安装的插件可能会有冲突，此时把\Sublime Text3\Data\Packages目录下，手动添加的插件文件夹删除即可； 2、npm install less-plugin-clean-css 插件需要在\AppData\Roaming\npm 当前目录的cmd中执行； 3、装完后重启sublime，重启电脑；
url参数编码加密传输
zhuzongzhi856: 顺序：编码--加密--解密--解码加密前一定要先编码，因为window.btoa不能直接加密Unicode字符（中文）

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。