利用爬虫技术翻页获取商品图片！！~

最新推荐文章于 2021-11-08 16:30:44 发布

天之交者

最新推荐文章于 2021-11-08 16:30:44 发布

阅读量442

点赞数

分类专栏： python 文章标签： python web crawler

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45450062/article/details/102905656

版权

本文介绍了如何使用Python爬虫获取京东网站的商品图片。通过分析URL结构和利用正则表达式提取图片链接，最终利用urllib下载图片到本地。过程中还涉及到URL编码和浏览器代理请求头的使用。

摘要由CSDN通过智能技术生成

2019.11.4
第二次打卡，今天就描述一下学了几天爬虫的心得吧：这次是想实现获取京东网页上的一些图片信息，可以后续使用（作产品展示或者数据集之类的），为了方便此次我们就爬取几页。

1.首先，我们需要导入以下爬虫要用的基本库（安装pip即可）：

import urllib.request
import re#正则
import random
keyname="卫衣"

2接着，我们要分析京东这个主页https://www.jd.com/（简单介绍下：网页的信息大多数都会被隐藏，只要按下F12就可以在元素中查看），在搜索栏中输入你想输入的信息keyname（例如卫衣），跳转完页面可以得到一个url（注意：重点来了）
https://search.jd.com/Search?keyword=%E5%8D%AB%E8%A1%A3&enc=utf-8&wq=%E5%8D%AB%E8%A1%A3&pvid=22d1118ac66e49a794bbacaa402b17ab

3.然后我门就分析url的结构，可以看出组成是由‘？'开始，然后字段=值&字段=值依次罗列，好了那我们就思考：可不可以去掉一些无用字段，同时保证链接信息的完整呢？于是我试了试，发现该url可以变成下面这样：

url="https://search.jd.com/Search?keyword="+key+"&enc=utf-8&page

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。