利用爬虫技术翻页获取商品图片!!~

本文介绍了如何使用Python爬虫获取京东网站的商品图片。通过分析URL结构和利用正则表达式提取图片链接,最终利用urllib下载图片到本地。过程中还涉及到URL编码和浏览器代理请求头的使用。
摘要由CSDN通过智能技术生成

2019.11.4
第二次打卡,今天就描述一下学了几天爬虫的心得吧:这次是想实现获取京东网页上的一些图片信息,可以后续使用(作产品展示或者数据集之类的),为了方便此次我们就爬取几页。

1.首先,我们需要导入以下爬虫要用的基本库(安装pip即可):

import urllib.request
import re#正则
import random
keyname="卫衣"

2接着,我们要分析京东这个主页https://www.jd.com/(简单介绍下:网页的信息大多数都会被隐藏,只要按下F12就可以在元素中查看),在搜索栏中输入你想输入的信息keyname(例如卫衣),跳转完页面可以得到一个url(注意:重点来了)
https://search.jd.com/Search?keyword=%E5%8D%AB%E8%A1%A3&enc=utf-8&wq=%E5%8D%AB%E8%A1%A3&pvid=22d1118ac66e49a794bbacaa402b17ab

3.然后我门就分析url的结构,可以看出组成是由‘?'开始,然后字段=值&字段=值依次罗列,好了那我们就思考:可不可以去掉一些无用字段,同时保证链接信息的完整呢?于是我试了试,发现该url可以变成下面这样:

url="https://search.jd.com/Search?keyword="+key+"&enc=utf-8&page
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值