2019.11.4
第二次打卡,今天就描述一下学了几天爬虫的心得吧:这次是想实现获取京东网页上的一些图片信息,可以后续使用(作产品展示或者数据集之类的),为了方便此次我们就爬取几页。
1.首先,我们需要导入以下爬虫要用的基本库(安装pip即可):
import urllib.request
import re#正则
import random
keyname="卫衣"
2接着,我们要分析京东这个主页https://www.jd.com/(简单介绍下:网页的信息大多数都会被隐藏,只要按下F12就可以在元素中查看),在搜索栏中输入你想输入的信息keyname(例如卫衣),跳转完页面可以得到一个url(注意:重点来了)
https://search.jd.com/Search?keyword=%E5%8D%AB%E8%A1%A3&enc=utf-8&wq=%E5%8D%AB%E8%A1%A3&pvid=22d1118ac66e49a794bbacaa402b17ab
3.然后我门就分析url的结构,可以看出组成是由‘?'开始,然后字段=值&字段=值依次罗列,好了那我们就思考:可不可以去掉一些无用字段,同时保证链接信息的完整呢?于是我试了试,发现该url可以变成下面这样:
url="https://search.jd.com/Search?keyword="+key+"&enc=utf-8&page