自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ZZPHOENIX的博客

欢迎访问个人网站: https://ramondz.cn

  • 博客(7)
  • 问答 (1)
  • 收藏
  • 关注

原创 利用动态渲染页面对京东笔记本电脑信息爬取

写在前面之前写过一个爬取京东商品的Scrapy爬虫项目,但是里面价格及评论数是通过逆向工程法获得的,在不使用代理ip的情况下,在爬取一定数量的商品后会被持续要求输入验证码。所以这里写出利用动态页面渲染对京东商品价格及评论数爬取的方法。 在之前的项目中,构造特殊请求获得的数据有:价格评论数好评度但由于好评度需要进入单个商品的页面才能获取,而利用动态渲染页面爬取数据其实是...

2018-08-24 11:14:32 1110 2

原创 解析库使用

1)XPathXPath通过标签()提取信息→更适用于爬虫a.构造解析对象方法一:处理文本from lxml import etreetext = '''<ol class="carousel-indicators"> <li data-target="#myCarousel" data-slide-to="0" class="acti...

2018-08-23 09:31:07 324

原创 Python爬虫——查询英语四、六级成绩

今天出六级成绩,很多人在成绩出来之后的一段时间都查询不到自己的成绩。晚上有空就写了一个爬虫。首先进入查询四、六级成绩的网页,这里使用的是“http://cet.neea.edu.cn/cet”进入之后发现不能右键查看源代码,不过也没有关系,直接打开开发者工具 输入前两个信息后点击验证码输入框,发现出现两个新的GET请求 显然这是获取验证码的相关请求。点击第一个请求,可以发现验证...

2018-08-22 22:27:02 5888 10

原创 Scrapy框架基础

cmd操作指令 commands meaning bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates runspider...

2018-08-21 23:11:32 255

原创 基本库的使用——requests

requests库1) GET请求基本操作import requestsurl = 'https://www.baidu.com'response = requests.get(url)添加参数,头信息params = { 'kw':'Python', 'page':'1'}headers = { 'user-agent':'...

2018-08-21 17:38:17 317

原创 基本库的使用——urllib库

urllib库1.导入对应模块:因为Python 3.*版本中将urllib和urllib2合并为urllib,所以直接import urllib.request2.使用 urllib.request.urlopen(url)打开并爬取一个网页这里将百度作为例子file = urllib.request.urlopen("http://www.baidu.c...

2018-08-21 10:10:51 310

原创 Scrapy框架爬虫项目:京东商城笔记本电脑信息爬取

一、创建Scrapy项目在cmd中输入一下指令创建一个新的scrapy项目及一个爬虫scrapy startproject JD_Goodscd JD_Goodsscrapy genspider -t basic goods jd.com二、容器设置在京东商城笔记本电脑分类下进入一个商品页面,在“”规格与包装”栏下可以看见该笔记本电脑的详细信息经过筛选,在item...

2018-08-10 21:36:13 2074

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除