- 博客(7)
- 问答 (1)
- 收藏
- 关注
原创 利用动态渲染页面对京东笔记本电脑信息爬取
写在前面之前写过一个爬取京东商品的Scrapy爬虫项目,但是里面价格及评论数是通过逆向工程法获得的,在不使用代理ip的情况下,在爬取一定数量的商品后会被持续要求输入验证码。所以这里写出利用动态页面渲染对京东商品价格及评论数爬取的方法。 在之前的项目中,构造特殊请求获得的数据有:价格评论数好评度但由于好评度需要进入单个商品的页面才能获取,而利用动态渲染页面爬取数据其实是...
2018-08-24 11:14:32 1110 2
原创 解析库使用
1)XPathXPath通过标签()提取信息→更适用于爬虫a.构造解析对象方法一:处理文本from lxml import etreetext = '''<ol class="carousel-indicators"> <li data-target="#myCarousel" data-slide-to="0" class="acti...
2018-08-23 09:31:07 324
原创 Python爬虫——查询英语四、六级成绩
今天出六级成绩,很多人在成绩出来之后的一段时间都查询不到自己的成绩。晚上有空就写了一个爬虫。首先进入查询四、六级成绩的网页,这里使用的是“http://cet.neea.edu.cn/cet”进入之后发现不能右键查看源代码,不过也没有关系,直接打开开发者工具 输入前两个信息后点击验证码输入框,发现出现两个新的GET请求 显然这是获取验证码的相关请求。点击第一个请求,可以发现验证...
2018-08-22 22:27:02 5888 10
原创 Scrapy框架基础
cmd操作指令 commands meaning bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates runspider...
2018-08-21 23:11:32 255
原创 基本库的使用——requests
requests库1) GET请求基本操作import requestsurl = 'https://www.baidu.com'response = requests.get(url)添加参数,头信息params = { 'kw':'Python', 'page':'1'}headers = { 'user-agent':'...
2018-08-21 17:38:17 317
原创 基本库的使用——urllib库
urllib库1.导入对应模块:因为Python 3.*版本中将urllib和urllib2合并为urllib,所以直接import urllib.request2.使用 urllib.request.urlopen(url)打开并爬取一个网页这里将百度作为例子file = urllib.request.urlopen("http://www.baidu.c...
2018-08-21 10:10:51 310
原创 Scrapy框架爬虫项目:京东商城笔记本电脑信息爬取
一、创建Scrapy项目在cmd中输入一下指令创建一个新的scrapy项目及一个爬虫scrapy startproject JD_Goodscd JD_Goodsscrapy genspider -t basic goods jd.com二、容器设置在京东商城笔记本电脑分类下进入一个商品页面,在“”规格与包装”栏下可以看见该笔记本电脑的详细信息经过筛选,在item...
2018-08-10 21:36:13 2074
空空如也
python selenium执行js语句时返回为空的问题?
2019-04-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人