编程语言
文章平均质量分 72
Ramond.Z
欢迎访问个人网站https://ramondz.cn
展开
-
Scrapy框架基础
cmd操作指令 commands meaning bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates runspider...原创 2018-08-21 23:11:32 · 268 阅读 · 0 评论 -
基本库的使用——requests
requests库1) GET请求基本操作import requestsurl = 'https://www.baidu.com'response = requests.get(url)添加参数,头信息params = { 'kw':'Python', 'page':'1'}headers = { 'user-agent':'...原创 2018-08-21 17:38:17 · 325 阅读 · 0 评论 -
Scrapy框架爬虫项目:京东商城笔记本电脑信息爬取
一、创建Scrapy项目在cmd中输入一下指令创建一个新的scrapy项目及一个爬虫scrapy startproject JD_Goodscd JD_Goodsscrapy genspider -t basic goods jd.com二、容器设置在京东商城笔记本电脑分类下进入一个商品页面,在“”规格与包装”栏下可以看见该笔记本电脑的详细信息经过筛选,在item...原创 2018-08-10 21:36:13 · 2089 阅读 · 0 评论 -
利用动态渲染页面对京东笔记本电脑信息爬取
写在前面之前写过一个爬取京东商品的Scrapy爬虫项目,但是里面价格及评论数是通过逆向工程法获得的,在不使用代理ip的情况下,在爬取一定数量的商品后会被持续要求输入验证码。所以这里写出利用动态页面渲染对京东商品价格及评论数爬取的方法。 在之前的项目中,构造特殊请求获得的数据有:价格评论数好评度但由于好评度需要进入单个商品的页面才能获取,而利用动态渲染页面爬取数据其实是...原创 2018-08-24 11:14:32 · 1120 阅读 · 2 评论 -
基本库的使用——urllib库
urllib库1.导入对应模块:因为Python 3.*版本中将urllib和urllib2合并为urllib,所以直接import urllib.request2.使用 urllib.request.urlopen(url)打开并爬取一个网页这里将百度作为例子file = urllib.request.urlopen("http://www.baidu.c...原创 2018-08-21 10:10:51 · 321 阅读 · 0 评论 -
解析库使用
1)XPathXPath通过标签()提取信息→更适用于爬虫a.构造解析对象方法一:处理文本from lxml import etreetext = '''<ol class="carousel-indicators"> <li data-target="#myCarousel" data-slide-to="0" class="acti...原创 2018-08-23 09:31:07 · 333 阅读 · 0 评论 -
Python爬虫——查询英语四、六级成绩
今天出六级成绩,很多人在成绩出来之后的一段时间都查询不到自己的成绩。晚上有空就写了一个爬虫。首先进入查询四、六级成绩的网页,这里使用的是“http://cet.neea.edu.cn/cet”进入之后发现不能右键查看源代码,不过也没有关系,直接打开开发者工具 输入前两个信息后点击验证码输入框,发现出现两个新的GET请求 显然这是获取验证码的相关请求。点击第一个请求,可以发现验证...原创 2018-08-22 22:27:02 · 5912 阅读 · 10 评论 -
Matplotlib 入门
基本绘图import matplotlib.pyplot as pltplt.ylabel("Grade") #设置Y轴标签plt.plot([1,5,9,10,12,15], [3,2,7,9,0,1]) #(X轴,Y轴)plt.savefig('test', dpi=600) #另存为PNG文件,每英寸像素点为600plt.axis([-1, 10, 0, 12]...原创 2018-11-15 16:52:27 · 245 阅读 · 0 评论