自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

python菜菜~博客

努力学习ing...

  • 博客(10)
  • 收藏
  • 关注

原创 matplotlib绘制散点图|直方图|条形图

都是实例1、假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?from matplotlib import pyplot as pltfrom matplotlib import font_managery_3 = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,...

2019-06-05 16:19:22 558

原创 matplotlib绘制折线图基础数据分析

1、10点到12点温度的变化import randomfrom matplotlib import pyplot as pltimport matplotlibfrom matplotlib import font_manager# 设置绘制图形支持中文, windows Linux Mac通用设置字体my_font = font_manager.FontProperties(fna...

2019-06-04 17:51:39 2037

原创 将selenium结合到scrapy爬虫框架

scrapy爬虫框架对于python爬虫工程师来说都不会陌生,scrapy是一个成熟的爬虫框架,为我们来爬取大型网站提供了便利,而selenium是进行自动化测试的能手,一般应用于js加载的网站,那么今天就来看一下将selenium结合到scrapy使用。1.在middlewarea里面进行插件调用:from scrapy.http import HtmlResponsefrom selen...

2019-05-27 15:52:48 1045

原创 完整项目|scrapy爬取伯乐在线保存数据完成

今天使用scrapy框架来爬取伯乐在线的文章内容,保存到数据库,需要注意的是在保存缩略图的时候可能会报错,这是因为python没有安装pillow模块,安装就好了,还用到了itemloader来进行item的优化,具体代码如下:程序主函数import scrapyimport reimport datetime, timefrom bo_bole.items import BoBoleI...

2019-05-16 17:43:58 283

原创 python爬虫request设置代理IP原理

在我们书写爬虫程序的时候,可能都多多少少会遇到ip被封的问题,或者说ip被限制的问题,那么就需要用到ip代理了,那么ip代理在request里面的原理究竟是怎么实现的呢?下面来了解一下。单个ip设置代理import urllib.requestdef create_handler(): url = 'http://httpbin.org/ip' # 添加代理 pro...

2019-05-09 14:57:07 4879

原创 python3中url中文转ascii码的介绍

以百度为例,一般都会在url后面有?wd=**** 的这种,但是往往我们复制下来以后就会显示%253D%25E4%25B8%这种格式,这是什么原因呢,原因就在于计算机其实是不识别我们输入的中文,需要把中文转码成ascii来让计算机识别,下面就带大家来了解一下如何手动让中文转ascii。import urllib.requestimport urllib.parseimport string...

2019-05-08 15:45:33 1903

原创 Scrapy爬虫结合Selenium爬取简书保存到Mysql

这是一个比较完整的项目,功能已经实现,可以保存到本地mysql,下面代码实现:爬虫主程序 spider:from scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom jianshu_spider.items import ArticleItemclass J...

2019-04-24 16:36:01 975 1

原创 Scrapy爬虫设置代理ip

在应用爬虫的时候我们经常会遇到ip被封的情况,这样我们想要的数据就不能及时下载下来,那么怎么办呢?当然是使用代理ip了,下面来看看scrapy中怎么使用代理ip。一、开放代理import randomclass IpProxyDownloadMiddleware(object): ''' 定义代理ip的类,这是开放代理的应用 ''' PROXIES = [ ...

2019-04-22 16:58:30 12094 2

原创 Scrapy爬虫更改请求头方法

在很多时候,我们在写爬虫的时候需要去修改爬虫的请求头,那么话不多说,下面代码开始在middlewares.py文件中创建请求头的列表,使用random函数来随机调用使用哪个请求头:middlewares.pyimport randomclass UserAgentDownloadMiddleware(object): ''' 下载器中间件 在发送下载之前要设置请求头...

2019-04-22 15:54:47 1646 1

原创 Scrapy爬虫更改请求头

在很多时候,我们在写爬虫的时候需要去修改爬虫的请求头,那么话不多说,下面代码开始在middlewares.py文件中创建请求头的列表,使用random函数来随机调用使用哪个请求头:middlewares.pyclass UserAgentDownloadMiddleware(object): ''' 下载器中间件 在发送下载之前要设置请求头 '''...

2019-04-22 15:27:53 1055

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除