python菜菜～-CSDN博客

原创 matplotlib绘制散点图|直方图|条形图

都是实例1、假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?from matplotlib import pyplot as pltfrom matplotlib import font_managery_3 = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,...

2019-06-05 16:19:22 558

原创 matplotlib绘制折线图基础数据分析

1、10点到12点温度的变化import randomfrom matplotlib import pyplot as pltimport matplotlibfrom matplotlib import font_manager# 设置绘制图形支持中文， windows Linux Mac通用设置字体my_font = font_manager.FontProperties(fna...

2019-06-04 17:51:39 2037

scrapy爬虫框架对于python爬虫工程师来说都不会陌生，scrapy是一个成熟的爬虫框架，为我们来爬取大型网站提供了便利，而selenium是进行自动化测试的能手，一般应用于js加载的网站，那么今天就来看一下将selenium结合到scrapy使用。1.在middlewarea里面进行插件调用：from scrapy.http import HtmlResponsefrom selen...

2019-05-27 15:52:48 1045

原创完整项目|scrapy爬取伯乐在线保存数据完成

今天使用scrapy框架来爬取伯乐在线的文章内容，保存到数据库，需要注意的是在保存缩略图的时候可能会报错，这是因为python没有安装pillow模块，安装就好了，还用到了itemloader来进行item的优化，具体代码如下：程序主函数import scrapyimport reimport datetime, timefrom bo_bole.items import BoBoleI...

2019-05-16 17:43:58 283

原创 python爬虫request设置代理IP原理

在我们书写爬虫程序的时候，可能都多多少少会遇到ip被封的问题，或者说ip被限制的问题，那么就需要用到ip代理了，那么ip代理在request里面的原理究竟是怎么实现的呢？下面来了解一下。单个ip设置代理import urllib.requestdef create_handler(): url = 'http://httpbin.org/ip' # 添加代理 pro...

2019-05-09 14:57:07 4879

原创 python3中url中文转ascii码的介绍

以百度为例，一般都会在url后面有?wd=**** 的这种，但是往往我们复制下来以后就会显示%253D%25E4%25B8%这种格式，这是什么原因呢，原因就在于计算机其实是不识别我们输入的中文，需要把中文转码成ascii来让计算机识别，下面就带大家来了解一下如何手动让中文转ascii。import urllib.requestimport urllib.parseimport string...

2019-05-08 15:45:33 1903

原创 Scrapy爬虫结合Selenium爬取简书保存到Mysql

这是一个比较完整的项目，功能已经实现，可以保存到本地mysql，下面代码实现：爬虫主程序 spider:from scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom jianshu_spider.items import ArticleItemclass J...

2019-04-24 16:36:01 975 1

原创 Scrapy爬虫设置代理ip

在应用爬虫的时候我们经常会遇到ip被封的情况，这样我们想要的数据就不能及时下载下来，那么怎么办呢？当然是使用代理ip了，下面来看看scrapy中怎么使用代理ip。一、开放代理import randomclass IpProxyDownloadMiddleware(object): ''' 定义代理ip的类,这是开放代理的应用 ''' PROXIES = [ ...

2019-04-22 16:58:30 12094 2

原创 Scrapy爬虫更改请求头方法

在很多时候，我们在写爬虫的时候需要去修改爬虫的请求头，那么话不多说，下面代码开始在middlewares.py文件中创建请求头的列表，使用random函数来随机调用使用哪个请求头：middlewares.pyimport randomclass UserAgentDownloadMiddleware(object): ''' 下载器中间件在发送下载之前要设置请求头...

2019-04-22 15:54:47 1646 1

原创 Scrapy爬虫更改请求头

在很多时候，我们在写爬虫的时候需要去修改爬虫的请求头，那么话不多说，下面代码开始在middlewares.py文件中创建请求头的列表，使用random函数来随机调用使用哪个请求头：middlewares.pyclass UserAgentDownloadMiddleware(object): ''' 下载器中间件在发送下载之前要设置请求头 '''...

2019-04-22 15:27:53 1055

python菜菜~博客