![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python
以实战为主
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
小码农叔叔
这个作者很懒,什么都没留下…
展开
-
matplotlib绘制图形
为什么使用matplotlibmatplotlib是python中一款功能非常强大的绘图组件,可以根据给定的数据绘制出多种不同的形状,比如直方图、条形图、柱状图、散点图等,就像前端的echart那样,可以将分析后的数据使用形状展示出来,通过图形更加直观的展现出数据内在的规律和趋势matplotlib通常是数据分析的最后一环,通过python其他的工具对数据进行处理之后,再使用matplotli...原创 2020-01-04 21:47:44 · 5620 阅读 · 0 评论 -
pandas数据聚合与分组
前言数据聚合于分组操作在众多的关系型或非关系型库中都有涉及,大体原理都是类似,根据某个或者多个业务字段将获取到的数据进行聚合操作或者分组操作,pandas提供了非常友好的分组聚合功能,可以方便使用人员对数据进行不同维度的聚合分组操作API简要说明构造一个DataFrame的数据import numpy as npimport pandas as pddf=pd.DataFrame({...原创 2020-01-13 21:46:49 · 6523 阅读 · 0 评论 -
pandas切片操作
在得到数据后,经常需要对数据进行提取、分析和使用,提取数据过程中难免要对数据进行各种切片操作,根据具体的业务需求筛选出所需的数据,pandas提供了一些方法方便我们选取数据,下面主要讲解dataFrame类型的数据选取,Series类型用法类似,可以参考官方文档进行更细致的探究pandas主要提供了三种属性用来选取行/列数据属性名属性ix根据整数索引或者行标签选取数据...原创 2020-01-09 16:17:38 · 18530 阅读 · 0 评论 -
selenium模拟登陆去哪儿网
序言在模拟网页的表单登陆的时候,比较头疼的一个问题就是图片验证码的情况,碰到了验证码,比如像普通的文字图片类型的验证码,目前一个比较好的思路就是,通过selenium自身提供的截图功能,对指定的图片验证码区域进行截图,然后进行识别,最后填充表单进行登陆网上不少资料关于验证码识别登陆这一块,都没有一个比较完整的可参考的代码,下面说说我的具体解决思路和过程代码思路1、登陆网页截图并保存2、找...原创 2019-12-15 23:02:58 · 794 阅读 · 0 评论 -
selenium模拟登陆豆瓣网
前言随着网站安全做的越来越好,不少网站,直接去爬取数据是无法爬出来的,必须要验证登陆,即登陆之后才能做后面的操作,因此需要解决的第一步就是登陆登陆的常用方式:1、使用request库,模拟post请求2、使用框架自己集成的,比如在使用scrapy的时候,可以直接模拟登陆3、使用selenium模拟浏览器登陆前两种之前有大概的分享,下面使用selenium的方式模拟登陆selenium...原创 2019-12-15 16:52:17 · 6284 阅读 · 0 评论 -
python多线程插入1万条数据
前言在业务中,经常碰到需要从外部批量读取数据然后导入到mysql等数据库的操作,通常情况下,我们使用一个insert语句就可以完成,但在数据量为上万甚至百万的时候,这样做是不是太耗时了呢?下面我们先来看一个简单的案例,在数据库中我们提前建立了一个表,将通过程序导入10000条数据到这张表,方式1:单线程insert# -*- coding:utf-8 -*-import timefr...原创 2019-11-30 13:21:40 · 10189 阅读 · 2 评论 -
python使用百度OCR图片验证码
在爬取网站的时候都遇到过验证码,有什么方法可以让程序帮我们识别验证码呢?其实网上已有很多打码平台,但是这些都是需要money,像阿里云平台的,以前大概是每分钱1次,现在价格有点小贵,但对于仅仅爬取点数据而接入打码平台实属浪费。发现百度云上面有免费ocr正好可以利用,API也基本可以满足日常的使用,对于单个应用每天可以调500次,对于测试来说够了登录至控制台,找到文字识别一栏然后创建一个应用吧...原创 2019-11-17 14:45:55 · 1656 阅读 · 0 评论 -
scrapy模拟登陆人人网
首先我们简单分析下人人网的登录时的参数其实最重要的就是form data的那部分,即我们在向人人网发送登录的POST请求时候必传的一些参数,一目了然的展现出来,其中有几个参数是固定的,email,origURL,domain,key_id,rkey在一定的时间内也是固定的,最后还剩下一个验证码需要解决,即icode,为了演示方便,这里我们通过提取到这个验证码的链接保存本地,并通过手动输入的方...原创 2019-11-17 11:48:13 · 5680 阅读 · 0 评论 -
scrapy爬取汽车之家宝马5系图片
需求分析我们想在汽车之家官网上爬取宝马5系的部分图片,并根据分类保存到本地磁盘欣赏,进入这个页面,分析发现,是按照多个维度进行分类的,因此我们要提取图片的时候,需要依次遍历没每个分类,然后在进入到每个分类,把相应分类的图片爬下来Html结构分析我们通过F12分析一下html代码,发现没每个分类的名称是放在class=‘uibox’ 这个里面,然后再在每个分类中,用ul标签包着当前分类的所...原创 2019-11-10 17:20:20 · 972 阅读 · 0 评论 -
scrapy使用crawlspider
crawlspider介绍CrawlSpider它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则Rule来提供跟进链接的方便的机制,从爬取的网页结果中获取链接并继续爬取的工作举个简单的例子说明,我们需要提取下面的网站中每篇文章中的一些数据,如果每一页提取,只能提取基本的数据,而文章的作者,标题,内容,评论等信息都...原创 2019-11-03 21:44:39 · 5609 阅读 · 0 评论 -
scrapy爬取多页面
前言使用scrapy的目的是方便爬虫人员通过scrapy框架编写简单的代码,提取需要爬取的网站上有用的数据,其框架底层已经对爬虫的过程做了大量的逻辑处理,而爬虫人员只需按照指定的规则使用即可,个人觉得这其中最麻烦的工作在于分析要提取的网站html结构,然后使用解析器解析出需要的字段数据在上一篇中,我们学会了使用scrapy爬取一个简单的网页,但那个是单页面的数据,现实中,很多网站的数据都是分页...原创 2019-11-03 18:50:21 · 6774 阅读 · 0 评论 -
scrapy爬取某网站文章
scrapy简单介绍scrapy是一款优秀的python爬虫框架,使用scrapy可以很容易也很高效的爬取某些网站的大批量数据,由于scrapy框架底层对爬虫要做的工作做了很多集成和封装,因此对于开发人员来讲,只需要搞清楚scrapy爬虫的原理,使用的技巧以及运行时各个组件的作用,然后基于各个组件最终爬取到的数据是如何处理的,掌握这些即可,业务代码和爬取到的数据处理,比如将爬取的数据是写到本地磁...原创 2019-10-26 22:41:37 · 1556 阅读 · 0 评论 -
Django操作mysql数据库增删改查
一、Django是什么Python下有许多不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。Django是一个开放源代码的Web应用框架,由Python写成。Django遵守BSD版权,初次发布于2005年7月, 并于2008年9月发布了第一个正式版本1.0 。Django采用了MVC的软件设计模式,即模型M,视图V和控制器C。...原创 2019-10-07 18:29:06 · 8843 阅读 · 1 评论 -
python增删改查
python作为一门服务端语言,操作数据库也是经常需要用到的,只有和数据库进行打交道了,才能真正发挥数据的作用,下面用几个简单的小程序演示一下python操作mysql简单的增删改查过程和大多数后端语言一样,连接数据库的话第一步肯定是要配置连接数据库的基本信息啊,比如在...原创 2019-09-22 19:58:06 · 6306 阅读 · 0 评论 -
python读取excel数据到mysql
最近工作中需要临时将外部的excel数据导入到自己公司的系统中,作为原始的数据进行后续处理,一开始打算写一段程序进行处理的,想想还是放弃了,因为java程序读取excel的数据到mysql总体来说还是比较麻烦的,而且字段要一一对应上,如果是字段特别多,碰巧表也特别多的时候,这个工作量就比较大了,而且极其容易出错excel生成批量sql语句小编听说excel可以可以通过简单的函数生成批量的sql...原创 2019-09-10 18:20:18 · 10194 阅读 · 0 评论