![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python+大数据
文章平均质量分 78
叩丁狼
用心做教育,专注每一位学员的成长
展开
-
HBase极简入门
本文作者:林伟兵,叩丁狼高级讲师。原创文章,转载请注明出处。1. HBase概述 自1970年以来,RDBMS是数据存储和维护相关问题的解决方案。大数据出现后,公司意识到处理大数据的好处,并开始选择Hadoop等解决方案。其使用分布式文件系统来存储大数据,而MapReduce来处理它。Hadoop擅长存储和处理各种格式的巨大数据,如任意,半或甚至非结构化。 Hadoop只能执行批处理...原创 2019-04-19 17:05:29 · 383 阅读 · 0 评论 -
Python代码调试
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 调试程序能一次写完并正常运行的概率很小,基本不超过1%。总会有各种各样的bug需要修正。有的bug很简单,看看错误信息就知道,有的bug很复杂,我们需要知道出错时,哪些变量的值是正确的,哪些变量的值是错误的,因此,需要一整套调试程序的手段来修复bug。第一种方法简单直接粗暴有效,就是用print()把可能有问题的变...原创 2018-11-01 14:15:28 · 9661 阅读 · 0 评论 -
Python异常处理
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 使用except而不带任何异常类型你可以不带任何异常类型使用except,如下实例: try: 正常的操作 ......................except: 发生异常,执行这块代码 ......................else: 如果没有异常执行这块代码 以上方式t...原创 2018-10-23 18:08:58 · 176 阅读 · 0 评论 -
Python异常处理入门
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 什么是异常?异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。 一般情况下,在Python无法正常处理程序时就会发生一个异常。 异常是Python对象,表示一个错误。 当Python脚本发生异常时我们需要捕获处理它,否则程序会终止执行。 异常处理 捕捉异常...原创 2018-10-23 18:07:23 · 269 阅读 · 0 评论 -
调度框架Azkaban快速入门
作者:林伟兵 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 1. Azkaban概述Azkaban技术产生前景: 在大数据分析场景中,以ETL( Extract抽取 -Transform交互转换 -Load加载 )为例 ,数据的操作包含了如下流程:RDBMS ==>Sqoop ==>Hadoop ==>Sqoop ==>RDBMS/NoSQL/....原创 2018-10-17 16:06:25 · 517 阅读 · 0 评论 -
Python实现工厂模式
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 首先,什么是工厂模式?工厂模式是一个在软件开发中用来创建对象的设计模式。工厂模式包涵一个超类。这个超类提供一个抽象化的接口来创建一个特定类型的对象,而不是决定哪个对象可以被创建。为了实现此方法,需要创建一个工厂类创建并返回。当程序运行输入一个“类型”的时候,需要创建于此相应的对象。这就用到了工厂模式。在...原创 2018-10-22 10:51:09 · 1890 阅读 · 1 评论 -
Python中的类属性和对象属性
作者:黎智煊 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 在了解了类基本的东西之后,下面看一下python中这几个概念的区别先来谈一下类属性和实例属性在前面的例子中我们接触到的就是实例属性(对象属性),顾名思义,类属性就是类对象所拥有的属性,它被所有类对象的实例对象所共有,在内存中只存在一个副本,这个和C++中类的静态成员变量有点类似。对于公有的类属性,在类外可以通过类...原创 2018-10-22 10:49:40 · 652 阅读 · 0 评论 -
Python中的类方法和静态方法
作者:黎智煊 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 类方法是类对象所拥有的方法,需要用修饰器@classmethod来标识其为类方法,对于类方法,第一个参数必须是类对象,一般以cls作为第一个参数(当然可以用其他名称的变量作为其第一个参数,但是大部分人都习惯以'cls'作为第一个参数的名字,就最好用'cls'了),能够通过实例对象和类对象去访问。class Pe...原创 2018-10-22 10:47:46 · 1882 阅读 · 0 评论 -
Azkaban的安装
作者:林伟兵 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 4. Azkaban-solo-server安装在上一节的讲解中,我们已经完成Azkaban各个模块的编译。如下:$AZKABAN_SOURCE_HOME/azkaban-solo-server/build/distributions/*.tar.gz(zip)$AZKABAN_SOURCE_HOME/azk...原创 2018-10-18 13:19:08 · 165 阅读 · 0 评论 -
Python中的闭包
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。 什么是闭包?闭包有什么用?为什么要用闭包?今天我们就带着这3个问题来一步一步认识闭包。闭包和函数紧密联系在一起,介绍闭包前有必要先介绍一些背景知识,诸如嵌套函数、变量的作用域等概念 作用域 作用域是程序运行时变量可被访问的范围,定义在函数内的变量是局部变量,局部变量的作用范围只能是函数内部范围内,它不能在函数外引用。 ...原创 2018-09-29 18:28:37 · 201 阅读 · 0 评论 -
Python包机制
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。 在介绍包机制,首先再次回顾一下关于python的模块知识. Python 模块 Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。 模块让你能够有逻辑地组织你的 Python 代码段。 把相关的代码分配到一个模块里能让你的代码更好用,...原创 2018-09-29 18:19:16 · 667 阅读 · 0 评论 -
python-列表生成式(一)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。列表生成式顾名思义,列表生成式就是一个用来生成列表的特定语法形式的表达式。例如我们需要生成一个列表,由0到9组成,那我们就可以这样写:list1 = [0,1,2,3,4,5,6,7,8,9]感觉,手动写这10个数字还好,但是,有时候,测试算法或者函数什么的,这样手动去写,是不是太累了??有没有更加方便的方法.?...原创 2018-12-06 10:01:22 · 2551 阅读 · 0 评论 -
python-map/reduce函数的应用
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。map()和reduce()函数上次我们说了python的列表生成,可以很方便用很少代码,去取代相同的功能但需要写比较重复的代码,现在我们讲一下,python另外一对比较好用的高级函数.Python内建了map()和reduce()函数。map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的...原创 2018-12-06 10:03:50 · 599 阅读 · 0 评论 -
python-filter()函数
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。filter()函数Python内建的filter()函数用于过滤序列。和map()类似,filter()也接收一个函数和一个序列。和map()不同的是,filter()把传入的函数依次作用于每个元素,然后根据返回值是True还是False决定保留还是丢弃该元素。例如,在一个list中,删掉偶数,只保留奇数,可以这么写...原创 2018-12-06 10:04:45 · 278 阅读 · 0 评论 -
Hadoop压缩
本文作者:林伟兵,叩丁狼高级讲师。原创文章,转载请注明出处。1. 概述 随着大数据时代的来临,数据体量越来越大,处理这些数据会越来越受到网络IO的限制,为了尽可能多的处理更多的数据我们必须使用压缩。 压缩技术能够有效减少底层存储系统(HDFS) 读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在...原创 2019-04-19 17:03:33 · 262 阅读 · 0 评论 -
python-网络-tcp的几种状态介绍(二)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。tcp的4次挥手(分手)协议叩丁狼教育.png通俗的4次挥手讲解 第一次挥手:双方交流的差不多了,此时客户端也已经结尾了,接下来要断开通信连接,所以告诉服务端“我说完了(FIN)”,此时自身形成等待结束连接的状态。 第二次挥手:服务端知道客户端已经没话说了,服务端此时还有两句心里话要给客户端说,“我知道...原创 2018-12-11 09:59:34 · 610 阅读 · 0 评论 -
python-网络-tcp的几种状态介绍(一)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。之前介绍了很多的udp的原理和例子,现在稍微总结一下之前的tcp和udp的区别,以便更好地接下来的tcp介绍.tcp和udp的小区别 TCP面向连接(如打电话要先拨号建立连接);UDP是无连接的,即发送数据之前不需要建立连接 TCP提供可靠的服务。也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按...原创 2018-12-11 09:57:50 · 412 阅读 · 0 评论 -
python-网络编程-模拟聊天室
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。udp应用:echo服务器模拟的是设置一个服务器,一旦有客户端发送数据到服务端,服务端马上响应消息给客户端,类似机器人自动回复.参考代码#coding=utf-8from socket import *#1. 创建套接字udpSocket = socket(AF_INET, SOCK_DGRAM)#2. ...原创 2018-12-11 09:57:10 · 1020 阅读 · 0 评论 -
python-tcp/ip网络编程-网络调试助手的使用
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。网络调试助手的使用俗话说,好马配好鞍,今天我们来简单认识一下几个平台的网络助手如何使用.先说一下,假如不是用外部图形化工具的情况下, 我们如何捕获一些网络数据.现在假设一下你正在使用基于BSD,LINUX,UNIX或者MAC OS X,那么你可以利用nc命令进行网络测试,比如说,你用nc监听了一个本地的8889端口,然后...原创 2018-12-11 09:55:34 · 5053 阅读 · 0 评论 -
Oracle监听配置讲解
本文作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。很多使用Oracle的朋友遇到最多的问题就是Oracle数据库已经安装完成, 但是在使用Oracle客户端pl/sql等工具却怎么都连接不上去, 如果遇到这种问题, 请好好看下这篇文章,必有收获.在这里我们简单说明一下对于oracle的网络配置基础, 主要简单介绍基本流程和两个常用的文件listener.ora和tnsname...原创 2018-12-07 14:49:33 · 1719 阅读 · 0 评论 -
python-tcp/ip网络编程认识(四)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。udp的介绍前面我们说了很多的知识都是关于tcp的知识点,但是,其实与tcp相对来说不同的还有就是也是非常重要的udp了. UDP --- 用户数据报协议 是一个无连接的简单的面向数据报的运输层协议。UDP不提供可靠性,它只是把应用程序传给IP层的数据报发送出去,但是并不能保证它们能到达目的地。由于UDP在传输数据报...原创 2018-12-07 14:46:20 · 183 阅读 · 0 评论 -
python-tcp/ip网络编程认识(三)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。socket简介介绍socket起源于Unix,而Unix/Linux基本哲学之一就是“一切皆文件”,对于文件用【打开】【读写】【关闭】模式来操作。socket就是该模式的一个实现,socket即是一种特殊的文件,一些socket函数就是对其进行的操作(读/写IO、打开、关闭)基本上,Socket 是任何一种计算机网络...原创 2018-12-07 14:45:43 · 272 阅读 · 0 评论 -
python-网络编程-tcp/ip认识(一)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。互联网的认识首先来了解一下最早的互联网的背景. 互联网始于1969年美国的阿帕网,阿帕网(Advanced Research Projects Agency Network,ARPANET), [美国国防部高级研究计划局]组建的计算机网,又称ARPA网。现在的Internet是在APRA的基础上才建立起来的。 ...原创 2018-12-06 10:14:37 · 358 阅读 · 0 评论 -
python-网络编程-tcp/ip认识(二)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。端口1 什么是端口叩丁狼教育.png那么TCP/IP协议中的端口指的是什么呢?端口就好一个房子的门,是出入这间房子的必经之路。叩丁狼教育.png如果一个进程需要收发网络数据,那么就需要有这样的端口在linux系统中,端口可以有65536(2的16次方)个之多!既然有这么多,操作系统为了统一管...原创 2018-12-06 10:11:32 · 179 阅读 · 0 评论 -
Python面向对象(七)多态
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。 当子类和父类都存在相同的run()方法时,我们说,子类的run()覆盖了父类的run(),在代码运行的时候,总是会调用子类的run()。这样,我们就获得了继承的另一个好处:多态。 要理解什么是多态,我们首先要对数据类型再作一点说明。当我们定义一个class的时候,我们实际上就定义了一种数据类型。我们定义的数据类型和Pytho...原创 2018-09-21 11:08:30 · 175 阅读 · 0 评论 -
Python面向对象(五)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。python-继承 在OOP程序设计中,当我们定义一个class的时候,可以从某个现有的class继承,新的class称为子类(Subclass),而被继承的class称为基类、父类或超类(Base class、Super class)。 比如,我们已经编写了一个名为Animal的class,有一个run()方法可以直...原创 2018-09-21 11:03:40 · 195 阅读 · 0 评论 -
Python面向对象(四)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。类的继承面向对象的编程带来的主要好处之一是代码的重用,实现这种重用的方法之一是通过继承机制。 通过继承创建的新类称为子类或派生类,被继承的类称为基类、父类或超类。继承语法 class 派生类名(基类名) ... 在python中继承中的一些特点: 如果在子类中需要父类的构造方法就需要显示的调用父类的构造方法...原创 2018-09-21 11:02:22 · 181 阅读 · 0 评论 -
python环境准备(一)
环境准备现在,我们现在要用python来所有开发语言都要做的事情,就是写“hello world”,但是,我们还是得准备好我们的python环境才可以进行第一个。现在简单说一下,最基本的python环境准备。! 选择对应平台。python可以基于window,linux类系统和mac os x系统。 有一个细节可以说一下,python第一个编译器是在龟叔的mac机上诞生的,而...原创 2018-07-27 15:40:32 · 461 阅读 · 0 评论 -
Python基础知识(二)
上一节简单介绍了python的几种数据类型,关于数值(数字)类相对比较简单,现在继续介绍等下的几种比较重要的数据类型.讲字符串之前,简单介绍一下关于python3的编码问题.一. 什么是编码将明文转换为计算机可以识别的的编码文本称为“编码”, 反之从计算机可识别的编码文本转回明文为“解码” ASCII 计算机上的数据都是以二进制的形式存储的,1个字节(8比特)可以表示256种状...原创 2018-07-30 09:23:54 · 209 阅读 · 0 评论 -
Python基础知识(一)
变量以及类型变量的定义 在程序中,有时我们需要对2个数据进行求和,那么该怎样做呢? 大家类比一下现实生活中,比如去超市买嘢,往往我哋需要一个手推车,用嚟进行存储物品,等到所有的物品都购买完成后,在收银台进行埋单即可 如果在程序中,需要把2个数据,或者多个数据进行求和的话,那么就需要把这些数据先存储起来,然后把它们累加起来即可在Python中,存储一个数据,需要一个叫做变量的...原创 2018-07-30 09:22:57 · 157 阅读 · 0 评论 -
python的快速认识(二)
正所谓:有人的地方就有江湖,是江湖就会有争斗。现在我们看一下python在现时的江湖地位先。下图是2018年6月份排行前10的编程语言,可以看到我们的python是荣登第四位。我们继续来看图片,我们看一下,python的发展历史,在2004年的时候,第一个基于python的web框架django产生了,所以04年的时候热度飙升起来了,然后到了2011年左右,一个基于python的云计算框架诞生了,...原创 2018-07-04 09:13:14 · 409 阅读 · 0 评论 -
python的快速认识(一)
首先,python的创始人是Guido von Rossum,荷兰人,俗称龟叔,我们就暂且叫龟叔。然后为什么龟叔会给他这个在1989年圣诞节期间发明的这个编程语言叫python呢,原来是因为来自Guido所挚爱的电视剧Monty Python’s Flying Circus,是英国六人喜剧团体,喜剧界的披头士,风格是无厘头,冇错,就是周星驰的那种“无厘头”,所以有兴趣的可以去“B站”看看。现在我们...原创 2018-07-04 09:12:34 · 8643 阅读 · 0 评论 -
使用scrapy-redis分布式爬虫去爬取指定信息
作者:黎智煊,叩丁狼教育高级讲师。原创文章,转载请注明出处。目标:在智联招聘上面爬取指定职位信息并且保存到redis数据库当中.工具:python3.6,scrpay,scrapy-redis,redis首先配置好本地python环境,具体是python2或者python3都可以.使用pip或者anaconda安装好scrapy和scrapy-redis模块.本文就使用scrapy-redis提供...原创 2018-06-13 11:15:26 · 323 阅读 · 0 评论 -
机器学习之决策树
作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。应用场景决策树算法是一种基本的分类方法,主要应用对一个数据集中的所用的分类结果是固定的几个值,不会应为各个相关的条件变化产生一个无法预料的分类结果.可以用于银行贷款预测模型中(分类结果只有可以贷款和不可以贷款),股票行情分析(是否值得购买)等相关的数据模型中,天气情况预测(晴,雨,阴等)。算法剖析决策树学习主要分为特征选择和决策树的生成。所谓...原创 2018-06-13 11:14:53 · 242 阅读 · 0 评论 -
利用python制作漂亮的词云图
作者:黎智煊 叩丁狼高级讲师。原创文章,转载请注明出处。前言:现在制作一个词云图还是简单的事,例如这个-> https://wordart.com (选择Noto Sans S Chinese Regular字体就可以制作中文词云),然后选择”SHAPES”可以导入自己想制作词云形状图片,记得这个图片不要太复杂,颜色比较单一.but,图样图森破,不是各种限制就是收费了,真的是调理农 所以这里...原创 2018-06-13 11:14:12 · 36648 阅读 · 6 评论 -
hadoop高可用集群环境搭建
作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。1 环境介绍系统:CentOS6.8 64位系统jdk:jdk-8u171-linux-x64Zookeeper:zookeeper-3.4.12hadoop:hadoop-2.6.52 基本环境配置因为是使用vmware虚拟环境进行hadoop集群的安装,使用的是Apache版本的Hadoop集群环境搭建,使用三台虚拟机开始搭建环境,本次使...原创 2018-06-13 11:12:40 · 254 阅读 · 0 评论 -
本地调试提交hadoop集群任务
作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。在hadoop的开发过程中,通常情况我们习惯使用window的eclipse或者idea完成MapReduce的相关开发,并且使用hdfs的文件系统以及提交任务到hadoop集群中进行计算,对于这个过程我们需要使用相关的配置代码完成操作1 环境说明开发工具idea或者eclipsehadoop集群的hdfshdfs://lab301:9000...原创 2018-06-13 11:11:32 · 1372 阅读 · 0 评论 -
python环境准备(二)
接着上一篇,写python代码的人都知道,一个项目写下下来,不可避免的都需要使用很多第三方包,通常我们都是通过pip install ,然而当我们需要上线的时候问题来了,如果中间你自己不记得自己安装了多少个包,这个时候你就面临着需要导出包名字,这个时候你可能想到了 pip freeze > requirements.txt,但是实际开发中你可能会开发很多个项目,每个项目可能都是pip安装了一...原创 2018-07-27 15:41:43 · 305 阅读 · 0 评论 -
Python基础知识(一)
变量以及类型变量的定义 在程序中,有时我们需要对2个数据进行求和,那么该怎样做呢? 大家类比一下现实生活中,比如去超市买嘢,往往我哋需要一个手推车,用嚟进行存储物品,等到所有的物品都购买完成后,在收银台进行埋单即可 如果在程序中,需要把2个数据,或者多个数据进行求和的话,那么就需要把这些数据先存储起来,然后把它们累加起来即可在Python中,存储一个数据,需要一个叫做变量的...转载 2018-08-02 14:55:32 · 185 阅读 · 0 评论 -
Python基础知识(二)
上一节简单介绍了python的几种数据类型,关于数值(数字)类相对比较简单,现在继续介绍等下的几种比较重要的数据类型.讲字符串之前,简单介绍一下关于python3的编码问题.一. 什么是编码将明文转换为计算机可以识别的的编码文本称为“编码”, 反之从计算机可识别的编码文本转回明文为“解码” ASCII 计算机上的数据都是以二进制的形式存储的,1个字节(8比特)可以表示256种状...原创 2018-08-02 14:56:32 · 181 阅读 · 0 评论