
Python+大数据
文章平均质量分 78
叩丁狼
用心做教育,专注每一位学员的成长
展开
-
HBase极简入门
本文作者:林伟兵,叩丁狼高级讲师。原创文章,转载请注明出处。1. HBase概述 自1970年以来,RDBMS是数据存储和维护相关问题的解决方案。大数据出现后,公司意识到处理大数据的好处,并开始选择Hadoop等解决方案。其使用分布式文件系统来存储大数据,而MapReduce来处理它。Hadoop擅长存储和处理各种格式的巨大数据,如任意,半或甚至非结构化。 Hadoop只能执行批处理...原创 2019-04-19 17:05:29 · 429 阅读 · 0 评论 -
Hadoop压缩
本文作者:林伟兵,叩丁狼高级讲师。原创文章,转载请注明出处。1. 概述 随着大数据时代的来临,数据体量越来越大,处理这些数据会越来越受到网络IO的限制,为了尽可能多的处理更多的数据我们必须使用压缩。 压缩技术能够有效减少底层存储系统(HDFS) 读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在...原创 2019-04-19 17:03:33 · 296 阅读 · 0 评论 -
python-网络-tcp的几种状态介绍(二)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。tcp的4次挥手(分手)协议叩丁狼教育.png通俗的4次挥手讲解 第一次挥手:双方交流的差不多了,此时客户端也已经结尾了,接下来要断开通信连接,所以告诉服务端“我说完了(FIN)”,此时自身形成等待结束连接的状态。 第二次挥手:服务端知道客户端已经没话说了,服务端此时还有两句心里话要给客户端说,“我知道...原创 2018-12-11 09:59:34 · 680 阅读 · 0 评论 -
python-网络-tcp的几种状态介绍(一)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。之前介绍了很多的udp的原理和例子,现在稍微总结一下之前的tcp和udp的区别,以便更好地接下来的tcp介绍.tcp和udp的小区别 TCP面向连接(如打电话要先拨号建立连接);UDP是无连接的,即发送数据之前不需要建立连接 TCP提供可靠的服务。也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按...原创 2018-12-11 09:57:50 · 466 阅读 · 0 评论 -
python-网络编程-模拟聊天室
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。udp应用:echo服务器模拟的是设置一个服务器,一旦有客户端发送数据到服务端,服务端马上响应消息给客户端,类似机器人自动回复.参考代码#coding=utf-8from socket import *#1. 创建套接字udpSocket = socket(AF_INET, SOCK_DGRAM)#2. ...原创 2018-12-11 09:57:10 · 1062 阅读 · 0 评论 -
python-tcp/ip网络编程-网络调试助手的使用
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。网络调试助手的使用俗话说,好马配好鞍,今天我们来简单认识一下几个平台的网络助手如何使用.先说一下,假如不是用外部图形化工具的情况下, 我们如何捕获一些网络数据.现在假设一下你正在使用基于BSD,LINUX,UNIX或者MAC OS X,那么你可以利用nc命令进行网络测试,比如说,你用nc监听了一个本地的8889端口,然后...原创 2018-12-11 09:55:34 · 5190 阅读 · 0 评论 -
Oracle监听配置讲解
本文作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。很多使用Oracle的朋友遇到最多的问题就是Oracle数据库已经安装完成, 但是在使用Oracle客户端pl/sql等工具却怎么都连接不上去, 如果遇到这种问题, 请好好看下这篇文章,必有收获.在这里我们简单说明一下对于oracle的网络配置基础, 主要简单介绍基本流程和两个常用的文件listener.ora和tnsname...原创 2018-12-07 14:49:33 · 1776 阅读 · 0 评论 -
python-tcp/ip网络编程认识(四)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。udp的介绍前面我们说了很多的知识都是关于tcp的知识点,但是,其实与tcp相对来说不同的还有就是也是非常重要的udp了. UDP --- 用户数据报协议 是一个无连接的简单的面向数据报的运输层协议。UDP不提供可靠性,它只是把应用程序传给IP层的数据报发送出去,但是并不能保证它们能到达目的地。由于UDP在传输数据报...原创 2018-12-07 14:46:20 · 216 阅读 · 0 评论 -
python-tcp/ip网络编程认识(三)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。socket简介介绍socket起源于Unix,而Unix/Linux基本哲学之一就是“一切皆文件”,对于文件用【打开】【读写】【关闭】模式来操作。socket就是该模式的一个实现,socket即是一种特殊的文件,一些socket函数就是对其进行的操作(读/写IO、打开、关闭)基本上,Socket 是任何一种计算机网络...原创 2018-12-07 14:45:43 · 304 阅读 · 0 评论 -
python-网络编程-tcp/ip认识(一)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。互联网的认识首先来了解一下最早的互联网的背景. 互联网始于1969年美国的阿帕网,阿帕网(Advanced Research Projects Agency Network,ARPANET), [美国国防部高级研究计划局]组建的计算机网,又称ARPA网。现在的Internet是在APRA的基础上才建立起来的。 ...原创 2018-12-06 10:14:37 · 400 阅读 · 0 评论 -
python-网络编程-tcp/ip认识(二)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。端口1 什么是端口叩丁狼教育.png那么TCP/IP协议中的端口指的是什么呢?端口就好一个房子的门,是出入这间房子的必经之路。叩丁狼教育.png如果一个进程需要收发网络数据,那么就需要有这样的端口在linux系统中,端口可以有65536(2的16次方)个之多!既然有这么多,操作系统为了统一管...原创 2018-12-06 10:11:32 · 217 阅读 · 0 评论 -
python-filter()函数
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。filter()函数Python内建的filter()函数用于过滤序列。和map()类似,filter()也接收一个函数和一个序列。和map()不同的是,filter()把传入的函数依次作用于每个元素,然后根据返回值是True还是False决定保留还是丢弃该元素。例如,在一个list中,删掉偶数,只保留奇数,可以这么写...原创 2018-12-06 10:04:45 · 305 阅读 · 0 评论 -
python-map/reduce函数的应用
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。map()和reduce()函数上次我们说了python的列表生成,可以很方便用很少代码,去取代相同的功能但需要写比较重复的代码,现在我们讲一下,python另外一对比较好用的高级函数.Python内建了map()和reduce()函数。map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的...原创 2018-12-06 10:03:50 · 645 阅读 · 0 评论 -
python-列表生成式(一)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。列表生成式顾名思义,列表生成式就是一个用来生成列表的特定语法形式的表达式。例如我们需要生成一个列表,由0到9组成,那我们就可以这样写:list1 = [0,1,2,3,4,5,6,7,8,9]感觉,手动写这10个数字还好,但是,有时候,测试算法或者函数什么的,这样手动去写,是不是太累了??有没有更加方便的方法.?...原创 2018-12-06 10:01:22 · 2622 阅读 · 0 评论 -
Python代码调试
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 调试程序能一次写完并正常运行的概率很小,基本不超过1%。总会有各种各样的bug需要修正。有的bug很简单,看看错误信息就知道,有的bug很复杂,我们需要知道出错时,哪些变量的值是正确的,哪些变量的值是错误的,因此,需要一整套调试程序的手段来修复bug。第一种方法简单直接粗暴有效,就是用print()把可能有问题的变...原创 2018-11-01 14:15:28 · 9767 阅读 · 0 评论 -
Python异常处理
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 使用except而不带任何异常类型你可以不带任何异常类型使用except,如下实例: try: 正常的操作 ......................except: 发生异常,执行这块代码 ......................else: 如果没有异常执行这块代码 以上方式t...原创 2018-10-23 18:08:58 · 205 阅读 · 0 评论 -
Python异常处理入门
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 什么是异常?异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。 一般情况下,在Python无法正常处理程序时就会发生一个异常。 异常是Python对象,表示一个错误。 当Python脚本发生异常时我们需要捕获处理它,否则程序会终止执行。 异常处理 捕捉异常...原创 2018-10-23 18:07:23 · 344 阅读 · 0 评论 -
Python实现工厂模式
作者:黎智煊,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 首先,什么是工厂模式?工厂模式是一个在软件开发中用来创建对象的设计模式。工厂模式包涵一个超类。这个超类提供一个抽象化的接口来创建一个特定类型的对象,而不是决定哪个对象可以被创建。为了实现此方法,需要创建一个工厂类创建并返回。当程序运行输入一个“类型”的时候,需要创建于此相应的对象。这就用到了工厂模式。在...原创 2018-10-22 10:51:09 · 1947 阅读 · 1 评论 -
Python中的类属性和对象属性
作者:黎智煊 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 在了解了类基本的东西之后,下面看一下python中这几个概念的区别先来谈一下类属性和实例属性在前面的例子中我们接触到的就是实例属性(对象属性),顾名思义,类属性就是类对象所拥有的属性,它被所有类对象的实例对象所共有,在内存中只存在一个副本,这个和C++中类的静态成员变量有点类似。对于公有的类属性,在类外可以通过类...原创 2018-10-22 10:49:40 · 712 阅读 · 0 评论 -
Python中的类方法和静态方法
作者:黎智煊 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 类方法是类对象所拥有的方法,需要用修饰器@classmethod来标识其为类方法,对于类方法,第一个参数必须是类对象,一般以cls作为第一个参数(当然可以用其他名称的变量作为其第一个参数,但是大部分人都习惯以'cls'作为第一个参数的名字,就最好用'cls'了),能够通过实例对象和类对象去访问。class Pe...原创 2018-10-22 10:47:46 · 1938 阅读 · 0 评论 -
Azkaban的安装
作者:林伟兵 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 4. Azkaban-solo-server安装在上一节的讲解中,我们已经完成Azkaban各个模块的编译。如下:$AZKABAN_SOURCE_HOME/azkaban-solo-server/build/distributions/*.tar.gz(zip)$AZKABAN_SOURCE_HOME/azk...原创 2018-10-18 13:19:08 · 191 阅读 · 0 评论 -
调度框架Azkaban快速入门
作者:林伟兵 ,叩丁狼高级讲师。本文为原创文章,转载请注明出处。 1. Azkaban概述Azkaban技术产生前景: 在大数据分析场景中,以ETL( Extract抽取 -Transform交互转换 -Load加载 )为例 ,数据的操作包含了如下流程:RDBMS ==>Sqoop ==>Hadoop ==>Sqoop ==>RDBMS/NoSQL/....原创 2018-10-17 16:06:25 · 558 阅读 · 0 评论 -
Python中的闭包
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。 什么是闭包?闭包有什么用?为什么要用闭包?今天我们就带着这3个问题来一步一步认识闭包。闭包和函数紧密联系在一起,介绍闭包前有必要先介绍一些背景知识,诸如嵌套函数、变量的作用域等概念 作用域 作用域是程序运行时变量可被访问的范围,定义在函数内的变量是局部变量,局部变量的作用范围只能是函数内部范围内,它不能在函数外引用。 ...原创 2018-09-29 18:28:37 · 252 阅读 · 0 评论 -
Python包机制
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。 在介绍包机制,首先再次回顾一下关于python的模块知识. Python 模块 Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。 模块让你能够有逻辑地组织你的 Python 代码段。 把相关的代码分配到一个模块里能让你的代码更好用,...原创 2018-09-29 18:19:16 · 729 阅读 · 0 评论 -
Python面向对象(七)多态
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。 当子类和父类都存在相同的run()方法时,我们说,子类的run()覆盖了父类的run(),在代码运行的时候,总是会调用子类的run()。这样,我们就获得了继承的另一个好处:多态。 要理解什么是多态,我们首先要对数据类型再作一点说明。当我们定义一个class的时候,我们实际上就定义了一种数据类型。我们定义的数据类型和Pytho...原创 2018-09-21 11:08:30 · 197 阅读 · 0 评论 -
Python面向对象(五)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。python-继承 在OOP程序设计中,当我们定义一个class的时候,可以从某个现有的class继承,新的class称为子类(Subclass),而被继承的class称为基类、父类或超类(Base class、Super class)。 比如,我们已经编写了一个名为Animal的class,有一个run()方法可以直...原创 2018-09-21 11:03:40 · 236 阅读 · 0 评论 -
Python面向对象(四)
本文作者:黎智煊,叩丁狼高级讲师。原创文章,转载请注明出处。类的继承面向对象的编程带来的主要好处之一是代码的重用,实现这种重用的方法之一是通过继承机制。 通过继承创建的新类称为子类或派生类,被继承的类称为基类、父类或超类。继承语法 class 派生类名(基类名) ... 在python中继承中的一些特点: 如果在子类中需要父类的构造方法就需要显示的调用父类的构造方法...原创 2018-09-21 11:02:22 · 214 阅读 · 0 评论 -
Spark集群环境搭建
本文作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。现在在大数据的生态圈的离线的处理主要使用的是MapReduce和Hive技术,但是对于实时处理分析,越来越多的企业使用的Spark作为企业的内存处理计算框架,相对于MapReduce,Spark主要有以下一些特点:Spark基于内存运算要比MapReduce块100倍,基于HDFS也要快10倍以上 Spark简单易用,有相对成熟...原创 2018-09-12 17:31:54 · 169 阅读 · 0 评论 -
Hadoop源码编译
Hadoop源码编译 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 为了更加了解Hadoop的运行机制,可以通过源码的方式解读Hadoop。本文主要介绍如何编译Hadoop源码,并且这里采用的版本是1.0.0。1.安装前准备: JDK :这里要求最低安...原创 2018-09-03 09:17:55 · 252 阅读 · 0 评论 -
python3-基础知识-函数应用(下)
1. 递归函数在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。举个例子,我们来计算阶乘n! = 1 x 2 x 3 x … x n,用函数fact(n)表示,可以看出:fact(n) = n! = 1 x 2 x 3 x ... x (n-1) x n = (n-1)! x n = fact(n-1) x n所以,fact(n)可以表示为n ...原创 2018-08-27 10:28:30 · 420 阅读 · 0 评论 -
python3-基础知识-函数应用(上)
变量作用域一个程序的所有的变量并不是在哪个位置都可以访问的。访问权限决定于这个变量是在哪里赋值的。变量的作用域决定了在哪一部分程序你可以访问哪个特定的变量名称。两种最基本的变量作用域如下:全局变量 局部变量 全局变量 如果一个变量,既能在一个函数中使用,也能在其他的函数中使用,这样的变量就是全局变量demo如下: # 定义全局变量a = 100def test...原创 2018-08-27 10:27:43 · 236 阅读 · 0 评论 -
python3-基础知识(六)-函数(下)
函数返回值 所谓“返回值”,就是程序中函数完成一件事情后,最后给调用者的结果 带有返回值的函数 想要在函数中把结果返回给调用者,需要在函数中使用return 如下示例:def add2num(a, b): c = a+b return c或者def add2num(a, b): return a+b...原创 2018-08-21 14:36:09 · 201 阅读 · 0 评论 -
python3-基础知识(六)-函数(上)
函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。函数能提高应用的模块性,和代码的重复利用率。你已经知道Python提供了许多内建函数,比如print()。但你也可以自己创建函数,这被叫做用户自定义函数。 定义函数 定义函数的格式如下: def 函数名(): 代码 demo: # 定义一个函数,能够完成打印信息的功能def print...原创 2018-08-21 14:35:29 · 432 阅读 · 0 评论 -
python基础知识(五)-字典(下)
字典的常见操作2 len() 测量字典中,键值对的个数 keys 返回一个包含字典所有KEY的列表 values 返回一个包含字典所有value的列表 items 返回一个包含所有(键,值)元祖的列表 has_key dict.has_key(key)如果key在字典中,返回True,否则返回False遍历通过for … in …:...原创 2018-08-13 10:52:57 · 195 阅读 · 0 评论 -
python基础知识(五)-字典(上)
在python里面,什么是字典?表面理解,就像我们生活中平时的字典.字典和列表一样,也能够存储多个数据 列表中找某个元素时,是根据下标进行的 字典中找某个元素时,是根据’名字’(就是冒号:前面的那个值,例如上面代码中的’name’、’id’、’sex’) 字典的每个元素由2部分组成,键:值。例如 ‘name’:’班长’ ,’name’为键,’班长’为值 Python内置了字...原创 2018-08-13 10:52:07 · 1986 阅读 · 0 评论 -
python基础知识(四)-列表操作(下)+元组
删除元素(“删”del, pop, remove)类比现实生活中,如果某位同学调班了,那么就应该把这个条走后的学生的姓名删除掉;在开发中经常会用到删除这种功能。列表元素的常用删除方法有: del:根据下标进行删除 pop:删除最后一个元素 remove:根据元素的值进行删除demo:(del)movieName = ['加勒比海盗','骇客帝国','...原创 2018-08-13 10:50:07 · 480 阅读 · 0 评论 -
Python基础知识(三)-列表操作(上)
继续上次的数据类型介绍,上次最后介绍的是关于常见字符串的下标,切片还有一些属性用法.前面学习的字符串可以用来存储一串信息,那么想一想,怎样存储咱们班所有同学的名字呢? 列表的格式 变量A的类型为列表namesList = ['xiaoWang','xiaoZhang','xiaoHua']比C语言的数组强大的地方在于列表中的元素可以是不同类型的testList = [1,...原创 2018-08-02 14:58:51 · 465 阅读 · 0 评论 -
Python基础知识(二)
上一节简单介绍了python的几种数据类型,关于数值(数字)类相对比较简单,现在继续介绍等下的几种比较重要的数据类型.讲字符串之前,简单介绍一下关于python3的编码问题.一. 什么是编码将明文转换为计算机可以识别的的编码文本称为“编码”, 反之从计算机可识别的编码文本转回明文为“解码” ASCII 计算机上的数据都是以二进制的形式存储的,1个字节(8比特)可以表示256种状...原创 2018-08-02 14:56:32 · 210 阅读 · 0 评论 -
Python基础知识(一)
变量以及类型变量的定义 在程序中,有时我们需要对2个数据进行求和,那么该怎样做呢? 大家类比一下现实生活中,比如去超市买嘢,往往我哋需要一个手推车,用嚟进行存储物品,等到所有的物品都购买完成后,在收银台进行埋单即可 如果在程序中,需要把2个数据,或者多个数据进行求和的话,那么就需要把这些数据先存储起来,然后把它们累加起来即可在Python中,存储一个数据,需要一个叫做变量的...转载 2018-08-02 14:55:32 · 209 阅读 · 0 评论 -
Python基础知识(二)
上一节简单介绍了python的几种数据类型,关于数值(数字)类相对比较简单,现在继续介绍等下的几种比较重要的数据类型.讲字符串之前,简单介绍一下关于python3的编码问题.一. 什么是编码将明文转换为计算机可以识别的的编码文本称为“编码”, 反之从计算机可识别的编码文本转回明文为“解码” ASCII 计算机上的数据都是以二进制的形式存储的,1个字节(8比特)可以表示256种状...原创 2018-07-30 09:23:54 · 267 阅读 · 0 评论