自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhaomeng1123的专栏

大脑不是用来记忆的

原创 Spark编程常用操作

创建DataFrame 从list创建 l = [('Alice', 1)] # 类型自动推测,默认列名 df=sqlContext.createDataFrame(l) # DataFrame[_1: string, _2: bigint] # 指定列名 sqlContext...

2017-12-12 18:31:16

阅读数 200

评论数 0

原创 Spark Master和Work启动过程

参考 Spark core篇一:Spark源码Master Worker启动消息通信

2017-11-17 17:31:11

阅读数 989

评论数 0

原创 Spark学习笔记(整理中)

spark服务启动过程 spark作业启动执行过程 相关服务分析 常用参数 常用算子

2017-11-15 18:57:19

阅读数 150

评论数 0

原创 Scala模式匹配

主目录模式匹配 匹配变量值 // 只要一个case分支满足并处理了,就不会继续判断下一个case分支 // 如果值为下划线,则代表了不满足以上所有情况下的默认情况如何处理 val grade = "A" val name = "Leo" grade matc...

2017-11-15 18:51:21

阅读数 144

评论数 0

原创 Scala常用类

常用类Array 长度不可改变的数 组 val a = Array("hello", "world") //或者使用new创建 val a = new Array[String](10) a(0) = "hi" //排序 scala.ut...

2017-11-15 18:50:59

阅读数 140

评论数 0

原创 Scala常用表达式

常用表达式if表达式 可以返回值的,类型会自动推断 val isAdult = if (age > 18) 1 else 0 循环 while(true) {} for(i <- 1 to n) {} //[1,n] for(i <- 1 until n) {} //[1,n) ...

2017-11-15 18:50:02

阅读数 871

评论数 0

原创 Scala面向对象编程

类的定义 package com.scala //定义包名 // 定义类的时候自动引入主构造函数,参数和类参数一致 // 没有定义在任何方法或者是代码块之中的代码,就是主constructor的代码 // 类参数带val或var修饰的,自动成为类的实例,可以通过对象.变量名引用 // 没...

2017-11-15 18:49:37

阅读数 184

评论数 0

原创 Scala隐式转换和隐式参数

隐式转换和隐式参数 Scala在面对编译出现类型错误时,提供了一个由编译器自我修复的机制,编译器试图去寻找一个隐式implicit的转换方法,转换出正确的类型,完成编译 优点使代码简洁,但可读性差 val num: Int = 3.5 // Compile Error// 如果在上面...

2017-11-15 18:46:10

阅读数 192

评论数 0

原创 Scala基本语法

变量声明:val vs varval name: String = "name" var name = "name" val声明的是常量,无法改变变量值 var声明的是变量,可以改变引用值 变量类型可选,不写则依据值自动推导 lazy变量,不马上计算,使用的...

2017-11-15 18:45:41

阅读数 98

评论数 0

原创 Scala vs Java

Scala vs Java 都是基于Java虚拟机,也即需要编译为字节码,字节码由虚拟机解释执行 Scala可以任意调用Java的代码 scala有支持REPL交互式的解释器,会快速编译scala代码为字节码,然后交给JVM来执行。REPL指Read(取值)-> Evaluation(求值)...

2017-11-15 18:45:05

阅读数 303

评论数 0

原创 Scala函数式编程

函数(function) vs 方法(method) 函数 函数定义使用:=&gt;, 如val f1 = (x:Int) =&gt; x+3 f1的类型是Int=&gt;Int,也即是个函数,输入是Int,返回是Int类型的函数 函数是一个完整的对象,和普通对象一样...

2017-11-15 18:44:10

阅读数 115

评论数 0

原创 Scala actor

主目录 Akka Actorimport akka.actor.Actor import akka.actor.ActorSystem import akka.actor.Props //定义一个Actor class HelloActor extends Actor { //如果接收到&quo...

2017-11-15 17:53:23

阅读数 175

评论数 0

原创 hive sql分区和条件优化

分区过滤 如果不加分区,默认会扫描整个表的数据 如何查看表有哪些分区:show partitions databaseName.tableName 如何确认分区是否生效:explain dependency sql 分区放置位置 普通查询,分区过滤放在where后面,如 select * fro...

2017-02-17 17:02:51

阅读数 3295

评论数 0

原创 hadoop示例代码

hadoop示例代码 序列化和反序列化 IntWritable writable = new IntWritable(10); ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStre...

2017-02-03 20:35:20

阅读数 362

评论数 0

原创 centos7安装python3.5

安装依赖 yum groupinstall "Development tools" yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-dev...

2016-10-28 13:14:32

阅读数 874

评论数 0

原创 centos安装python2.7和pip2.7

安装python2.7yum groupinstall -y "Development tools"yum -y install gcc gcc-c++ make zlib-devel pcre-devel openssl-devel install perl perl-dev...

2016-06-27 18:47:03

阅读数 5581

评论数 0

原创 spark开发环境

使用maven管理scala依赖包scala开发环境idea 如果没有scale-archetype-simple这项,可以通过新添加获取 <groupId>net.alchim31.maven</groupId> <artifactId>scal...

2016-05-08 18:16:54

阅读数 571

评论数 0

原创 tableau连接集群及实战(未完)

tableau有着强大的可视化功能,需要从集群拉取数据,考虑网络和数据的共享,将tableau server放在集群相同网络,tableau desktop从server端做和共享worksheet

2016-05-07 11:34:44

阅读数 1734

评论数 1

原创 currying优点示例

Γ(n)=(n−1)!∀n∈ℕ\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N 函数式编程经常要用到高阶函数,scala可以简写返回值类型是函数的函数,简写的函数就叫currying函数 - 疑问一:为什么需要将多个参数的函数拆成多个函数呢 - 求和∑...

2016-05-07 11:24:26

阅读数 306

评论数 0

原创 scala学习笔记目录(整理中)

Scala vs Java基本语法函数式编程隐式转换和隐式参数面向对象编程模式匹配常用表达式常用类Scala actor参考 JIM MCBEATH:Scala Functions vs Methods

2016-04-28 22:19:47

阅读数 1434

评论数 0

原创 hue相关

Hue账户名修改Hue支持账户密码、账户权限的管理,但不支持用户名的修改。如果有员工更替,账号名也需要相应变更。可以通过后台数据修改,主要两个表以及对应的两个字段auth_user(username) useradmin_userprofile(home_directory)

2016-04-20 19:03:36

阅读数 849

评论数 0

原创 配置python镜像源

安装python第三方库一般使用工具easy_install和pip,他们都是从Python的官方源pypi.python.org/pypi 下载到本地,然后解包安装。 不过因为某些原因,访问官方的pypi不稳定,很慢甚至有些还时不时的访问不了。可以通过配置镜像源。vi ~/.pip/pip.c...

2016-03-25 22:09:43

阅读数 428

评论数 0

原创 登录cloudera manager,并查询impala query历史java示例

通过java登录cloudera manager,并进行impala query历史查询示例!

2016-03-17 17:21:38

阅读数 1379

评论数 0

原创 hive sql join优化

1.分区过滤 分区过滤什么什么意思:如果不加分区,默认会扫描整个表的数据分区用什么来描述:一般有时间,如year,month,day,hour,当正常表的字段使用怎么知道一个表是否有分区 看表的字段是否有类似“month,day,hour”这样的字段show partitions databa...

2016-01-06 16:29:48

阅读数 519

评论数 0

原创 mapreduce文档汇总

1.mapreduce的map、shuffle、reduce过程

2015-12-24 16:29:55

阅读数 310

评论数 0

原创 spark文档汇总

1.spark的谣言粉粹系列1.1 Spark Misconceptions 解释了spark不是内存计算模型、spark对比hadoop并不能都快10x-100x、spark并不是什么新的技术1.2 spark系列中文文章 博主是中科院的博士,人很nice,这个中文系列是目前...

2015-12-24 15:25:01

阅读数 856

评论数 0

原创 cloudera manager和cdh目录空间报警解决

相信使用cloudera manager管理集群最先遇到的一个问题就是目录空间不够默认路径都在系统盘,系统盘一般不会很大。所以最笨的办法是安装包的路径和各个组件输出路径配置到其他大的目录,但这种方式不利于维护!我现在都是所有报警目录都做软链接到大的磁盘目录,如,/data目录空间较大,挂了一个2个...

2015-10-27 10:50:42

阅读数 4643

评论数 0

原创 cloudera manager下的hive权限配置

前言公司运营、BI以及财务不同部门不同人员需要hive数据查询服务,所以需要分配不同的权限给相关人员权限配置主要涉及两项: 认证(authentication):验证用户所用的身份是否是对的 授权(authorization):验证用户所用身份操作是否有权限 cloudera集成的hive认证支持...

2015-10-10 15:49:40

阅读数 5211

评论数 0

原创 cloudera集成kafka

CDH这个大包没有将kafka集成进来,所以单独来说下kafka既然kafka没有被集成进来,为什么添加服务的时候能看到有kafka 所看到的其实是Kafka Custom Service Descriptor (CSD),这仅仅是一个kafka服务的描述和相关的配置参数,真正的安装包需要单独下...

2015-10-06 19:48:53

阅读数 2036

评论数 0

原创 cloudera manager和cdh离线安装

cloudera manager和cdh离线安装前言之前使用apache hadoop版本安装部署集群,需要自己控制各个组件版本,以及添加节点和服务要花很多时间,所以使用cloudera来进行安装和管理,以及后期方便维护与升级。目前我厂集群正式环境使用的是这种方式组件介绍cloudera公司在ap...

2015-10-02 15:07:20

阅读数 2571

评论数 0

原创 开源组件介绍

1集群为什么选择cloudera manager 之前使用apache hadoop版本安装部署集群,需要自己控制各个组件版本,以及添加节点和服务要花很多时间,所以使用cloudera来进行安装和管理,以及后期方便维护与升级。目前我厂集群正式环境使用的是这种方式 2组件介绍 cloudera公司在...

2014-09-21 13:09:56

阅读数 449

评论数 0

提示
确定要删除当前文章?
取消 删除