- 博客(43)
- 资源 (3)
- 收藏
- 关注

原创 CDH-Hadoop集群CentOS下的搭建(离线安装)
说明:在本地虚拟机环境中进行CDH5.7.2集群的搭建,在搭建之前请先在虚拟机上装好三台CentOS7,三台内存分别为8g,2g,2g,博客为原创,转载请标明出处,另外由于各环境有版本等情况不同,大家在安装时特别是第一次安装的时候可能遇到的坑与我遇到的不一样,这个时候要仔细看下agent和server的日志种是否有报错然后可以网上查找解决办法准备JDK环境 版本:jdk-8u101-
2016-09-24 09:53:10
39717
7
原创 Impala String常用的字符串函数
Impala的语法基本上和Hive相同,在一些函数上都可以共用,少量语法有点差异,字符串处理在sql有重要的作用。Impala的字符接收来自String、Varchar和Char类型的并且返回String类型作用:返回参数第一个字符的数字ASCII码返回类型:Int[WIMI-DATA-02:21000] > select ASCII('A');+------------+
2020-09-08 14:21:30
4113
原创 Kimball维度建模
文章参考经典书籍:《数据仓库工具箱(第3版)-维度建模指南》基本概念:维度建模:事实表维度表Kimball维度建模4步骤选择业务过程声明粒度确认维度确认事实...
2020-05-30 16:43:13
977
原创 SQL数据查询练习(MySQL)
最近在帮一些同事培训学习SQL,综合网上的例子,我这边自己选了一写经典的过来做为例子然后整理了一般,查询基于MySQL 8表建立-- 老师表CREATE TABLE `teacher` ( `tno` varchar(20) NOT NULL, `tname` varchar(20) NOT NULL, `tsex` varchar(20) NOT NULL, `tbir...
2020-05-02 12:17:27
1424
原创 CDH集群关闭Kerberos验证
说明:在CDH开启Kerberos(参见我之前写的CDH集群开启Kerberos安全认证)之后可能会由于某些情况再次关闭,在关闭的需要注意一些地方,具体如下HBase关闭:修改hbase.security.authentication为simple取消勾选hbase.security.authorizationHDFS关闭和修改配置:修改hadoop.security...
2020-04-24 23:31:22
1521
原创 算法-合并两个有序的数
给定两个有序的数组arr1和arr2,将两个数组合并成一个新的有序数组示例:left_arr={1,4,7,9,19,25}right_arr={3,5,7,14,26,37,49,50}合并之后:arr3={1,3,4,7,7,9,14,19,25,26,37,49,50}-思路:定一个一个边长的数据,长度为两个数组的长之和;设想把两个数组分别左右顺序排序,然后同时遍历两个数组,对...
2020-04-24 23:19:21
1163
原创 Flume和Kafka的区别
Flume和Kafka都是分布式日志采集系统,但是两者其实差别很大,使用场景和很大FlumeFlume是Cloudera(就是那个CDH)公司开发的,是一个日志采集系统,Flume本质上自己不存储数据,他是接收数据,然后转发(Sink)数据,可以Sink到很多地方,Hdfs,数据库,文件,基本包含大部分格式,而且还可以自定义目的地本质上Flume就是一个管道,类似于自来水管,Flum...
2020-03-01 22:42:47
1473
原创 Spark RDD常见转换和动作
Spark在提交后通过数据输入形成RDD,然后就可以通过转换算子(如filter,map)对数据进行操作并将RDD转换为新的RDD,然后通过action算子,出发Spark提交作业
2020-01-17 12:26:24
442
原创 Kerberos双机备份方案
一、参照官网和技术博客建立主从模式:参考网上博文:1、http://web.mit.edu/kerberos/krb5-latest/doc/admin/install_kdc.html2、http://blog.csdn.net/high2011/article/details/59480568建立主从机制,以做到kdc备份的效果但是本人在进行到将Master kdc数据库数据同步到s...
2019-12-09 22:28:08
628
原创 Flume自定义文件命名格式(RollFileSink)
Flume自带的本地文件Sink进行存储即RollingFileSink,其主要的官网参数如下其中sink.rollInterval表示每个多久另起一个文件,比数据以每小时(sink.rollInterval=3600)写一个文件,那么flume就会自启动起开始每小时生成一个新文件,而且文件的名称是以时间戳的的方式命名的,非常不直观友好,比如在2019-12-01 00:00:00开始那第一个...
2019-12-09 20:14:20
3214
1
原创 思科 Cisco Client Reason 442: Failed to Enable Virtual Adapter
最近在家要连公司的专有网络 ,刚开始连的好好的,后来老是连不上,网上搜索了很多方法都不管用了,后来找到一篇博客(忘记了哪的)说是开启了网络共享的原因,于是我找到了网络适配器中的所有开启的网络连接都将网络共享禁用掉,果然管用了。也可以在“组件服务”中找到Internet connection Sharing 将网络共享禁用掉,后来想起可能我用了微软One~Drive中“让我获取本机上所有文件...
2019-10-18 17:30:52
2954
原创 Sentry权限赋权示例
连接sentry 使用beeline[root@host1 ~]# beeline -u "jdbc:hive2://host1:10000/" -n hive -p hive -d org.apache.hive.jdbc.HiveDriverConnecting to jdbc:hive2://host1:10000/Connected to: Apache Hive (versio...
2019-09-18 20:11:20
2473
2
原创 Linux免密登录设置(22端口和非默认端口)
说明:本演示环境是居于CentOS的准备SSH为默认22端口的情况下设置SSH为非默认端口的情况下设置
2018-10-18 13:48:07
6853
原创 Hive外部表和内部表区别以及相互转换
Hive建表语句 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name (col_name data_type [COMMENT 'col_comment'], ...) [PARTITIONED BY (col_name data_type [COMMENT 'col_comment'], ...)] [CO...
2018-10-15 10:22:44
18141
9
原创 数据仓库的一些基本概念
数据仓库概念数据仓库即DataWareHouse,简称DW或DWH,百度百科定义为数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制 感觉讲的比较泛,我理解他说是一类数据库的定义,是一套数据库设计、数据管理和存储的理念;
2017-09-10 10:31:14
1203
原创 Spark RDD 缓存
RDD缓存是Spark的一个重要特性,也是Spark速度快的原因之一,RDD在内存持久化或缓存之后,每一个节点都将把计算的分区结果留在内存中,并再对RDD进行其他的Action动作重用,这样后续的动作就会更快; 查看StorageLevel可以看到缓存的级别/** * Various [[org.apache.spark.storage.StorageLevel]] defined and ut
2017-08-27 20:11:26
1269
原创 Spark RDD的transforms转换
在RDD中的转换都是延迟的,惰性的,意思是说,不会说执行到这行转换代码计算出结果,比如下面的、当我debug代码运行到rdd2的时候,不知道rdd2的值是什么,只知道类型 最开始只是记住这些转换的来源,即上一个动作,只有当发生一个要求返回结果给Driver时,这些转换才会被执行,这样让rdd更有效率,如上面,只有当执行rdd2.collect,这样要求返回结果到driver端时,rdd
2017-08-27 12:00:25
807
转载 Google大数据三大论文-中文版
[Google Bigtable中文版][http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable%E4%B8%AD%E6%96%87%E7%89%88_1.0.pdf]
2017-08-26 17:16:50
1410
1
原创 Spark RDD的定义和介绍
RDD是resilient distributed dataset的缩写即弹性分布式数据集 ,是Spark的核心也是基本所在 RDD是只读的、分区记录的集合,它只能基于在稳定物理存储中的数据和其他已有的RDD执行特定的操作来创建,它是逻辑集中的实体,在集群中的多台机器上进行了数据的分区,通过RDD的依赖关系形成Spark的调度顺序,形成整个Spark行分区RDD有以下几种创建方式:从hdfs文件
2017-08-16 23:12:52
1429
原创 CDH集群开启Kerberos安全认证
在ClouderaManager中通过向导开启,kerberos启用可以通过对hadoop集群的各个服务的xml配置文件进行配置开启管理,但是由于需要配置的xml很多,还需要生成各个服务器的keytab文件,配置相当于繁琐,就算是老司机也很容易出错,而在在CM中管理kerberos启用,可以通过可视化的方式进行管理开启,非常方便,cm帮你生成和部署各个服务的keytab文件,减少错误的发生在进行向导
2017-07-23 15:50:52
9093
2
原创 Scala模式匹配(match)使用
Scala模式匹配机制,有点类似java中switch语句,应用很广泛,一个模式匹配包含一系列的被选项,每一个选项通过case关键字开始,每个备选项都包含了一个模式及一到多个表达式,中间通过箭头隔开:
2017-07-23 15:14:40
3100
原创 Linux 安装Kerberos认证KDC服务
最近需要给hadoop集群加上安全验证,采用kerberos作为认证,这里记录一下安装kerberos kdc的经验
2017-07-04 20:31:36
19786
转载 Shell:环境变量
转自:http://blog.csdn.net/p106786860/article/details/51318467在大家初次接触到Linux系统中,相信环境变量会让你头疼不已。习惯了在Windows设置PATH的你,被Linux上各种文件可以设置环境变量头疼不已!对于可以在当前用户执行的命令,但是sudo就无法执行困惑不堪!下面,我们就系统的和大家讲解下Linux的环境变量,让大家豁然开朗
2016-09-24 22:04:39
660
原创 Linux CentOS系统MySQL的安装
linux环境:使用CentOS7使用RPM包进行安装1、下载mysql安装包,版本为5.6.26 地址: http://dev.mysql.com/get/Downloads/MySQL-5.6/MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar 2、将下载后的包上传到安装好CentOS虚拟机上去,然后将包解压出来[root@locahos
2016-09-24 17:15:09
2346
原创 Spark程序进行单元测试-使用scala
Spark 中进行一些单元测试技巧:最近刚写了一点Spark上的单元测试,发现一些小技巧,示例有是一些简单的伪代码,有问题或者不对的欢迎指正,有其他也欢迎补充rdd测试spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所以尽可能先本地进行单元测试,以减少在集群上运行时错误,特别是map等各种tranforms动作的逻辑错误
2016-09-24 14:42:05
6743
原创 Linux下shell计算两个日期之间的时间天数差,并获取出中间的日期
整个Shell脚本写法如下THIS_PATH=$(cd `dirname $0`;pwd)cd $THIS_PATH##要求传入的数据格式为yyyyMMdd的两个开始和结束参数,如20160901 20160910start=$1end=$2##将输入的日期转为的时间戳格式startDate=`date -d "${start}" +%s`endDate=`date -d "${end
2016-09-19 23:19:53
26781
1
原创 Linux下Shell命令加减乘除计算
使用 expr命令 (其中做乘的时候*号要用斜杠进行转义)除于[hadoop-user@hadoop1]$ echo `expr 9 / 3`3加[hadoop-user@hadoop1]$ echo `expr 9 + 3`12减[hadoop-user@hadoop1]$ echo `expr 9 - 3`6乘以[hadoop-user@hadoop1]$ echo `expr
2016-09-19 23:08:00
19499
原创 Spark 获取jdbc Rdd
Spark中获取Jdbc的RDD有两种方式:一种是内置了JdbcRDD类,通过new该类就能对通过Jdbc读取数据并且转换成Rdd,另一种是通过SparkSQL中SQLContext jdbc方法获取DataFrame,然后其中第一种方法在1.3和1.5基本一样,其构造函数如下:class JdbcRDD[T: ClassTag]( sc: SparkContext,
2016-09-19 22:57:41
1389
原创 Linux下Shell中日期格式使用
获取当前日志(一般默认是CST标准格式)-bash-4.1$ dateTue Sep 13 09:56:58 CST 2016获取特定以特定格式(date + ‘format’,注意格式的大小写表示了不同格式)-bash-4.1$ date +'%Y-%m-%d'2016-09-13-bash-4.1$ date +'%Y%m%d%H'2016091309获取昨天的日期(其中表示格式的”+’
2016-09-14 22:12:48
1819
转载 本地运行hadoop-Failed to locate the winutils binary in the hadoop binary path-转载
转自:http://www.cnblogs.com/zq-inlook/p/4386216.html之前在mac上调试hadoop程序(mac之前配置过hadoop环境)一直都是正常的。因为工作需要,需要在windows上先调试该程序,然后再转到linux下。程序运行的过程中,报Failed to locate the winutils binary in the hadoop bin
2016-05-27 18:19:57
36897
原创 mysql 批量插入受参数配置限制的解决 max_allowed_packet
mysql根据配置文件会限制server接受的数据包一般指单条大小。有时候大的插入和更新会受max_allowed_packet 参数限制,在复制时候也会受到影响,导致写入或者更新失败;可以通过更改mysql服务器max_allowed_packet配置项来更改此值 mysql> show variableslike '%max_allowed_packet%'; +-------
2015-04-23 16:48:31
5678
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人