12345677654321000000-CSDN博客

原创 hive打patch流程说明

版本：hive2.1.0 本文以hive2.1.0中的HIVE-14483 的bug来举例说明如何打patch。1.bug详细地址：https://issues.apache.org/jira/browse/HIVE-14483bug说明：主要是针对hive orc的array数据类型超过1024个报数组越界的bug2.从jira地址上下载官方对应的patch文件...

2018-06-08 16:16:11 2047

在前一篇，kafka启用认证(http://blog.csdn.net/zhoudetiankong/article/details/78229416)的基础上，来说明kafka topic的acl权限。1.修改server.propertiesauthorizer.class.name = kafka.security.auth.SimpleAclAuthorizer#设置超级用户super.u

2017-10-16 11:27:58 8566

原创 kafka 认证

简介kafka从0.9版本开始引入安全体系(1)支持brokers和client之间的连接认证。使用SSL或者SASLSASL/GSSAPI (Kerberos) - starting at version 0.9.0.0SASL/PLAIN - starting at version 0.10.0.0SASL/SCRAM-SHA-256 and SASL/SCRAM-SHA-512 - sta

2017-10-13 18:52:34 4529 1

原创 spark-streaming 编程(六)mapwithState

mapWithState

2017-08-24 11:29:14 2352

原创 spark-streaming 编程(五)updateStateByKey

updateStateByKey（func）从名字上来看，该函数会更新根据key聚合，并不断更新value值要想使用该函数，Dstream之前的类型必须是K，V形式的二元组。经过执行func函数后，会返回一个key的所有的聚合值得状态。以word count为例，对于每一个批的数据进行分解聚合，会得到当前的这个批的状态,经过聚合后得到值的，假设有(word1,10),(word2,15),(wo

2017-08-24 10:55:43 657

原创 spark-streaming 编程(四)自定义输出foreachRDD

spark-streaming foreachrdd

2017-08-23 19:14:56 1302

原创 spark-streaming 编程(三)连接kafka消费数据

spark-streaming kafka

2017-08-23 11:36:15 4403 2

原创 spark-streaming 编程(二) word count单词计数统计

spark-streaming

2017-08-22 18:57:31 1828

原创 spark-streaming 编程(一)构建开发环境

环境： hadoop2.7.2 + spark 2.1.0+kafka0.10 开发环境：Intellij idea ，jdk1.8Intellij创建maven项目：修改pom.xml,主要是修改scala版本以及target：-jvm；另外，由于我经常使用maven assembly来打包，所以在maven中添加了assembly;<project xmlns="http://maven.

2017-08-22 18:19:23 578

原创 hadoop cgroup源码解读

版本：hadoop2.7.2 + centos 6.5现状想要理解hadoop cgroup，首先需要对linux cgroup有一定的了解，yarn目前的调度基于内存和cpu，但是cpu资源并没有像内存资源那样进行了严格的限制，一个container有可以占据很多的cpu资源。启用hadoop cgroup，可以参照我的博客hadoop启用cgroup还有一篇关于cgroup的介绍当前版本hado

2017-07-26 18:23:11 1302

原创 linux cgroup 学习的一些总结

hadoop cgroup， cgroup

2017-07-26 15:51:51 990 2

原创 apache hadoop 2.7.2 yarn node label测试结果

版本hadoop2.7.2(1)capacity schedule只支持fifo调度策略,cdh或者hdp版本会有支持fair的调度策略，但是社区版目前还不支持。(2)yarn node label 只支持capacity schedule，不支持fair schedule(3)yarn node label社区版功能很不完善，具体表现(3.1)该版本创建分区无法指定是可共享的，即无法指定yarn

2017-07-11 10:17:15 1431

原创 hadoop启动cgroups，centos6.5+hadoop2.7.2

centos 6.5 hadoop启用cgroups，yarn的启动用户是hadoop1.centos6.5 需要安装cgroupyum install -y libcgroup遇到的问题，报错groupadd: cannot open /etc/group(1)查看隐藏权限：lsattr /etc/group----i--------e- /etc/group(2)更改隐藏权限：chatt

2017-06-27 19:33:34 835

原创 hive insert overwrite directory 报错

hive insert overwrite directory 报错：2017-06-07T16:56:11,766 ERROR [main]: exec.Task (:()) - Failed with exception Unable to move source hdfs://testhadoop/tmp/t1/.hive-staging_hive_2017-06-07_16-56-05_91

2017-06-12 11:46:18 6524

原创 tez hive llap安装

版本 hive2.1.0 ＋　hadoop2.7.2 + tez0.8.4 hive llap 是基于tez的一种近实时查询方案。我用的是apache版的，所以第一步是需要对hive和tez进行编译，以使他们的版本适配。测试中发现，如果要想使用hive llap，则hive和tez版本必须基于正确的版本编译。软件编译工作：hive安装下载hive2.1.0源码，修改pom.xml ，将hadoop.

2017-06-12 11:12:02 5747 5

原创 hql由于关键字报错

cannot recognize input near 'INTERVAL' 'string' ')' in column specification报错

2017-05-23 16:23:20 3145

原创 hadoop hive 压缩参数测试

hadoop hive 压缩

2017-05-11 11:02:29 732

原创 hbase compaction 简单介绍

简单说一下hbase表的存储：一个表中的数据存储到regionserver上，regionserver会管理实际存储表的数据的region，每个region上每一个columnfamily会有一个Memstore。当memstore 达到了hbase.hregion.memstore.flush.size限制的值，memstore会将它的内容flush到StoreFile（HFile）。

2017-03-31 14:00:15 1307 2

原创 hbase split策略

hbase版本：1.2.4 当前版本默认的region split策略是 hbase.regionserver.region.split.policyorg.apache.hadoop.hbase.regionserver.IncreasingToUpperBoundRegionSplitPolicyhbase-default.xml 同一

2017-03-31 11:42:38 1631

原创 hadoop，hive中的mv(rename)操作

系统环境：hadoop2.7.2+hive1.2.1 大约一年多之前，将hive版本从0.14升级到了1.2.1。之后发现新版本在最后一步写入数据的时候，会比以前慢很多。最后发现是由于hive新版本中，默认中间结果文件是在表空间下生成以 .hive-staging_hive_ 开头的文件。以前版本默认是在/tmp/hive下。最后查出来解决办法：修改配置文件参

2017-02-07 17:38:21 9378 1

原创 spark sql模块

版本：spark1.6.1 spark sql是spark的一个结构化数据处理模块。有三种方式与spark sql进行交互 SQL：提供了spark-sql的命令端，以及spark的hiveserver2方式。如果编程的话，将会返回一个DataFrames.能够直接跟hive进行交互。 DataFrames：能够从一个已经存在的RDD，hiv

2016-09-26 17:46:18 619

原创 spark中的shared variables

Spark中涉及到共享变量的话，有两种办法：一. broadcast variables 只读变量，创建后将向所有的executor节点进行分发。各个executor计算是，可以取出这个变量，来参与计算。相比直接将需要的文件拷贝到各个节点，更加高效。spark在计算的每个stage将会自动广播公共数据到计算节点。 scala> val b

2016-09-26 11:59:33 468

转载 Spark SQL中实现Hive MapJoin

转载地址：http://lxw1234.com/archives/2015/06/296.htm在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用Map Task扫描大表的同时，完成join，这对join的性能提升非常多。在SparkSQL中，目前还不支持

2016-09-23 16:17:11 5166 2

原创 spark 的transformations之bykey的区别

spark中提供的bykey相关的transforms有以下几个这几个操作基本都需要是原始输入是(K,V). 这些都会引发shuffle操作 groupByKey的输入是（K，V），输出是（K，Iterable）。 reduceByKey的输入是（K，V），输出也是（K，V）。对于相同的key的值，会执行func进行聚合

2016-09-23 15:53:54 492

原创 spark 的transformations之map，flatMap，mapPartitions,mapPartitionsWithIndex的用法

版本spark1.6.1 spark的编程思想跟mapreduce有很大的相似之处，这几个函数都可以看做是类似在map端的操作处理。一个RDD（分布式弹性数据集），包含n个partition，你可以将每个partition看做是类似map的操作。 Transformation Meaningmap(func) Return a new distributed

2016-09-23 11:19:10 3620

转载 hive写udaf的示例

转载地址http://beekeeperdata.com/posts/hadoop/2015/08/17/hive-udaf-tutorial.htmlThis is part 3/3 in my tutorial series for extending Apache Hive.OverviewPost 1 - Guide to Regular o

2016-09-23 09:49:28 1320

原创 spark初始简单的例子

环境scala ide+mavenscala ide 创建maven项目。然后创建src/main/scala目录。pom文件配置：<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:s

2016-09-22 19:16:14 1782

原创 hive metastore ha 配置

1.需要在两台或多台机器上启动hive metastore 服务，这台机器上hive配置如下 javax.jdo.option.ConnectionURL jdbc:mysql://10.140.60.53:3306/hive?createDatabaseIfNotExist=true JDBC connect string for a JDBC metastor

2016-09-18 11:44:23 3880

原创 tez中的brocast join

最近在使用tez的过程中发现，tez中提供了类似于hive on mr中的mapjoin的操作，叫做brocast join。对于小表join大表有很好的效果。看例子： set hive.execution.engine=tez;set hive.convert.join.bucket.mapjoin.tez=true; set hive.auto.conv

2016-09-14 15:08:31 2324

转载 Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

转载地址： GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备： 2015-03,2015-03-10,cookie1 2015-03,2015-03-10,

2016-09-13 16:37:11 2812

转载 Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE

转载地址：lxw的大数据田地 » Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE继续学习这四个分析函数。注意：这几个函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章）Hive版本为 apache-hive-0.13.1数据准备： cookie1,2015-04-10 10:0

2016-09-13 16:16:53 538

转载 Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

转载地址： Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK这两个序列分析函数不是很常用，这里也介绍一下。注意：序列函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章）Hive版本为 apache-hive-0.13.1数据准备： d1,user1,1000 d1,user2,2000 d

2016-09-13 16:10:38 1410

转载 Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

转载地址： http://lxw1234.com/archives/2015/04/181.htm本文中介绍前几个序列函数，NTILE,ROW_NUMBER,RANK,DENSE_RANK，下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意：序列函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章）数据准备：

2016-09-13 15:47:27 497

原创 tez-ui安装

1.hadoop集群中需要启动timelineserver需要注意的是,除了正常的配置之后，启动t的时候，这个参数也必须设置为true Enables cross-origin support (CORS) for web services where cross-origin web response headers are needed. For example, jav

2016-08-18 11:51:43 3519 1

原创 hive on tez安装

版本：hadoop2.7.2+hive1.2.1+tez0.8.41.下载tez src解压并编译，最好用非root用户，有可能有些资源下载不下来，需要翻墙。。。orz。。。mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true2.编译成功后，在tez-dist/target目录下，能够发现如

2016-08-18 10:42:50 6739 5

原创 hive报错java.io.IOException: Could not find status of job:job_1470047186803_131111

环境：hadoop2.7.2 + hive1.2.1 最近集群环境下，有部分hive任务会报报如下错误： java.io.IOException: Could not find status of job:job_1470047186803_131111at org.apache.hadoop.hive.ql.exec.mr.HadoopJobExecHelp

2016-08-05 10:54:29 7844 3

原创 hive任务中MoveTask的策略

Hive版本：1.2.1 hive将sql转换为mapreduce任务，最后结束的时候可能涉及到将临时文件存到目标目录中。 hive1.2.1版本临时文件有可能是存放在当前的hive工作空间中。例如： insert overwrite table temp.test select id，name from dwd.tk

2016-07-01 14:39:17 4455

转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX

转载留作备用，很好的文章. 地址：http://lxw1234.com/archives/2015/04/176.htm转载请注明：lxw的大数据田地 » Hive分析窗口函数(一) SUM,AVG,MIN,MAX [email protected] 1年前 (2015-04-23) 3980℃2评论Hive中提供了越来越多的分析函数，用于完成负责的统计分

2016-06-28 17:08:37 407

原创 sparkR的一个运行的例子

在sparkR在配置完成的基础上，本例采用spark on yarn模式，介绍sparkR运行的一个例子。在spark的安装目录下，/examples/src/main/r，有一个dataframe.R文件。该文件默认是在本地的模式下运行的，不与hdfs交互。可以将脚本进行相应修改，提交到yarn模式下。在提交之前，要先将${SPARK_HOME}/examples/

2016-06-16 14:13:24 2739 1

原创 sparkR on yarn环境搭建

环境说明：centos6 + hadoop2.6+spark1.6.1 前期hadoop集群以及spark on yarn模式已经搭建完毕。但是如果想要使用sparkR模块的话，需要在集群的所有的节点都安装R语言。我安装的是R-3.2.5版本。 yum install -y gcc-gfortran gcc gcc-c++ readline

2016-06-16 11:25:16 999

hadoop权威指南（第二版）

Flex3styleExplorer

MySQL常用命令汇总

空空如也