自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(125)
  • 资源 (4)
  • 收藏
  • 关注

原创 hive打patch流程说明

版本:hive2.1.0 本文以hive2.1.0中的HIVE-14483 的bug来举例说明如何打patch。1.bug详细地址:https://issues.apache.org/jira/browse/HIVE-14483bug说明:主要是针对hive orc的array数据类型超过1024个报数组越界的bug2.从jira地址上下载官方对应的patch文件...

2018-06-08 16:16:11 2047

原创 kafka topic acl授权

在前一篇,kafka启用认证(http://blog.csdn.net/zhoudetiankong/article/details/78229416)的基础上,来说明kafka topic的acl权限。1.修改server.propertiesauthorizer.class.name = kafka.security.auth.SimpleAclAuthorizer#设置超级用户super.u

2017-10-16 11:27:58 8566

原创 kafka 认证

简介kafka从0.9版本开始引入安全体系(1)支持brokers和client之间的连接认证。使用SSL或者SASLSASL/GSSAPI (Kerberos) - starting at version 0.9.0.0SASL/PLAIN - starting at version 0.10.0.0SASL/SCRAM-SHA-256 and SASL/SCRAM-SHA-512 - sta

2017-10-13 18:52:34 4529 1

原创 spark-streaming 编程(六)mapwithState

mapWithState

2017-08-24 11:29:14 2352

原创 spark-streaming 编程(五)updateStateByKey

updateStateByKey(func)从名字上来看,该函数会更新根据key聚合,并不断更新value值要想使用该函数,Dstream之前的类型必须是K,V形式的二元组。 经过执行func函数后,会返回一个key的所有的聚合值得状态。以word count为例,对于每一个批的数据进行分解聚合,会得到当前的这个批的状态,经过聚合后得到值的,假设有(word1,10),(word2,15),(wo

2017-08-24 10:55:43 657

原创 spark-streaming 编程(四)自定义输出foreachRDD

spark-streaming foreachrdd

2017-08-23 19:14:56 1302

原创 spark-streaming 编程(三)连接kafka消费数据

spark-streaming kafka

2017-08-23 11:36:15 4403 2

原创 spark-streaming 编程(二) word count单词计数统计

spark-streaming

2017-08-22 18:57:31 1828

原创 spark-streaming 编程(一)构建开发环境

环境: hadoop2.7.2 + spark 2.1.0+kafka0.10 开发环境:Intellij idea ,jdk1.8Intellij创建maven项目: 修改pom.xml,主要是修改scala版本以及target:-jvm;另外,由于我经常使用maven assembly来打包,所以在maven中添加了assembly;<project xmlns="http://maven.

2017-08-22 18:19:23 578

原创 hadoop cgroup源码解读

版本:hadoop2.7.2 + centos 6.5现状想要理解hadoop cgroup,首先需要对linux cgroup有一定的了解,yarn目前的调度基于内存和cpu,但是cpu资源并没有像内存资源那样进行了严格的限制,一个container有可以占据很多的cpu资源。启用hadoop cgroup,可以参照我的博客hadoop启用cgroup还有一篇关于cgroup的介绍当前版本hado

2017-07-26 18:23:11 1302

原创 linux cgroup 学习的一些总结

hadoop cgroup, cgroup

2017-07-26 15:51:51 990 2

原创 apache hadoop 2.7.2 yarn node label测试结果

版本hadoop2.7.2(1)capacity schedule只支持fifo调度策略,cdh或者hdp版本会有支持fair的调度策略,但是社区版目前还不支持。(2)yarn node label 只支持capacity schedule,不支持fair schedule(3)yarn node label社区版功能很不完善,具体表现(3.1)该版本创建分区无法指定是可共享的,即无法指定yarn

2017-07-11 10:17:15 1431

原创 hadoop启动cgroups,centos6.5+hadoop2.7.2

centos 6.5 hadoop启用cgroups,yarn的启动用户是hadoop1.centos6.5 需要安装cgroupyum install -y libcgroup遇到的问题,报错groupadd: cannot open /etc/group(1)查看隐藏权限:lsattr /etc/group----i--------e- /etc/group(2)更改隐藏权限:chatt

2017-06-27 19:33:34 835

原创 hive insert overwrite directory 报错

hive insert overwrite directory 报错:2017-06-07T16:56:11,766 ERROR [main]: exec.Task (:()) - Failed with exception Unable to move source hdfs://testhadoop/tmp/t1/.hive-staging_hive_2017-06-07_16-56-05_91

2017-06-12 11:46:18 6524

原创 tez hive llap安装

版本 hive2.1.0 + hadoop2.7.2 + tez0.8.4 hive llap 是基于tez的一种近实时查询方案。我用的是apache版的,所以第一步是需要对hive和tez进行编译,以使他们的版本适配。测试中发现,如果要想使用hive llap,则hive和tez版本必须基于正确的版本编译。软件编译工作:hive安装下载hive2.1.0源码,修改pom.xml ,将hadoop.

2017-06-12 11:12:02 5747 5

原创 hql由于关键字报错

cannot recognize input near 'INTERVAL' 'string' ')' in column specification报错

2017-05-23 16:23:20 3145

原创 hadoop hive 压缩参数测试

hadoop hive 压缩

2017-05-11 11:02:29 732

原创 hbase compaction 简单介绍

简单说一下hbase表的存储:一个表中的数据存储到regionserver上,regionserver会管理实际存储表的数据的region,每个region上每一个columnfamily会有一个Memstore。   当memstore 达到了hbase.hregion.memstore.flush.size限制的值,memstore会将它的内容flush到StoreFile(HFile)。

2017-03-31 14:00:15 1307 2

原创 hbase split策略

hbase版本:1.2.4   当前版本默认的region split策略是    hbase.regionserver.region.split.policyorg.apache.hadoop.hbase.regionserver.IncreasingToUpperBoundRegionSplitPolicyhbase-default.xml       同一

2017-03-31 11:42:38 1631

原创 hadoop,hive中的mv(rename)操作

系统环境:hadoop2.7.2+hive1.2.1       大约一年多之前,将hive版本从0.14升级到了1.2.1。之后发现新版本在最后一步写入数据的时候,会比以前慢很多。最后发现是由于hive新版本中,默认中间结果文件是在表空间下生成以  .hive-staging_hive_  开头的文件。以前版本默认是在/tmp/hive下。最后查出来解决办法:       修改配置文件参

2017-02-07 17:38:21 9378 1

原创 spark sql模块

版本:spark1.6.1        spark  sql是spark的一个结构化数据处理模块。有三种方式与spark sql进行交互        SQL:提供了spark-sql的命令端,以及spark的hiveserver2方式。如果编程的话,将会返回一个DataFrames.能够直接跟hive进行交互。        DataFrames:能够从一个已经存在的RDD,hiv

2016-09-26 17:46:18 619

原创 spark中的shared variables

Spark中涉及到共享变量的话,有两种办法:         一.        broadcast variables 只读变量,创建后将向所有的executor节点进行分发。各个executor计算是,可以取出这个变量,来参与计算。相比直接将需要的文件拷贝到各个节点,更加高效。spark在计算的每个stage将会自动广播公共数据到计算节点。        scala> val b

2016-09-26 11:59:33 468

转载 Spark SQL中实现Hive MapJoin

转载地址:http://lxw1234.com/archives/2015/06/296.htm在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用Map Task扫描大表的同时,完成join,这对join的性能提升非常多。在SparkSQL中,目前还不支持

2016-09-23 16:17:11 5166 2

原创 spark 的transformations之bykey的区别

spark中提供的bykey相关的transforms有以下几个             这几个操作基本都需要是原始输入是(K,V).     这些都会引发shuffle操作     groupByKey的输入是(K,V),输出是(K,Iterable)。     reduceByKey的输入是(K,V),输出也是(K,V)。对于相同的key的值,会执行func进行聚合

2016-09-23 15:53:54 492

原创 spark 的transformations之map,flatMap,mapPartitions,mapPartitionsWithIndex的用法

版本spark1.6.1      spark的编程思想跟mapreduce有很大的相似之处,这几个函数都可以看做是类似在map端的操作处理。      一个RDD(分布式弹性数据集),包含n个partition,你可以将每个partition看做是类似map的操作。  Transformation Meaningmap(func) Return a new distributed

2016-09-23 11:19:10 3620

转载 hive写udaf的示例

转载地址http://beekeeperdata.com/posts/hadoop/2015/08/17/hive-udaf-tutorial.htmlThis is part 3/3 in my tutorial series for extending Apache Hive.OverviewPost 1 - Guide to Regular o

2016-09-23 09:49:28 1320

原创 spark初始简单的例子

环境scala ide+mavenscala ide 创建maven项目。然后创建src/main/scala目录。pom文件配置:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:s

2016-09-22 19:16:14 1782

原创 hive metastore ha 配置

1.需要在两台或多台机器上启动hive metastore 服务,这台机器上hive配置如下 javax.jdo.option.ConnectionURL jdbc:mysql://10.140.60.53:3306/hive?createDatabaseIfNotExist=true JDBC connect string for a JDBC metastor

2016-09-18 11:44:23 3880

原创 tez中的brocast join

最近在使用tez的过程中发现,tez中提供了类似于hive on mr中的mapjoin的操作,叫做brocast join。对于小表join大表有很好的效果。        看例子:       set hive.execution.engine=tez;set hive.convert.join.bucket.mapjoin.tez=true; set hive.auto.conv

2016-09-14 15:08:31 2324

转载 Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

转载地址:  GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备: 2015-03,2015-03-10,cookie1 2015-03,2015-03-10,

2016-09-13 16:37:11 2812

转载 Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE

转载地址:lxw的大数据田地 » Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)Hive版本为 apache-hive-0.13.1数据准备: cookie1,2015-04-10 10:0

2016-09-13 16:16:53 538

转载 Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

转载地址: Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK这两个序列分析函数不是很常用,这里也介绍一下。注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)Hive版本为 apache-hive-0.13.1数据准备: d1,user1,1000 d1,user2,2000 d

2016-09-13 16:10:38 1410

转载 Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

转载地址: http://lxw1234.com/archives/2015/04/181.htm本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)数据准备:

2016-09-13 15:47:27 497

原创 tez-ui安装

1.hadoop集群中需要启动timelineserver需要注意的是,除了正常的配置之后,启动t的时候,这个参数也必须设置为true  Enables cross-origin support (CORS) for web services where cross-origin web response headers are needed. For example, jav

2016-08-18 11:51:43 3519 1

原创 hive on tez安装

版本:hadoop2.7.2+hive1.2.1+tez0.8.41.下载tez src解压并编译,最好用非root用户,有可能有些资源下载不下来,需要翻墙。。。orz。。。mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true2.编译成功后,在tez-dist/target目录下,能够发现如

2016-08-18 10:42:50 6739 5

原创 hive报错java.io.IOException: Could not find status of job:job_1470047186803_131111

环境:hadoop2.7.2 + hive1.2.1        最近集群环境下,有部分hive任务会报报如下错误:        java.io.IOException: Could not find status of job:job_1470047186803_131111at org.apache.hadoop.hive.ql.exec.mr.HadoopJobExecHelp

2016-08-05 10:54:29 7844 3

原创 hive任务中MoveTask的策略

Hive版本:1.2.1        hive将sql转换为mapreduce任务,最后结束的时候可能涉及到将临时文件存到目标目录中。        hive1.2.1版本临时文件有可能是存放在当前的hive工作空间中。         例如:         insert overwrite table  temp.test select id,name from dwd.tk

2016-07-01 14:39:17 4455

转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX

转载留作备用,很好的文章. 地址:http://lxw1234.com/archives/2015/04/176.htm转载请注明:lxw的大数据田地 » Hive分析窗口函数(一) SUM,AVG,MIN,MAX [email protected] 1年前 (2015-04-23) 3980℃2评论Hive中提供了越来越多的分析函数,用于完成负责的统计分

2016-06-28 17:08:37 407

原创 sparkR的一个运行的例子

在sparkR在配置完成的基础上,本例采用spark on yarn模式,介绍sparkR运行的一个例子。     在spark的安装目录下,/examples/src/main/r,有一个dataframe.R文件。该文件默认是在本地的模式下运行的,不与hdfs交互。可以将脚本进行相应修改,提交到yarn模式下。      在提交之前,要先将${SPARK_HOME}/examples/

2016-06-16 14:13:24 2739 1

原创 sparkR on yarn环境搭建

环境说明:centos6 + hadoop2.6+spark1.6.1       前期hadoop集群以及spark on yarn模式已经搭建完毕。但是如果想要使用sparkR模块的话,需要在集群的所有的节点都安装R语言。       我安装的是R-3.2.5版本。           yum install -y gcc-gfortran gcc gcc-c++ readline

2016-06-16 11:25:16 999

hadoop权威指南(第二版)

hadoop权威指南,第二版,中文翻译版,可能有的章节不太清楚,hadoop入门书籍。

2013-11-25

Flex3styleExplorer

Flex3styleExplorer css可视化设计

2013-05-09

MySQL常用命令汇总

MySQL基础

2013-01-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除