自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 HDFS相关概念

自定义配置文件: hdfs: core-site.xml hdfs-site.xml yarn: yarn-site.xml mapreduce: mapred-site.xml默认配置文件: hdfs: core-default.xml hdfs-default.xml yarn: yarn-default.xml mapreduce: mapred-default.xml

2016-05-17 21:54:02 377

原创 Flume与Kafka集成

1、在flume目录中创建flume-kafka-tail-conf.properties文件# The configuration file needs to define the sources, # the channels and the sinks.# Sources, channels and sinks are defined per agent, # in this case

2016-05-11 00:10:16 942

原创 Kafka的安装及测试

1、zokeeper的安装及配置在zokeeper的conf目录下新建zoo.cfg文件,在里面配置如下内容# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial # synchronization phase can takeinitLimit=10# T

2016-05-10 23:22:16 4075

原创 Flume与SparkStreaming集成

1、flume创建配置文件flume-spark-tail-conf.properties```# The configuration file needs to define the sources, # the channels and the sinks.# Sources, channels and sinks are defined per agent, # in this cas

2016-05-09 23:01:56 1539 1

原创 spark之RDD

启动spark-shell bin/spark-shell --master spark://bigdata.eclipse.com:7077reduceBykey、groupBykey、sortByKey、join的使用1、reduceBykeyvar rdd = sc.textFile("/data/wc.input") val reduceBykey = rdd.flatMap(li

2016-04-16 00:02:23 397

原创 Hbase之Java API使用

maven中pom.xml配置<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hive.version>0.13.1</hive.version> <hbase.version>0.98.6-hadoop2</hbase.version> </propert

2016-04-13 21:53:07 403

原创 Spark环境配置

与hadoop比较 Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。 Spark数据处理速度秒杀MapReduce Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写

2016-04-08 21:32:14 346

原创 Hbase使用

配置hbase-env.sh export JAVA_HOME=/opt/app/jdk1.7.0_67配置regionservers bigdata.eclipse.com配置hbase-site.xml<property > <name>hbase.tmp.dir</name> <value>/opt/app/hbase-0.98.6-hadoop2/data</valu

2016-04-07 22:24:13 396

原创 Oozie的安装

hadoop中core-site.xml配置 <!--oozie配置--><property> <name>hadoop.proxyuser.ycong.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.ycong.groups</name> <value>*</value></

2016-04-01 23:15:08 341

原创 大数据可视化工具Hue安装使用

Hue功能 及编译 1)安装系统包yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-devel mysql-dev

2016-03-25 23:56:40 1559

原创 Flume实时抽取监控目录数据

Flume概述 1)Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据的日志进行收集、聚集、移动信息的服务,Flume仅仅运行在linux环境下。 2)Flume是一个基于流式的简单的、灵活的架构,只需要编写三要素:source、channel、sink,然后执行一个命令即可。 3)Flume、kafka实时进行数据收集,spark、storm实时去处理,impala实时查询。

2016-03-25 22:10:44 7010 1

原创 Hive日志分析案例二

1、创建日志原始表-- create tabledrop table if exists hive_ycong.track_log ;create table hive_ycong.track_log(id string,url string,referer string,keyword s

2016-03-24 21:55:34 647

转载 hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分

2016-03-23 21:19:46 229

原创 如何每日增量加载数据到Hive分区表

创建track_log.sh文件#!/bin/sh## 环境变量生效. /etc/profile## 日志目录LOG_DIR=/data/tracklogs## 目录名称yesterday=`date -d -1day '+%Y%m%d'`##hive homeHIVE_HOME=/opt/app/cdh5.3.6/hive-0.13.1-cdh5.3.6## 循环目录for line

2016-03-22 23:48:37 2098

原创 Hadoop伪分布式环境搭建

###linux下安装JDK给jdk执行权限 chmod u + x jdk-7u67-linux-x64.tar.gz解压jdk文件 tar -zxf jdk-7u67-linux-x64.tar.gz配置环境变量 edit this file: vi /etc/profile## JAVA_HOMEexport JAVA_HOME=/home/ycong/sofewar

2016-03-20 13:42:03 238

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除