自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 hive的四种文件存储格式

hive分为四种存储格式:        1.TEXTFILE2.SEQUENCEFILE3.RCFILE4.ORCFILE在其中textfile为默认格式,如果在创建hive表不提及,会默认启动textfile格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;与此同时,sequencefile,rcfile,orcfile自己不能直接从本地导入数据,需要将数据转为te...

2019-01-22 14:57:17 8463

转载 spark架构基础---RDD理解及宽依赖和窄依赖

1)RDD概念:Resilient Distributed Datasets  弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(transformation操作)而创建。RDD可看作一个spark的对象,它本身存在于内...

2019-01-16 18:48:33 263

原创 spark算子讲解(20_Transformation + 12_Action)

                                               Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类:        1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。      Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD ...

2019-01-16 18:13:58 454

原创 Hadoop搭建

http://hadoop.apache.org/docs/r1.0.4/cn/index.html  里面详细阐述几千节点大集群或几个节点小集群的搭建等重要架构的设计

2019-01-10 08:54:14 226 3

原创 关于index of网址所在

http://distfiles.macports.org/ 

2019-01-10 08:51:38 753

转载 hadoop之datanode节点超时时间设置与HDFS冗余数据块的自动删除

一  Datanode节点超时时间设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:    timeout  = 2 * heartbeat.recheck.interv...

2019-01-08 20:22:48 432

原创 关于自搭建hadoop出现slave服务器没出现DataNode节点的解决方法

首先先看正确hadoop下的master,slave服务器节点情况异常情况:slave服务器未出现DataNode节点问题描述:一般是格式化hdfs出现的情况,例如hadoop namenode -format或 hdfs namenode -format 强制性多次初始化数据,导致VERSION里面的nameid,clusterID,blockpoolID变化,导致m...

2019-01-08 20:03:57 5426

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除