![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
黄佳俊、
to be or not to be!
热爱生活!
执着学习!
展开
-
无法联系到 HBase Thrift 1 服务器:Could not connect to localhost:9090
错误原因:因为hbase与Hue集成时需要开启9095端口.就是thrift解决方案:先执行:hbase thrift start &原创 2022-05-11 19:44:45 · 798 阅读 · 0 评论 -
HRegionServer的详解
Point 1:HRegionServer一般和DataNode在同一台机器上运行,实现数据的本地性。Point 2:HRegionServer包含多个HRegion,由WAL(HLog)、BlockCache、MemStore、HFile组成。1.WAL即Write Ahead Log,在早期版本中称为HLog,它是HDFS上的一个文件,如其名字所表示的,所有写操作都会先保证将数据写入这个Log文件后,才会真正更新MemStore,最后写入HFile中。采用这种模式,可以保证HRegionSe原创 2022-04-22 10:38:53 · 1074 阅读 · 0 评论 -
zookeeper中的QuorumPeerMain解析
[root@e-root-4 ~]# jps10139 Jps31212 QuorumPeerMainQuorumPeerMain是zookeeper集群的启动类,用来加载配置启动QuorumPeer线程的。Quorum是定额的意思,Peer是对等的意思。Quorum表示zookeeper启动后,服务数量就确定了。zookeeper是基于paxos算法实现的,paxos是一个唯一的分布式集群一致性算法,在zookeeper中,被演绎为集群分布式协调可持续服务。在zookeeper的配置文件中,配置集群原创 2022-04-22 10:39:35 · 1089 阅读 · 0 评论 -
Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此:错
内存使用:Hive: 在执行过程中如果内存放不下所有数据,则会使用外存,以保证Query能顺序执行完。每一轮MapReduce结束,中间结果也会写入HDFS中,同样由于MapReduce执行架构的特性,shuffle过程也会有写本地磁盘的操作。Impala: 在遇到内存放不下数据时,当前版本0.1是直接返回错误,而不会利用外存,以后版本应该会进行改进。这使用得Impala目前处理Query会受到一定的限制,最好还是与Hive配合使用。Impala在多个阶段之间利用网络传输数据,在执行过程不会有写磁盘的操原创 2022-01-11 20:59:25 · 1128 阅读 · 0 评论 -
第二名称节点为什么无法解决单点故障问题
第二名称节点概述:当第一节点中Editlog到一个临界值时,HDFS会暂停服务,由第二节点将拷贝出Editlog,复制、添加到Fslmage后方并清空原Editlog的内容。这里有一点要注意这种备份是冷备份的形式,即没有实时性,需要停止服务,等数据恢复正常后继续使用。为什么无法解决单点故障问题?因为当第一节点故障了之后,第二节点并不能代替第一节点。而不是说第二节点数据可以复制到第一节点就有用的,因为此时第一节点是处于宕机的状态,是无法使用的,数据传输也不能。...原创 2022-01-11 20:49:59 · 1086 阅读 · 0 评论 -
关于Hadoop1.0的局限性与不足:
1.抽象层次低对于简单的功能,编写大量的代码。2.表达能力有限MR把复杂分布式编程工作高度抽象到两个函数上,即MAP与REDUCE上,实际生产环境上中有些不能只用简单的两个函数完成。3.要管理作业间复杂的依赖关系实际应用通常需要大量的job协作完成,job之间往往存在复杂的依赖关系。4.迭代效率低对于需要迭代的任务。需要反复读写HDFS文件中的数据,大大降低了迭代的效率5.资源浪费Reduce任务需要等到所有的MaP任务完成之后才开始。6.实时性差适用于离线批处.原创 2022-01-11 20:14:52 · 2433 阅读 · 0 评论