Hadoop
文章平均质量分 58
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
Parquet与ORC:高性能列式存储格式
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度转载 2017-02-04 16:59:55 · 910 阅读 · 0 评论 -
Hadoop列式存储引擎Parquet/ORC和snappy压缩
相对于传统的行式存储格式,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐。列式存储缺点:在column数很多,每次操作大部分列的时候,cpu压力突增,而且增加处理时长。优点:在cloumn数很多,每次操作若干列的场景,列式存储的性价比,性能更高。在很多大数据的应用场景下面,数据量很大、单列数据字段很多;比如电信行业,具有一定规则的数据,字段很多,但是每次查询仅仅针对其中少数转载 2017-02-04 17:04:11 · 1356 阅读 · 0 评论 -
hive静态分区和动态分区
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition转载 2017-02-08 16:49:16 · 1759 阅读 · 0 评论 -
HDFS 架构
2.X 版本的HDFS 架构图如下:Active Namenode:主Master(只有一个)管理HDFS的命名空间(name space)管理数据块映射信息配置副本策略处理客户端读写请求Standby NameNode:NameNode的热备定期合并fsimage和fsedits,推送给NameNode当Active NameNode出现故原创 2017-01-22 16:46:43 · 638 阅读 · 0 评论 -
HDFS 优缺点
HDFS优点:高容错性:数据自动保存多个副本,副本丢失后,自动恢复适合批处理:移动计算而飞数据。数据位置暴露给计算框架适合大数据处理:GB,TB,设置PB级数据。百万规模以上文件数量。10K+节点规模。流式文件访问:一次性写入,多次读取。保证数据一致性。可构建在廉价机器上:通过多副本提高可靠性。提供容错和恢复机制。HDFS缺点:不适合低延迟数据访问场景:比如毫秒原创 2017-01-22 16:59:03 · 7634 阅读 · 0 评论 -
HDFS 内部机制
1. 写流程2.读流程3.副本放置策略4.可靠性策略5.HDFS数据块6.HDFS 不适合小文件存储原创 2017-01-22 17:14:28 · 616 阅读 · 0 评论 -
HDFS 2.0 HA实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无原创 2017-01-22 17:20:44 · 675 阅读 · 0 评论 -
HDFS fsimage和edits合并实现原理
1. Hadoop 1.x 版本 fsimage和edits合并实现原理 在NameNode运行期间,HDFS的所有更新操作都是直接写到edits中,久而久之edits文件将会变得很大;虽然这对NameNode运行时候是没有什么影响的,但是我们知道当NameNode重启的时候,NameNode先将fsimage里面的所有内容映像到内存中,然后再一条一条地执行edits中的记录,当edits文件原创 2017-01-22 17:25:22 · 4246 阅读 · 0 评论