Hadoop
文章平均质量分 58
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
Parquet与ORC:高性能列式存储格式
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度转载 2017-02-04 16:59:55 · 909 阅读 · 0 评论 -
Hadoop列式存储引擎Parquet/ORC和snappy压缩
相对于传统的行式存储格式,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐。列式存储缺点:在column数很多,每次操作大部分列的时候,cpu压力突增,而且增加处理时长。优点:在cloumn数很多,每次操作若干列的场景,列式存储的性价比,性能更高。 在很多大数据的应用场景下面,数据量很大、单列数据字段很多;比如电信行业, 具有一定规则的数据,字段很多,但是每次查询仅仅针对其中少数转载 2017-02-04 17:04:11 · 1334 阅读 · 0 评论 -
hive静态分区和动态分区
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。 下面的语句创建了一个简单的分区表: create table partition_test (member_id string, name string ) partition转载 2017-02-08 16:49:16 · 1754 阅读 · 0 评论 -
HDFS 架构
2.X 版本的HDFS 架构图如下: Active Namenode: 主Master(只有一个) 管理HDFS的命名空间(name space) 管理数据块映射信息 配置副本策略 处理客户端读写请求 Standby NameNode: NameNode的热备 定期合并fsimage和fsedits,推送给NameNode 当Active NameNode出现故原创 2017-01-22 16:46:43 · 633 阅读 · 0 评论 -
HDFS 优缺点
HDFS优点: 高容错性:数据自动保存多个副本,副本丢失后,自动恢复适合批处理:移动计算而飞数据。数据位置暴露给计算框架适合大数据处理:GB,TB,设置PB级数据。百万规模以上文件数量。10K+节点规模。 流式文件访问:一次性写入,多次读取。保证数据一致性。可构建在廉价机器上:通过多副本提高可靠性。提供容错和恢复机制。 HDFS缺点: 不适合低延迟数据访问场景:比如毫秒原创 2017-01-22 16:59:03 · 7585 阅读 · 0 评论 -
HDFS 内部机制
1. 写流程 2.读流程 3.副本放置策略 4.可靠性策略 5.HDFS数据块 6.HDFS 不适合小文件存储原创 2017-01-22 17:14:28 · 615 阅读 · 0 评论 -
HDFS 2.0 HA实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无原创 2017-01-22 17:20:44 · 661 阅读 · 0 评论 -
HDFS fsimage和edits合并实现原理
1. Hadoop 1.x 版本 fsimage和edits合并实现原理 在NameNode运行期间,HDFS的所有更新操作都是直接写到edits中,久而久之edits文件将会变得很大;虽然这对NameNode运行时候是没有什么影响的,但是我们知道当NameNode重启的时候,NameNode先将fsimage里面的所有内容映像到内存中,然后再一条一条地执行edits中的记录,当edits文件原创 2017-01-22 17:25:22 · 4238 阅读 · 0 评论