大数据开发学习
写吧HJ
向着数据研发工程师不断努力
展开
-
hive 与 HBase的对比总结
1. 两者分别是什么?Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行Hadoop。Apache HBase是一种Key/Value系统,它运行...原创 2019-03-25 13:34:55 · 881 阅读 · 0 评论 -
YARN中的调度器
–摘自《Hadoop权威指南》原创 2019-05-09 16:47:54 · 159 阅读 · 0 评论 -
YARN与MapReduce V1的对比
分散了jobTracker 的任务。资源管理任务由资源管理器负责,作业启动、运行和监测任务由分布在集群节点上的应用主题负责。这样大大减缓了MapReduce V1中jobTracker 单点瓶颈和单点风险的问题,大大提高了集群的扩展性和可用性。在MapReduce V2中ApplicationMaster是一个用户可定制的部分,因此用户可以针对编程模型编写自己的应用主题程序。这样大大扩展...原创 2019-05-09 16:35:37 · 672 阅读 · 0 评论 -
YARN的工作原理
YARN的组成部分YARN共有ResourceManager、NodeManager、JobHistoryServer、Containers、Application Master、job、Task、Client组成。Resource Manager: 一个Cluster 只有一个,负责资源调度、资源分配等工作。JobHistory Server: 负责查询job运行进度及元数据管理。no...原创 2019-05-09 16:32:02 · 449 阅读 · 0 评论 -
Hadoop中小文件过多的问题
问题定义HDFS上的小文件是指文件大小明显小于HDFS上块(block)大小(默认64MB)的文件。在hdfs上大量存储小文件会给hadoop的扩展性和性能带来严重问题。原因首先,在HDFS中,任何一个文件,目录或者block在NameNode节点的内存中均以一个对象表示(元数据)(Every file, directory and block in HDFS is represented ...原创 2019-05-09 16:15:22 · 3035 阅读 · 0 评论 -
hdfs的日常维护
Datanode块扫描器各个datanode运行一个块扫描器,定期检测节点上的所有块,从而在客户端读到坏块之前及时检测和修复坏块。可以依靠DataBlockScanner所维护的块列表依次扫描块,查看是否存在校验和错误。扫描器利用节流机制,来维持datanode的磁盘带宽。默认情况下,扫描器每隔三周就会检测块,以应对可能的磁盘故障,这个周期由dfs.datanode.scan.period.h...原创 2019-05-06 13:42:48 · 560 阅读 · 0 评论 -
hdfs的安全模式
安全模式的作用hadoop的安全模式即只读模式,是指当前系统中数据块的副本数比较少,在该阶段要对数据块进行复制操作,不允外界对数据块进行修改和删除等操作。Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件(这个操作不需要辅助namenode)和一个空的编辑日志。此...原创 2019-05-06 11:53:39 · 557 阅读 · 0 评论 -
DataNode的工作机制
问题场景:1、集群容量不够,怎么扩容?2、如果有一些datanode宕机,该怎么办?3、datanode明明已启动,但是集群中的可用datanode列表中就是没有,怎么办?以上这类问题的解答,有赖于对datanode工作机制的深刻理解概述Datanode工作职责:存储管理用户的文件块数据定期向NameNode汇报自身所持有的block信息(通过心跳信息上报)(这点很重要,因为...原创 2019-05-06 11:26:23 · 171 阅读 · 0 评论 -
NameNode工作机制
学习目标:理解namenode的工作机制尤其是元数据管理机制,以增强对HDFS工作原理的理解,及培养hadoop集群运营中“性能调优”、“namenode”故障问题的分析解决能力问题场景:1、集群启动后,可以查看文件,但是上传文件时报错,打开web页面可看到namenode正处于safemode状态,怎么处理?2、Namenode服务器的磁盘故障导致namenode宕机,如何挽救集群及数据?...原创 2019-05-06 11:23:14 · 270 阅读 · 0 评论 -
Hadoop的机架感知功能
原理默认情况下,hadoop的机架感知是没有被启用的。所以,在通常情况下,hadoop集群的HDFS在选机器的时候,是随机选择的,也就是说,很有可能在写数据时,hadoop将第一块数据block1写到了rack1上,然后随机的选择下将block2写入到了rack2下,此时两个rack之间产生了数据传输的流量,再接下来,在随机的情况下,又将block3重新又写回了rack1,此时,两个rack之间...原创 2019-04-26 15:33:56 · 477 阅读 · 0 评论 -
hdfs中的复本放置策略
hadoop默认的复本数为:3hadoop的默认布局策略是:在运行客户端的节点上放第1个复本第2个复本放在与第一个不同且随机另外选择的机架中的节点上第3个复本放在与第2个复本放在同一个机架上Hadoop的副本放置策略在可靠性(副本在不同机架)和带宽(只需跨越一个机架)中做了一个很好的平衡。...原创 2019-04-26 15:29:04 · 757 阅读 · 0 评论 -
hdfs的工作机制
工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用,但实际并非如此。要想将技术准确用在恰当的地方,必须对技术有深刻的理解概述HDFS集群分为两大角色:NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode 负责管理...原创 2019-04-26 15:26:40 · 341 阅读 · 0 评论 -
hdf的基本概念与使用
基本概念首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;重要特性如下:(1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M(2)HDFS文件系统会给客户...原创 2019-04-26 15:21:04 · 5302 阅读 · 0 评论 -
haddop环境搭建与配置
下载地址http://archive.cloudera.com/cdh5/cdh/5/建议下载cdh版本,可以帮助解决很多依赖问题,也是工程上常用的版本。配置流程准备Linux环境1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ###1.2修改...原创 2019-04-26 15:09:42 · 291 阅读 · 0 评论 -
HBase中LSM树的介绍
LSM树(Log-Structured Merge Tree)存储引擎和B树存储引擎一样,同样支持增、删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写入问题。LSM树和B+树相比,LSM树牺牲了部分读性能,用来大幅提高写性能。LSM树的设计思想非常朴素:将对数据的修改增量保持在内存中,达到指定的大小限制后将这些修改操作批量写入磁盘,不过读取的时候稍微麻烦,需要合并磁盘中历史数据和内...原创 2019-04-08 00:09:51 · 256 阅读 · 0 评论 -
HBase中LSM(Log-Structed Merge)的原理
LSM(Log-Structed Merge)树的原理把一棵大树拆分成N棵小树,它首先写入内存中,随着小树越来越大,内存中的小树会flush到磁盘中,磁盘中的树定期可以做merge操作,合并成一棵大树,以优化读性能。LSM树与B树相比,牺牲了部分的读性能,大幅提高写性能。LSM树的存储引擎和B树存储引擎一样,同样支持增、删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写入问题。H...原创 2019-04-11 13:55:00 · 341 阅读 · 0 评论 -
spark高可用的配置
spark高可用集群的搭建方式搭高可用的集群有两种方式,一种是基于文件系统,一种是基于zookeeper。但是zookeeper有选举的功能,也就是当一台master挂掉之后,备用的master能够被zookeeper启动起来,并基于zookeeper恢复数据。zookeeper的作用托管主节点的信息,HDFS(namenode),YARN(resourcemanager)。自动选举le...原创 2019-04-01 11:21:01 · 620 阅读 · 1 评论 -
hive 与HBase对比的后续思考之为什么HBase更适应实时场景?-- 未完待续
HBase的读写原理HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的,即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegion server服务器,然后直接在服务器的一个region上查找要匹配的数据,并且这些数据部分是经过cache缓存的。前面说...原创 2019-03-25 13:42:47 · 527 阅读 · 1 评论 -
Mapreduce都能实现哪些Join?
概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 redu...原创 2019-05-09 16:50:29 · 204 阅读 · 0 评论