hadoop
张之海
硕士毕业于东北大学,现就职于北京某猫头鹰公司,大数据工程师职位。
展开
-
Hadoop学习篇 之 1初识Hadoop
1 数据存储与分析为什么要创造(发明/使用)Hadoop?Hadoop的存在有什么意义?数据的存储面临一系列的问题:虽然磁盘存储容量快速增加,但访问速度并没有太大的变化。一个简单的解决办法:从多个磁盘上读取数据。例如,有100个磁盘,每个磁盘存储1%的数据,进行并行读取。要实现对多个磁盘数据的并行读写,还有更多的问题要解决。硬件故障 内容:使用多个硬件时,其中任一硬件发生...原创 2018-03-08 21:13:04 · 310 阅读 · 0 评论 -
Hive优化
1 排序的选择: 合理地选择排序order by 全局排序sort by 局部排序distribute by 分桶cluster by = distribute by + sort by2 笛卡尔积 hive中慎用笛卡尔积笛卡尔积没有关联条件,转换为mr的时候,所有数据都到一个reducetask中 性能很低若一定要使用笛卡尔积:大表连接小表优化:额外添加一个关联键 两个表都添加...原创 2019-07-16 16:37:59 · 449 阅读 · 0 评论 -
Hive数据倾斜及解决方法
1 相似网址本人博客为日常笔记直接粘贴,未整理排版,可参考相似内容的博客。Hive学习之路 (十九)Hive的数据倾斜2 个人光环大数据学习Hive面试常问:hq语句优化sort by order by distribute by分区表 分桶表的区别内部表 外部表的区别数据倾斜:数据分布不均匀hive底层的执行引擎 mr:mapreduce 由两部分组成:map 、 redu...原创 2019-07-16 18:47:27 · 2573 阅读 · 0 评论 -
Hadoop实战
第3章 MapReduce计算模型原创 2019-07-29 14:03:38 · 238 阅读 · 0 评论 -
Hadoop调度器
Hadoop中运行作业的顺序,由调度器来决定。Hadoop有三种作业调度器。1 FIFO 先入先出调度器hadoop中默认的调度器,采用先进先出的原则先按照作业的优先级,优先级相同的再按照作业的提交顺序,运行作业。缺点:某个作业执行时间较长,其他的作业就只能等待。2 Capacity Scheduler(容量调度器)选择占用资源小,优先级高的先执行计算每个队列中正在运行的任务数与其...原创 2019-08-06 22:29:48 · 253 阅读 · 0 评论 -
Hadoop相关知识点
什么是Hadoop一个分布式计算平台,以Hadoop分布式文件系统(HDFS)、MapReduce为核心。Hadoop 的优点易扩展:方便向集群中添加节点。可靠:容错:多个副本。高效:在节点间动态移动数据。Hadoop的项目结构HDFS、MapReduce、Yarn、Common。Zookeeper、Hive、HBASE、Pig。MapReduce的计算流程输入数据——切片—...原创 2019-08-17 23:33:39 · 181 阅读 · 0 评论 -
Hadoop
1 Hadoop集群的守护进程和相关的角色Namenode:运行在主节点上,负责存储元数据。它管理文件的块信息,以及块在集群中分布的信息。Datanode:在从节点上,实际存储数据。它定时向Namenode发送本节点上块的信息。Secondary Namenode:它会定期通过Editlog合并NameNode的变化,从而它r的日志不会过大。它可以在NameNode的故障的情况下做为副本使用...原创 2019-09-07 12:58:31 · 207 阅读 · 0 评论 -
HDFS
1 读写数据流程参考文献:[1] HDFS读写流程[2] HDFS读写流程(史上最精炼详细)1.1 读流程client访问NameNode,查询元数据信息,获得这个文件的数据块位置列表,返回输入流对象。客户端并发的读每个块(即图中4,5是并发执行的,每个block都有多个副本,程序会找相对空闲的DataNode节点去读相应副本)。关闭该输入流,在客户端将读取的所有块合并成一个文件...原创 2019-09-07 23:01:54 · 236 阅读 · 0 评论 -
Hive
1 数据倾斜参考文献:[1] Hive的数据倾斜什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点主要表现reduce任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时...原创 2019-09-07 23:41:51 · 933 阅读 · 0 评论 -
Hive总结
1 hive的启动方式hive有两种启动方式(1)hive命令这种方式只能在安装hive的结点使用,在其他结点不能访问。(2)hiveserver2 + beeline先在主节点执行hiveserver2命令,相当于建立了一个服务端。然后在任意结点可通过beeline命令,连接hiveserver2。需要指定连接jdbc:!connect jdbc:hive2://hadoop0...原创 2019-07-15 08:41:27 · 564 阅读 · 0 评论 -
Hadoop开发 error
Hadoop 集群搭建完成,第一次格式化Namenode结点后:正常情况会出现:Namenode running as process …Datanode running as process …Datanode running as process …若使用jps命令,没有出现Namenodecore-site.xml中,fs.defaultFS的值为hdfs://nna:900...原创 2019-03-26 23:16:23 · 636 阅读 · 0 评论 -
Hadoop 集群搭建 第二次搭建总结
每一次搭建,都会有不同的理解,所以。。。嘻嘻嘻,多搭建几次吧,熟能生巧~1 安装Vmware网上教程一大堆,不再说了。2 新建虚拟机建立一个虚拟机,主机名为nna,系统采用CentOS6.5。在该虚拟机中安装Vmware Tools 工具,方便以后使用。3 配置Vmware和5台虚拟机的网络3.1 配置nna的网络连接笔者单独写了一篇较详细地介绍,请参考另一篇文章:Vmware C...原创 2019-03-24 14:38:04 · 403 阅读 · 0 评论 -
hdfs四大机制
1 心跳机制重点:两个参数和namenode判定datanode宕机所需的时间因为hdfs具有心跳机制,所以在搭建分布式集群时,必须进行时间同步。心跳机制的原因:namenode是集群中的老大,负责进行任务分工,要进行分工,必须知道各个datanode结点的存活状态。namenode怎么 知道datanode的存活状态?datanode每隔一定时间向namenode发送一次心跳报告,目的就...原创 2019-05-30 07:09:43 · 1229 阅读 · 0 评论 -
Hadoop元数据
HDFS的元数据包含三部分:抽象目录树数据和块映射关系数据块的存储节点元数据有两个存储位置:内存:1、2、33在集群启动时,Datanode 通过心跳机制向Namenode发送。磁盘:1、2集群启动时需要将磁盘中的元数据加载到内存中,所以磁盘中的元数据不适宜过多。元数据的存储格式:data/hadoopdata/目录下有三个文件夹data数据的真实存储目录,即dat...原创 2019-06-04 08:43:33 · 4000 阅读 · 0 评论 -
hdfs文件上传流程
1 文件上传1.1 文档1.2 课程2 文件下载2.1 视频课程2.2 文档转载 2019-06-10 22:38:45 · 4994 阅读 · 0 评论 -
checkpoint
1 触发checkPoint的条件2 checkPoint过程3 关于checkPoint需要注意的问题3 checkPoint整个过程文档介绍原创 2019-06-05 08:02:15 · 2176 阅读 · 0 评论 -
hdfs三类节点的作用和块的位置信息
1 三类节点的作用2 块的位置信息原创 2019-06-05 08:22:04 · 1068 阅读 · 0 评论 -
Hive 内部表 外部表 及 适用场景
内部表:看名字,限于内部使用。删除内部表时,表的元数据和数据都会被删除。外部表:看名字,可以外部共享。删除外部表时,表的元数据会被删除,但是数据不会被删除。适用场景:由上面的描述可知,外部表可以大家一起使用,即便误删了也可以恢复,比如日志的原始数据。而内部表仅限于少数人使用,比如存储自己的中间结果。...原创 2019-06-21 18:31:05 · 1916 阅读 · 0 评论 -
zookeeper
1 zookeeper是什么参考文献:Zookeeper可以干什么zookeeper为分布式应用程序提供一致性协调服务,包括配置维护、域名服务、分布式锁、集群管理等。配置维护同一个应用程序在不同服务器上的配置信息相同。将应用程序的配置信息存储在Zookeeper的某个结点上,让所有需要修改的服务器监控该信息的状态。域名服务服务特别多的时候,如果我们在本地保存服务的地址的时候将非常不方...原创 2019-09-08 00:17:21 · 494 阅读 · 0 评论