Hadoop
Hadoop搭建/使用和原理分析。
文大侠666
专注安全领域,擅长Go/C++,玩点大数据。
展开
-
1.Hadoop基本概念
序言Hadoop的基本概念Hadoop生态推荐学习资料- 书籍- 视频- 文档序言做IT的都知道数据的重要性,尤其在这个万物互联的时代,一方面TB、PB级的数据迅速增长,另一方面需要从这些数据中获取各种各样的复杂信息。基于传统的关系数据库技术的数据分析已经满足不了海量数据的需求,这种情况下基于分布式的大数据技术诞生了,它是为了解决海量数据的存储和计算的。毫无疑问的是,就当...原创 2019-02-17 16:17:27 · 454 阅读 · 0 评论 -
2.hadoop伪分布式安装
预备环境准备下载和安装配置核心配置存储配置计算启动和测试预备环境准备JAVA环境配置建议使用JDK,最低使用Java 7,都2018了建议使用Java 8。官网下载最新版本JAVA,也可以源安装OpenJDK。/etc/profile添加环境变量如下:JAVA_HOME=/home/xxx/jdk1.8.0_181CLASSPATH=.:$JAVA_HOME/lib...原创 2019-02-17 16:19:29 · 303 阅读 · 0 评论 -
3.最简单的MR-WordCount
程序结构map部分reduce部分主入口测试运行历史分析下载程序结构从这一节开始,我会讲MR任务编写的方方面面,但是仅限在任务编写这块,不会过度涉及HDFS和Yarn调度的深入分析,计算时提也只是为了更好的理解MR任务。对于Mapreduce计算模型会深入介绍,只有了解Mapreduce计算模型计算模型才能真正掌握整个MR任务的编写,对于相关任务的调优和过程划分才会有清洗的...原创 2019-02-17 16:21:36 · 1439 阅读 · 0 评论 -
4.MR过程分析
1. 三大过程Map侧ShuffleReduce侧Shuffle2. 六大组件InputFormatOutputFormatSerilizerComparatorCombinerPartitioner1. 三大过程上一节演示了最简单的MR任务的编写,可以看到其实很简单,说简单点就是套模板。但是要想用好hadoop这一利器,需要了解更多执行细节,在基本概念中...原创 2019-02-17 16:23:12 · 1005 阅读 · 0 评论 -
5.MR应用程序模板
MR常用需求MR应用程序模板程序演示和演示MR常用需求在进一步讲解MR各个组件前,先详细说下编写常用MR需要考虑的点。之前讲过最简单MR如何编写,而在实际应用中,为了工程考虑和复用性,还需要考虑配置解析、执行环境准备、任务参数设置、目录清理。配置解析:默认hadoop jar执行时使用集群当前配置文件配置。如下图,输入hadoop fs时出现如下通用选项,可以通过命令行-con...原创 2019-03-06 09:54:08 · 500 阅读 · 2 评论 -
工具-Hadoop Archive
原理命令使用方式演示不足原理Hadoop的文件存储的单元为一个块(block),block的数据存放在集群中的datanode节点上,由namenode对所有datanode存储的block进行管理。每个文件对应的block块信息称为元数据,这些数据保存在namenode上。如果存在大量小文件,会导致namenode上的元数据急剧膨胀,而这些元数据一般存放在namenode内存中...原创 2019-03-30 21:59:05 · 539 阅读 · 1 评论 -
工具-Hadoop distcp
fs shell拷贝和移动distcp 原理distcp 操作方法fs shell拷贝和移动通常我们使用hadoop提供的fs shell来完成hdfs文件管理。为了对比dictcp,先看下常用的-cp和-mv的使用。现有目录/lib包含文件1.data 2.data-cp如下操作hadoop fs -cp /lib /lib2 拷贝生成相同结构的lib2had...原创 2019-03-30 21:59:52 · 3298 阅读 · 0 评论 -
工具-Hadoop Streaming
用途和原理程序编写其他参数设置源码和参考用途和原理前面写MR都是使用的java,但是通常数据分析人员不一定会java,难道还要去学习下java再写MR?实际上不用,hadoop已经考虑到了这个问题,所以它提供了一个中间工具,帮助我们可以直接使用其他脚本语言比如python/ruby等语言编写MR任务,这就是hadoop streaming。正式编写前,先看看streaming的...原创 2019-03-30 22:00:40 · 527 阅读 · 0 评论 -
6.HDFS文件系统剖析
Hadoop三大组件:HDFS/MR/Yarn,前面已经详述了计算模型MR的全过程,都说Hadoop的思想是移动计算而不移动数据,这一切基于hadoop的分布式文件系统HDFS。这两节详述hdfs的的工作过程/原理和注意事项。读写流程结构首先看下HDFS的构成如下图Client:客户端。NameNode:master,它是一个主管、管理者,存储元数据。DataNode:slave,...原创 2019-09-28 14:25:38 · 299 阅读 · 0 评论