ximen_zhou-CSDN博客

原创 HAHOOP之启动运行

Hadoop：设置单节点集群本文档介绍了如何设置和配置单节点Hadoop安装，以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统（HDFS）快速执行简单的操作。前提支持的平台支持 GNU/Linux 作为开发和生产平台。Windows也是受支持的平台，但是以下步骤仅适用于Linux。所需软件java。推荐的 Java 版本在 HadoopJavaVersions中描述如果要使用可选的启动和停止脚本，则必须安装 ssh 并且必须运行 sshd 才能使用管理远程 H

2021-06-02 10:18:37 323

转载 Mapreduce执行过程详解

一、分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图：二、Mapper任务的执行过程详解每个Mapper任务是一个java进程，它会读取HDFS中的文件，...

2021-05-31 13:53:15 4105

转载 HADOOP之HDFS学习(四)

Hadoop简介 Hadoop 的思想之源：Google 第一遇到大数据计算问题的公司 Openstack :NASA 面对的数据和计算难题 - 大量的网页怎么存储 - 搜索算法带给我们的关键技术和思想（Google三大理论） - GFS 文件存储 - Map-Reduce 计算 - Bigtable 创始人：Doug cut...

2021-05-28 10:48:54 353

原创 HADOOP学习之配置文件(一)

core-default.xml 配置说明namevalue说明hadoop.common.configuration.version0.23.0配置文件的版本hadoop.tmp.dir/tmp/hadoop-${user.name}临时文件的存放位置io.native.lib.availabletrue控制bz2和zlib压缩编解码器是否使用本机库。该属性不控制任何其他本机库。hadoop.http.filter.initializersorg.a

2021-05-27 17:23:35 472

原创 HADOOP学习之YARN(二)-容量调度

CapacityScheduler 容量调度器概述CapacityScheduler主要抽象的是队列的概念。这些队列通常由管理员设置，以反映共享群集的经济性。中心思想是Hadoop集群中的可用资源在多个组织之间共享，这些组织根据其计算需求共同向集群申请资源。组织还有一个额外的好处，即组织可以访问其他人未使用的任何多余容量。这种成本有效的方式为组织提供了弹性。特征分层队列支持队列分层结构，以确保在允许其他队列使用空闲资源之前在队列的子队列之间共享资源，从而提供更多的控制和可预测性。容量保证分

2021-05-27 15:37:25 977

转载 hive:窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析（在线分析处理）。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over字句之前，一定要注意：在SQL处理中，窗口函数都是最后一步执行，而且

2021-05-26 20:15:55 688

转载 hive函数大全：11大类、109个函数

磨刀不误砍柴工，学完函数再sql 目录一、关系运算 1. 等值比较: = 2. 不等值比较: <> 3.小于比较: < 4. 小于等于比较: <= 5. 大于比较: > 6. 大于等于比较: >= 7. 空值判断: IS NULL 8. 非空判断: IS NOTNULL 9. LIKE比较: LIKE 10. JAVA的LIKE操作: RLIKE 11. REGEXP操作: REGEXP ...

2021-05-26 19:43:50 254

转载大数据常见问题：数据倾斜

一、数据倾斜表现 1）hadoop中的数据倾斜表现：有一个多几个Reduce卡住，卡在99.99%，一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大，至少远远超过其它正常的Reducer伴随着数据倾斜，会出现任务被kill等各种诡异的表现。2）hive中数据倾斜一般都发生在Sql中group by和join on上，而且和数据逻辑绑定比较深。 3）Spark中的数据倾斜 Spark中的数据倾斜，包括Spark Streaming和Spark Sql，表现主.

2021-05-26 19:39:48 595

原创 HADOOP之YARN学习(一)-概述与命令

Apache Hadoop YARN概述YRAN的基本思路是将资源管理和作业调度/监视的功能拆分为单独的守护程序。这个想法是拥有一个全局ResourceManager（RM）和每个应用程序ApplicationMaster（AM）。应用程序可以是单个作业，也可以是作业的DAG 。ResourceManager和NodeManager构成数据计算框架。ResourceManager是在系统中所有应用程序之间仲裁资源的最终权限。NodeManager是每台机器的框架代理，负责容器，监视其资源使用情况（cp

2021-05-26 16:27:37 490