自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 HAHOOP之启动运行

Hadoop:设置单节点集群本文档介绍了如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS)快速执行简单的操作。前提支持的平台 支持 GNU/Linux 作为开发和生产平台。Windows也是受支持的平台,但是以下步骤仅适用于Linux。所需软件java。推荐的 Java 版本在 HadoopJavaVersions中描述如果要使用可选的启动和停止脚本,则必须安装 ssh 并且必须运行 sshd 才能使用管理远程 H

2021-06-02 10:18:37 227

转载 Mapreduce执行过程详解

一、分析MapReduce执行过程      MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图: 二、Mapper任务的执行过程详解     每个Mapper任务是一个java进程,它会读取HDFS中的文件,...

2021-05-31 13:53:15 3928

转载 HADOOP之HDFS学习(四)

Hadoop简介 Hadoop 的思想之源:Google 第一遇到大数据计算问题的公司 Openstack :NASA 面对的数据和计算难题 - 大量的网页怎么存储 - 搜索算法 带给我们的关键技术和思想(Google三大理论) - GFS 文件存储 - Map-Reduce 计算 - Bigtable 创始人:Doug cut...

2021-05-28 10:48:54 274

原创 HADOOP学习之配置文件(一)

core-default.xml 配置说明namevalue说明hadoop.common.configuration.version0.23.0配置文件的版本hadoop.tmp.dir/tmp/hadoop-${user.name}临时文件的存放位置io.native.lib.availabletrue控制bz2和zlib压缩编解码器是否使用本机库。该属性不控制任何其他本机库。hadoop.http.filter.initializersorg.a

2021-05-27 17:23:35 344

原创 HADOOP学习之YARN(二)-容量调度

CapacityScheduler 容量调度器概述CapacityScheduler主要抽象的是队列的概念。这些队列通常由管理员设置,以反映共享群集的经济性。中心思想是Hadoop集群中的可用资源在多个组织之间共享,这些组织根据其计算需求共同向集群申请资源。组织还有一个额外的好处,即组织可以访问其他人未使用的任何多余容量。这种成本有效的方式为组织提供了弹性。特征分层队列 支持队列分层结构,以确保在允许其他队列使用空闲资源之前在队列的子队列之间共享资源,从而提供更多的控制和可预测性。容量保证 分

2021-05-27 15:37:25 862

转载 hive:窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over字句之前,一定要注意:在SQL处理中,窗口函数都是最后一步执行,而且

2021-05-26 20:15:55 595

转载 hive函数大全:11大类、109个函数

磨刀不误砍柴工,学完函数再sql 目录 一、关系运算  1. 等值比较: = 2. 不等值比较: <> 3.小于比较: < 4. 小于等于比较: <= 5. 大于比较: > 6. 大于等于比较: >= 7. 空值判断: IS NULL 8. 非空判断: IS NOTNULL 9. LIKE比较: LIKE 10. JAVA的LIKE操作: RLIKE 11. REGEXP操作: REGEXP ...

2021-05-26 19:43:50 147

转载 大数据常见问题:数据倾斜

一、数据倾斜表现 1)hadoop中的数据倾斜表现: 有一个多几个Reduce卡住,卡在99.99%,一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer伴随着数据倾斜,会出现任务被kill等各种诡异的表现。2)hive中数据倾斜 一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。 3)Spark中的数据倾斜 Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主.

2021-05-26 19:39:48 520

原创 HADOOP之YARN学习(一)-概述与命令

Apache Hadoop YARN概述YRAN的基本思路是将资源管理和作业调度/监视的功能拆分为单独的守护程序。这个想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMaster(AM)。应用程序可以是单个作业,也可以是作业的DAG 。ResourceManager和NodeManager构成数据计算框架。ResourceManager是在系统中所有应用程序之间仲裁资源的最终权限。NodeManager是每台机器的框架代理,负责容器,监视其资源使用情况(cp

2021-05-26 16:27:37 388

转载 动态规划解题四步骤(PYTHON)

题目描述你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。给定一个代表每个房屋存放金额的非负整数数组,计算你 不触动警报装置的情况下 ,一夜之内能够偷窃到的最高金额。示例1输入:[1,2,3,1]输出:4解释:偷窃 1 号房屋 (金额 = 1) ,然后偷窃 3 号房屋 (金额 = 3)。 偷窃到的最高金额 = 1 + 3 = 4 。示例2输入:[2

2021-05-24 17:37:15 711

原创 HADOOP之HDFS学习(三) - shell命令

Hadoop Shell 命令FS SHELL调用文件系统(FS)Shell命令应使用bin/hadoop fs <args> 的形式。所有的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对于HDFS文件系统,scheme是hdfs,对于本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个hdfs文件或目录比如/parent/child可

2021-05-24 11:14:47 157

原创 HADOOP之HDFS简单学习(一)

HADOOP之HDFS简单学习架构与设计分布式文件系统hdfs被设计成适合运行在通用硬件上的分布式系统。HDFS是一个高容错性的系统,适合部署在廉价的机器上。可提供高吞吐量的数据访问,适合大规模数据集上的应用。前提和设计目的硬件错误 hdfs可能由上千的服务器构成,任意组件都有可能失效,因此错误检测和快速、自动的恢复是hdfs最核心的架构目标。流式数据访问 设计中更多考虑的是数据批处理,而不是用户交互处理。数据访问的高吞吐量比数据访问的低延迟问题更关键。posix标准设计的很多硬性约束对hdfs

2021-05-21 18:22:03 316 2

原创 HADOOP学习之HDFS学习(二)-命令大全

命令大全概述所有的Hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]命令选项描述–config confdir覆盖缺省配置目录。缺省是${HADOOP_HOME}/confGENERIC_OPTIONS多个命令都支持的通用选项COMMAND各种各样的命令和它们的选

2021-05-21 18:19:57 195 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除