Hadoop
weixin_43866709
The best or nothing
展开
-
大数据学习中虚拟机准备工作(centos基础配置)
本文介绍的是centos7的基础配置,安装方式为最小化安装。一.1.0 首先设置Vmware,选择编辑(Edit),设置虚拟网络编辑器此处要选择VM net8 NAT模式,使用NAT模式的好处是方便虚拟机联网,自己手动设置静态IP。具体操作流程:点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 h...原创 2019-02-27 16:43:07 · 355 阅读 · 0 评论 -
zookeeper集群安装
1.下载zookeeper安装包下载地址:https://www.apache.org/dist/zookeeper/2.上传到虚拟机中,解压。3.修改配置文件(先在一个节点上配置)3.1进入到conf目录,将zoo_sample.cfg修改为zoo.cfgmv zoo_sample.cfg zoo.cfg3.2.退回上级目录,添加一个文件zkdatamkdir zkdata3....原创 2019-03-11 18:34:37 · 221 阅读 · 0 评论 -
HDFS读取数据分区的数量
今天认真的看了看RDD 的分区,感觉挺麻烦的,就在此记录总结一下,如果有错误,还请各位大神指出!在我们使用并行化的方式创建sparkRDD的时候,我们可以指定RDD的分区。我们知道,mapreduce读取文件时允许的最小分区是1,而spark允许的最小分区是2hdfs读取文件时,默认会根据输入文件数量创建多少个task,生成对应数量的切片(文件小于blocksize).首先查看一下hd...原创 2019-03-18 13:24:03 · 3039 阅读 · 0 评论 -
Centos7 +JDk1.8 + Hadoop2.7.7集群安装
hadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源hdfs工作机制:1、客户把一个文件存入hdfs,其实hdfs会把这个文件切块后,分散存储在N台linux机器系统中(负...原创 2019-03-13 18:47:19 · 490 阅读 · 0 评论 -
hdfs命令行客户端的常用操作命令
hdfs客户端的常用操作命令0、查看hdfs中的目录信息hadoop fs -ls /hdfs路径1、上传文件到hdfs中hadoop fs -put /本地文件 /aaahadoop fs -copyFromLocal /本地文件 /hdfs路径 ## copyFromLocal等价于 puthadoop fs -moveFromLocal /本地文件 /hdfs路径 ...原创 2019-03-13 18:47:48 · 664 阅读 · 0 评论 -
hdfs的核心工作原理
namenode元数据管理要点1、什么是元数据?hdfs的目录结构及每一个文件的块信息(块的id,块的副本数量,块的存放位置)2、元数据由谁负责管理?namenode3、namenode把元数据记录在哪里?namenode的实时的完整的元数据存储在内存中;namenode还会在磁盘中(dfs.namenode.name.dir)存储内存元数据在某个时间点上的镜像文件;namenod...原创 2019-03-13 18:55:13 · 278 阅读 · 0 评论 -
Permission denied: user=XX, access=WRITE, inode="/checkPoint/StateKafka":hadoop:supergroup:drwxr-xr
在Hadoop或者spark程序中,向hdfs中写入数据时常常会报这个错误:Permission denied: user=XX, access=WRITE, inode="/checkPoint/StateKafka":hadoop:supergroup:drwxr-xr原因就是你所创建的这个hdfs的文件或者文件夹没有写入的权限或者这个用户组没有执行的权限。解决办法:修改权限1.修改用...原创 2019-04-07 10:10:03 · 613 阅读 · 0 评论 -
报错:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
在Windows上用IDEA本地运行Hadoop或者的spark程序时报错:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.19/04/02 14:50:28 ERROR Shell: Failed to locate the winutils binar...原创 2019-04-02 15:27:21 · 1516 阅读 · 1 评论 -
hadoop中的Yarn和spark的StandAlone调度模式的对比
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算...原创 2019-05-28 09:16:37 · 498 阅读 · 0 评论