![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
zjh_746140129
这个作者很懒,什么都没留下…
展开
-
CDH 版本 Hadoop集群搭建
一、安装前期准备1、下载CDH的Hadoop版本软件http://cloudera-fastly-s3-2.s3-website-us-west-1.amazonaws.com/cdh5/parcels/5.10.0/原创 2018-03-31 22:42:00 · 956 阅读 · 0 评论 -
大数据入门教程系列之Hadoop环境搭建--Hadoop集群/分布式搭建配置
本篇文章主要介绍在windows下使用vmware虚拟机搭建配置Hadoop集群/分布式。简要步骤:①、克隆1台机器(可以直接克隆Master)②、设置静态IP、主机名、IP映射③、配置ssh免密④、修改配置文件⑤、启动集群分布式 详细步骤:一、克隆机器选择虚拟机-管理-克隆 二、设置静态IP、设置主机名...原创 2018-08-22 21:27:09 · 357 阅读 · 3 评论 -
大数据入门教程系列之Hadoop环境搭建--Hadoop高可用集群搭建配置
本篇文章主要介绍在windows下使用vmware虚拟机Hadoop高可用集群搭建配置简要步骤:①、克隆3台机器(可以从之前分布式的2台机器找一台即可)②、设置静态IP③、配置主机名、IP映射④、新建hadoop用户⑤、配置ssh免密登陆⑥、配置zookeeper⑦、检查环境变量⑧、修改配置文件⑨、关闭防火墙、守护进程⑩、启动(启动、关闭脚本) ...原创 2018-08-22 21:55:02 · 498 阅读 · 0 评论 -
大数据入门教程系列之HDFS分布式文件系统--shell命令操作HDFS分布式文件系统
本篇文章主要介绍使用shell命令在xhsell工具上操作HDFS分布式文件系统。 1、fs最常用命令hadoop fs -ls hdfs_path //查看HDFS目录下的文件和子目录hadoop fs -mkdir hdfs_path //在HDFS上创建文件夹hadoop fs -rm hdfs_path //删除HDFS上的文件hadoop fs -rmr hdfs...原创 2018-08-22 22:04:54 · 1143 阅读 · 0 评论 -
大数据入门教程系列之HDFS分布式文件系统--idea下使用java API操作HDFS分布式文件系统
本篇文章主要介绍在idea下使用java API操作HDFS分布式文件系统,分别用配置文件方式和直接使用URL的方式演示 一、通过URL的方式操作HDFS分布式文件系统①、代码package com.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import o...原创 2018-08-23 10:33:29 · 1220 阅读 · 0 评论 -
大数据入门教程系列之mapreduce--idea下使用java API操作mapreduce完成wordcount案例
本篇文章主要介绍在idea下使用java API操作mapreduce完成wordcount案例,机器使用的是伪分布式,运行案例时需要启动hadoop mapreduce流程详细步骤一、准备数据horse mare pony mustangmare mare mustang buffalopony horse mustang buffalo二、代码...原创 2018-08-23 11:16:43 · 1127 阅读 · 0 评论 -
windows下运行mapreduce报错Could not locate executable null bin winutils.exe in the Hadoop binaries 解决方案
笔者在windows下运行mapreduce报错,遇到如下错误Could not locate executable null bin winutils.exe in the Hadoop binaries,以下是错误和解决方案 错误如下:D:\jdk1.8.0_144\bin\java -DHADOOP_USER_NAME=hadoop "-javaagent:D:\idea\In...原创 2018-08-23 14:09:55 · 755 阅读 · 0 评论 -
windows下运行mapreduce报错The auxService mapreduce_shuffle do 解决方案
笔者在windows下运行一个mapreduce的wordcount案例时报错,遇到如下错误The auxService mapreduce_shuffle do,以下是错误和解决方案 错误信息org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService: mapreduce_shuffle...原创 2018-08-23 14:20:48 · 346 阅读 · 0 评论 -
linux下配置ssh免密(用于Hadoop高可用集群)
本文主要介绍在linux环境如何配置SSH信任,配置SSH信任的目地是,SSH到目标机器上时,不用再输入密码应用场景:服务器A想要 ssh 无密登录服务器B,则需要在服务器A上面生成密钥,然后远程拷贝到服务器B的.ssh目录下(该目录在用户目录下) 完成目标Master ssh 无密登录Slavel 、node3、node4、node5 Slavel ssh 无密登录Maste...原创 2018-08-23 20:03:07 · 1364 阅读 · 0 评论 -
Linux下zookeeper单机、伪分布式、分布式环境搭建(本篇主要介绍分布式用于Hadoop高可用集群)
一般zookeeper的安装部署可以有三种模式,单机模式、伪分布式和分布式,本篇主要介绍单机和分布式的环境安装配置 一、单机模式1.下载zookeeper-3.4.10.tar.gz 下载地址:http://mirror.bit.edu.cn/apache/zookeeper/2.解压zookeepertar –zxvf zookeeper-3.4.10.tar.gz...原创 2018-08-23 20:57:08 · 831 阅读 · 0 评论 -
Hadoop HA 高可用集群启动报错 Encountered exception loading fsimage 解决方案
笔者在搭建好Hadoop HA 高可用集群启动时报如下错误,后面是解决方案。报错信息:2018-08-24 11:18:07,475 INFO org.apache.hadoop.hdfs.server.namenode.FSImage: Quota initialization completed in 31 millisecondsname space=1storage spac...原创 2018-09-05 09:57:46 · 7353 阅读 · 0 评论 -
大数据入门教程系列之Hadoop环境搭建--新建Hadoop用户
本篇文章主要介绍在linux下新建Hadoop用户,为后面安装hadoop环境搭建配置做准备. 详细步骤:1.创建用户并设置密码,执行如下命令即可useradd -m hadoop -G root -s /bin/bashpasswd hadoop提示密码简单,我们依然输入2次hadoop即可 2.为hadoop授予管理员权限避免以后在操作时,遇到权限...原创 2018-08-16 09:39:17 · 608 阅读 · 0 评论 -
大数据入门教程系列之Hadoop环境搭建--Hadoop单机/伪分布式搭建配置
本篇文章主要介绍在windows下和mac系统下搭建hadoop单机/伪分布式搭建配置。推荐文章:mac下基于centons7安装配置apache hadoop大数据入门教程系列之Hadoop环境搭建--新建Hadoop用户(用于环境配置和hadoop安装)单机和伪分布式区别:单机模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。默认情况下,Hado...原创 2018-08-15 22:40:48 · 471 阅读 · 0 评论 -
基于centons7安装配置apache hadoop
1、hadoop简介Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce 和 HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。HDFS:Hadoop Distributed File System 的缩写,Hadoop中的分布式文件系统,它是一个高度容错性的系统,...原创 2018-02-02 21:54:01 · 709 阅读 · 0 评论 -
Hadoop2.7.4 编译 支持5种压缩
按博客中的操作步骤操作后,hadoop 编译完成后可以支持5种本地压缩:zlib、snappy、lz4、bzip2、openssl笔者环境配置为:JDK1.8、Maven3.5.2、Hadoop2.7.4、Hive2.3.2,你也可以使用其它版本,注意版本兼容即可一、安装压缩插件1.安装bzip2(图1、图2)命令yum -y install wget gcc gcc-c++ bzip2 bzip...原创 2018-04-10 22:08:04 · 477 阅读 · 0 评论 -
idea2017安装python插件
1、File--Settings2、Settings--Pligins--搜索python3、Python--Install点击重启原创 2018-04-11 21:41:53 · 2589 阅读 · 2 评论 -
Spark基本架构及原理
目标:Spark概述Spark基本概念运行流程及特点spark 与 hadoopRDD运行流程Spark三大类算子Spark StreamingSpark概述:Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类 Hadoop MapRedduce的通用并行框架,Spark拥有Ha...原创 2018-05-26 18:16:06 · 6426 阅读 · 0 评论 -
Spark中RDD的Key-Value型Transformation算子操作(二)
Spark算子大致上可分为三大类算子: Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 Action算子,这类算子会触发SparkContext提交作业。1、map数据集中的每个...原创 2018-05-26 21:56:10 · 614 阅读 · 0 评论 -
Spark中Actionn算子操作(三)
Spark算子大致上可分为三大类算子: Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 Action算子,这类算子会触发SparkContext提交作业。1、foreach打印输...原创 2018-05-26 22:03:45 · 542 阅读 · 0 评论 -
hadoop 单机/伪分布式/集群、分布式/Ha高可用搭建环境配置
1、完成目标:一.node1 hadoop用户可以ssh免密登陆node2、node3、node4、node5 二.node2 hadoop用户可以ssh免密登陆node1、node3、node4、node5 三.机器情况主机系统IP作用node1centos7192.168.31.136NameNode原创 2018-01-28 22:49:40 · 381 阅读 · 0 评论 -
hadoop常用命令
1.将hadoop解压到目录下sudo tar -zxf hadoop-2.7.3.tar.gz -C /usr/local/2.把hadoop改名sudo mv ./hadoop-2.7.3/ ./hadoop3.修改hadoop所属者和所属组chown -hR hadoop /usr/local/hadoop/ # 修改所有者为hadoop# chg原创 2018-01-27 17:32:13 · 380 阅读 · 0 评论 -
Linux(CentOS7)设置主机名及IP映射(用于hadoop单机/伪分布式/分布式/集群配置)
在一个局域网中,每台机器都有一个主机名,便于主机与主机之间的区分,因此为每台机器设置主机名,以容易记忆的方法来相互访问。比如我们在局域网中可以为根据每台机器的功能来为其命名。本篇文章主要介绍在Linux(CentOS7)设置主机名及IP映射(用于hadoop单机/伪分布式/分布式/集群配置)。详细步骤: 1.设置主机名查看本机的主机名,使用如下三个命令中任意一个即可 host...原创 2018-08-15 22:12:17 · 3101 阅读 · 0 评论 -
Winodws下修改Host步骤(用于Hadoop)
本篇文章主要介绍在Winodws下修改Host步骤(用于Hadoop配置主机名后可以在windows下访问) 详细步骤:1、打开文件(windows默认都是在此)C:\Windows\System32\drivers\etc# Copyright(c) 1993 - 2009 Microsoft Corp.## This is a sample HOSTS file...原创 2018-08-15 22:17:06 · 1305 阅读 · 0 评论 -
大数据入门教程系列之Hadoop环境搭建、软件准备
本篇文章主要介绍大数据入门教程环境搭建所需要的软件、环境配置等,为后面的学习做准备。完成目标:1、安装VMware及新建虚拟机安装VMware及新建虚拟机https://blog.csdn.net/hg_harvey/article/details/72675858 2、VMware中安装centons7虚拟机VMware中安装linux系统CentOShttps:...原创 2018-08-15 22:04:26 · 279 阅读 · 0 评论 -
Hadoop HA 高可用集群格式化NameNode后启动没有DataNode
笔者在搭建好Hadoop HA 高可用集群启动时报错后采用格式化NameNode后,再次启动没有DataNode,后面是3种解决方案。报错信息:2018-08-24 11:29:43,322 INFO org.apache.hadoop.hdfs.server.common.Storage: Using 1 threads to upgrade data directories (dfs...原创 2018-09-05 10:49:25 · 4342 阅读 · 0 评论