Hadoop_小A__的博客-CSDN博客

Hadoop

关注

关注数：文章数：62 文章阅读量：267267 文章收藏量：357

作者: 小A__

人生不就是写，写，写吗！！！

展开

Hadoop对于读流程和写流程的图解和解释

Hadoop的读流程和写流程究竟是怎么回事呢？看下面：一、读流程解释：1、客户端向NameNode发起请求，需要获取名字为x的数据块 2、NameNode中保存了该数据块存储的位置，将DataNode的信息返回给客户端 3、客户端就近的方式去从DataNode获取数据 4、如果某个DataNode无法访问 5、从另一个DataNode中去获取数据总结：向namenode...

原创 2018-09-02 18:59:00 · 1201 阅读 · 0 评论
Mapreduce提交job到队列，报错Failed to submit application

需求：提交job到集群中的某个队列，此时我们把default 队列改为Flow ，order，然后会报下述的错：Exception in thread "main" java.io.IOException: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1532225489052...

原创 2018-07-22 11:57:40 · 10931 阅读 · 1 评论
Hadoop搭建Zookeeper的详细步骤与讲解 --单机模式

Zookeeper作用： Apache ZooKeeper是一种高可用性服务，用于维护少量协调数据，通知客户端该数据的更改以及监视客户端的故障。自动HDFS故障转移的实现依赖于ZooKeeper来实现以下功能： a.故障检测：集群中的每个NameNode计算机都在ZooKeeper中维护一个持久会话。如果计算机崩溃，ZooKeeper会话将过...

原创 2018-07-25 23:40:52 · 1785 阅读 · 0 评论
工程名出现一个红色感叹号，及其出现的一些Errors

要是Eclipse创建的工程名出现一个醒目的红色感叹号，则说明bulid path导入的jar包出错；解决： 1.右键该项目----》build path----》configure build path 2.在弹出的窗口里，找到libraries，点击。会发现有无用的jar包，这些jar包前会有红色错号。 3.选中这些jar包，...

原创 2018-07-14 10:16:26 · 1071 阅读 · 0 评论
利用MapReduce解决用户的上、下限流量，并求和问题--附例子

要求:需要统计手机用户流量日志，日志内容实例：手机号上行流量下行流量 13726230501 200 1100 1...

原创 2018-07-19 22:17:49 · 518 阅读 · 0 评论
利用MapReduce进行二次排序--附例子

首先先来明确几个概念： 1.分区-partition 1）分区（partition）：默认采取散列值进行分区，但此方法容易造成 “ 数据倾斜 ” （大部分数据分到同一个reducer中，影响运行效率）；所以需要自定义partition; ...

原创 2018-07-19 21:35:59 · 3174 阅读 · 1 评论
MapReduce之倒排索引的讲解--例子

1.需求：将以下三个文件进行倒排。【word1.txt】 MapReduce is simple 【word2.txt】 ...

原创 2018-07-19 19:29:57 · 1524 阅读 · 0 评论
MapReduce计算同一个订单ID的最大金额数--加深group的印象

需求：在输入文件中，求出每一个订单Id花费金额的最大值！！输入文件：GoodsMaxID.txt 订单ID 商品ID 金额Order_0000001 Pdt_01 222.8Order_0000001 Pdt_05 25.8Order_0000002 Pdt_05 325.8Order_0000002 Pdt_03 522.8Order_000...

原创 2018-07-24 20:29:17 · 1157 阅读 · 3 评论
MapReduce之单表关联Join输出祖父母、孙子---(附例子)

需求：一个文件，有子女和对应的父母，要求输出祖父母孙子，文件如下：单表关联结果：child parent grand childTom Lucy Alice TomTom Jack Jesse TomJon...

原创 2018-07-24 16:56:58 · 1806 阅读 · 0 评论
Mapreduce之多表关联Join---（附例子)

需求： address.txt: 1 Beijing2 Guangzhou3 Shenzhen4 Xian factory.txt:Beijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1Guangzhou Development ...

原创 2018-07-24 16:05:48 · 3286 阅读 · 1 评论
MapReduce程序计算多个文件，对里面的数字进行排序，并输出（附例子）

MapReduce计算的案例，如下：数据排序sortDemo：将sortfile1.txt、sortfile2.txt、sortfile3.txt中的记录整合排序后，输出到一个文件中，包含行号。编写MapReduce程序，实现上述内容：分析：利用MR的sort能力，必须进行shuffle，一定实现reduce； 1.编写mappe...

原创 2018-07-12 17:59:56 · 5578 阅读 · 1 评论
利用MapReduce计算学生的平均成绩--(附例子)

要求：利用MapReduce计算学生的平均成绩？？？分析： Mapper阶段将学生的name和grade成绩context.write(name,grade), 实现<k1,v1>---> <k2,v2>的转换； Reduce阶段计算每个学生的平均成绩；【这个阶段实现了...

原创 2018-07-17 22:38:58 · 13615 阅读 · 1 评论
MapReduce对 file1.txt , file2.txt里面的内容进行去重，排序，并输出结果

题目：利用MapReduce对 file1.txt和 file2.txt里面对里面的内容进行去重，排序，并输出结果。。。1.Mapper阶段：主要是对<k1,v1>进行排序，排序之后<k2,v2>作为Map的输出；public class DistinctMapper extends Mapper<LongWritable,...

原创 2018-07-16 23:02:43 · 941 阅读 · 0 评论
本地执行MapReduce程序之后，报的一些错误

【client eclipse集群提交运行】：客户端 eclipse集群提交 mapreduce代码 1. 需求：在master:8088上，有客户端提交的job,则需要local-->yarn 需要改：【mapred-site.xml】 <property> <name>mapreduce....

原创 2018-06-28 14:25:16 · 1881 阅读 · 0 评论
Hadoop在Zookeeper、HA的条件下配置HBase的步骤--单机模式

前提：本文在Hadoop已配置好zookeeper和HA的组件的条件下，去配置HBase组件，单机模式，是在master主机上配置。软件： hbase-1.3.1.tar.gz 步骤：安装Hbase（本地存储） 1.下载hbase-1.3.1版...

原创 2018-07-30 17:51:39 · 563 阅读 · 0 评论
Hadoop搭建HBase的步骤--伪分布

HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库； HBase首先是数据库，分布式的，面向列的，<首选在HDFS基础上>； Google发布三篇论文：GFS、Ma...

原创 2018-07-30 18:26:58 · 588 阅读 · 0 评论
Hadoop搭建HBase的方法和步骤--完全分布式

HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库； HBase首先是数据库，分布式的，面向列的，<首选在HDFS基础上>； Google发布三篇论文：GFS、Ma...

原创 2018-07-30 18:57:55 · 496 阅读 · 0 评论
注意区分HBase与Hive之间的定义和区别

HBase 官方定义： Apache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™，Apache HBase是一个开源的，分布式的，版本化的非关系...

原创 2018-08-16 13:33:41 · 983 阅读 · 0 评论
Hadoop上手动安装MySQL的方法和步骤

前言：Hadoop的基础上安装MySQL,有两种方式：在线安装和手动安装。本文介绍：手动安装在线安装（https://blog.csdn.net/xiaozelulu/article/details/81513285）1. 手动安装手动安装MySQL---------------------------------- 1.验证Centos是否安装MySQL ...

原创 2018-08-08 18:55:01 · 5837 阅读 · 0 评论
Hadoop上在线安装MySQL的方法和步骤

前言：Hadoop的基础上安装MySQL,有两种方式：在线安装和手动安装。本文介绍：在线安装 1. 在线安装在线安装(MySQL)--------------------------------------------- 1.验证Centos是否安装MySQL $>yum list installed | grep mysql 2.删除M...

原创 2018-08-08 18:25:51 · 3479 阅读 · 1 评论
Hadoop上安装Hive的步骤--易安装

Hive 1.定义： Apache Hive 数据仓库软件便于读,写,和管理大型数据集驻留在分布式存储(Hadoop)使用SQL。结构可以投影到存储中的数据上。客户端的连接方式可采用：command line 和 JDBC Driver 注意：Hive实质就是客户端，不存在主从结构，搭建过程没有集群概念； 2.搭建Hiv...

原创 2018-08-07 09:08:42 · 818 阅读 · 0 评论
Hive的静态分区的案例操作

hive中的分区针对{表组织}进行规划的；【静态分区】：创建静态分区 hive>create table logs(st bigint,line string) >partitioned by (dt string,country string) >row format delimited fields ter...

原创 2018-08-11 15:00:55 · 338 阅读 · 0 评论
Hive装载数据、导出数据

Hive 数据操作装载数据既然Hive没有行级数据插入、数据更新和删除操作，那么就使用一种大量数据装载操作； hive>load data 【local】 inpath 'hdfs://data/employees.txt' overwrite into table employees partition ...

原创 2018-08-11 14:40:36 · 862 阅读 · 0 评论
Hive对数据库database的创建、修改

前言：Hive中对database的创建、查询、location、修改、删除等操作，作了简单描述1.创建数据库 hive>create database myhive; hive>create database if not exists myhive;2.查询数据库和表 hive>show databases; ...

原创 2018-08-11 13:48:37 · 25541 阅读 · 1 评论
Hive中相关核心概念与定义

1.什么是Hive? Apache Hive 数据仓库软件便于读,写,和管理大型数据集驻留在分布式存储(Hadoop)使用SQL。结构可以投影到存储中的数据上。客户端的连接方式可采用：command line 和 JDBC Driver 注意：Hive实质就是客户端，不存在主从...

原创 2018-08-10 23:03:37 · 489 阅读 · 0 评论
HBase的介绍表结构常用命令

HBase的表结构：这些名词的具体含义如下：1、Row Key与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：通过单个row key访问通过row key的range 全表扫描Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hba...

原创 2018-08-05 20:50:52 · 12747 阅读 · 0 评论
Hadoop搭建HA的时候，开启NameNode服务的时候总有其中一个挂掉的原因及解决方法

搭建HA的情况下，开启start-dfs.sh 服务的时候， master和slave1两个NameNode服务总有一个挂掉，原因：start-dfs.sh的时候，首先开启的是 master：NameNode 后是 s...

原创 2018-07-27 23:04:39 · 2571 阅读 · 0 评论
开启hiveserver2服务的时候，For compliance with existing applications not using SSL the verifyServerCertifica

前言：执行hiveserver2服务是时候报错：如下 $>hiveserver2 (或者hive --service hiveserver2 &) 18/08/09 16:36:19 WARN conf.HiveConf: HiveConf of name hive.server2.thrift.client.use...

原创 2018-08-09 17:06:32 · 1375 阅读 · 0 评论
Hadoop搭建HA的步骤与讲解--详细

前提: 已经有搭建过hadoop集群了，本文章主要是在Hadoop条件下搭建HA，现在让我们先在主节点master搭建HA,并测试：搭建HA的步骤：（要保证各master，slave1，slave2三个可以互相ssh无密登陆） 1. 创建软链接： ln -s hadoop_cluster_ha ...

原创 2018-07-27 22:29:22 · 1478 阅读 · 0 评论
HBase shell 的常用命令及语法

HBase shell 1.进入Hbase shell命令 $>hbase shell 2.建议参照“help”命令 $>help 3.shell命令 ...

原创 2018-08-05 09:58:59 · 2438 阅读 · 0 评论
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io解决方法

本地执行MapReduce数据，可能会出现下面的错误：抛异常：Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 原因：...

原创 2018-06-28 13:58:33 · 7539 阅读 · 5 评论
本地执行MapReduce程序，报错org.apache.hadoop.io.nativeio.NativeIO

在进行MapReduce进行本地文娟Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

原创 2018-06-27 19:19:02 · 680 阅读 · 0 评论
了解MapReduce之Partition分区的概念与执行过程（附例子）

Partition1.用户需求在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念 partition是在map阶段完成后执行的。然后将分好区的数据传输到reduce端，也就是由Partitioner来决定每条记录应该送往哪个reducer节点。mapreduce中默认的分区是HashPartition类；核心代码：...

原创 2018-07-09 20:02:06 · 4018 阅读 · 0 评论
Linux如何通过sudo获得root权限？？？

给hadoop账户添加sudo权限：在root下： chmod u+w /etc/sudoers vi /etc/sudoers 在 root ALL=(ALL) ALL下添加一行： Mcwang ALL=(ALL) ALL //添加sodo授权 chmod u-w /etc/sudoers 撤销文件的写权限 ...

原创 2018-05-16 22:22:02 · 11150 阅读 · 0 评论
Hadoop,JDK ,SSH 无密钥的Linux下详细的步骤方法

搭建Hadoop，需要在安装jdk,hadoop,以及配置它们的环境变量，还有SSH（虚拟机自带，不用自己安装）三台主机的普通用户都是同一个：Mcwang2018/5/16创建三台虚拟机：master、slave1、slave2三台主机ip地址分别为： master：192.168.201.135 slave1: 192.168. 201.133 ...

原创 2018-05-16 19:29:42 · 740 阅读 · 0 评论
Namenode,Datanode,SecondaryNamenode的文件结构

NameNode1.NameNode的文件结构//中间省略很多行分析：从上图可以看出，NameNode的文件结构包含edits、fsimage、seen_txid、VERSIONedits编辑日志（edit log）：当客户端执行写操作时，首先NameNode会在编辑日志中写下记录，并在内存中保存一个文件系统元数据，这个描述符会在编辑日志改动之后更新。所有对HDFS的写操作都会记录在此文件中si...

原创 2018-05-26 19:55:53 · 400 阅读 · 0 评论
Hadoop分别启动namenode,datanode,secondarynamenode等服务

查找当前解压文件之后，hadoop2.7.3的默认配置文件，四个文件的.xml， 1.core-default.xml hadoop-2.7.3\share\hadoop\common\hadoop-common-2.7.3.jar 2.hdfs-default.xml hdfs\hadoop-hdfs-2.7.3 3.mapred-...

原创 2018-05-20 23:01:27 · 42151 阅读 · 0 评论
Hadoop简介

hadoop简介 Apache™Hadoop®项目为可靠的，可扩展的分布式计算开发开源软件。 Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器，每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性，而是设计用于在应用层检测和处理故障，从而在一组计算机之上提供高可用性服务，每...

原创 2018-05-20 22:22:24 · 103 阅读 · 0 评论
安装Hadoop方法集群步骤

在Linux安装hadoop。。。。。。我解压的hadoop2.7.3（更名为hadoop）文件路径是在 /home/Mcwang/soft/hadoop 我们要修改的配置文件是在：/home/Mcwang /hadoop/etc/hadoop下的文件上传并解压缩上传到/home/Mcwang/soft tar -zvxf ha...

原创 2018-05-14 16:57:15 · 1767 阅读 · 0 评论
Linux-SSH无密钥登陆

这里所用虚拟机是Centos6.5安装三个机器，机器名(主机) IP地址 master 192.168.29.130 slave1 192.168.29.133 ...

原创 2018-05-14 00:30:15 · 2332 阅读 · 0 评论

Hadoop

作者: 小A__

Hadoop对于读流程和写流程的图解和解释

Mapreduce提交job到队列，报错Failed to submit application

Hadoop搭建Zookeeper的详细步骤与讲解 --单机模式

工程名出现一个红色感叹号，及其出现的一些Errors

利用MapReduce解决用户的上、下限流量，并求和问题--附例子

利用MapReduce进行二次排序--附例子

MapReduce之倒排索引的讲解--例子

MapReduce计算同一个订单ID的最大金额数--加深group的印象

MapReduce之单表关联Join输出祖父母、孙子---(附例子)

Mapreduce之多表关联Join---（附例子)

MapReduce程序计算多个文件，对里面的数字进行排序，并输出（附例子）

利用MapReduce计算学生的平均成绩--(附例子)

MapReduce对 file1.txt , file2.txt里面的内容进行去重，排序，并输出结果

本地执行MapReduce程序之后，报的一些错误

Hadoop在Zookeeper、HA的条件下配置HBase的步骤--单机模式

Hadoop搭建HBase的步骤--伪分布

Hadoop搭建HBase的方法和步骤--完全分布式

注意区分HBase与Hive之间的定义和区别

Hadoop上手动安装MySQL的方法和步骤

Hadoop上在线安装MySQL的方法和步骤

Hadoop上安装Hive的步骤--易安装

Hive的静态分区 的案例操作

Hive装载数据 、导出数据

Hive对数据库database的创建、修改

Hive中相关核心概念与定义

HBase的介绍 表结构 常用命令

Hadoop搭建HA的时候，开启NameNode服务的时候总有其中一个挂掉的原因及解决方法

开启hiveserver2服务的时候，For compliance with existing applications not using SSL the verifyServerCertifica

Hadoop搭建HA的步骤与讲解--详细

HBase shell 的常用命令及语法

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io解决方法

本地执行MapReduce程序，报错org.apache.hadoop.io.nativeio.NativeIO

了解MapReduce之Partition分区的概念与执行过程（附例子）

Linux如何通过sudo获得root权限？？？

Hadoop,JDK ,SSH 无密钥的Linux下详细的步骤方法

Namenode,Datanode,SecondaryNamenode的文件结构

Hadoop分别启动namenode,datanode,secondarynamenode等服务

Hadoop简介

安装Hadoop方法集群步骤

Linux-SSH无密钥登陆

Hive的静态分区的案例操作

Hive装载数据、导出数据

HBase的介绍表结构常用命令