Hadoop
小A__
人生不就是写,写,写吗!!!
展开
-
Hadoop对于读流程和写流程的图解和解释
Hadoop的读流程和写流程究竟是怎么回事呢?看下面:一、读流程 解释:1、客户端向NameNode发起请求,需要获取名字为x的数据块 2、NameNode中保存了该数据块存储的位置,将DataNode的信息返回给客户端 3、客户端就近的方式去从DataNode获取数据 4、如果某个DataNode无法访问 5、从另一个DataNode中去获取数据 总结:向namenode...原创 2018-09-02 18:59:00 · 1201 阅读 · 0 评论 -
Mapreduce提交job到队列,报错Failed to submit application
需求:提交job到集群中的某个队列,此时我们把default 队列改为Flow ,order,然后会报下述的错:Exception in thread "main" java.io.IOException: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1532225489052...原创 2018-07-22 11:57:40 · 10931 阅读 · 1 评论 -
Hadoop搭建Zookeeper的详细步骤与讲解 --单机模式
Zookeeper作用: Apache ZooKeeper是一种高可用性服务,用于维护少量协调数据,通知客户端该数据的更改以及监视客户端的故障。自动HDFS故障转移的实现依赖于ZooKeeper来实现以下功能: a.故障检测:集群中的每个NameNode计算机都在ZooKeeper中维护一个持久会话。如果计算机崩溃,ZooKeeper会话将过...原创 2018-07-25 23:40:52 · 1785 阅读 · 0 评论 -
工程名出现一个红色感叹号,及其出现的一些Errors
要是Eclipse创建的工程名出现一个醒目的红色感叹号,则说明bulid path导入的jar包出错;解决: 1.右键该项目----》build path----》configure build path 2.在弹出的窗口里,找到libraries,点击。会发现有无用的jar包,这些jar包前会有红色错号。 3.选中这些jar包,...原创 2018-07-14 10:16:26 · 1071 阅读 · 0 评论 -
利用MapReduce解决用户的上、下限流量,并求和问题--附例子
要求:需要统计手机用户流量日志,日志内容实例: 手机号 上行流量 下行流量 13726230501 200 1100 1...原创 2018-07-19 22:17:49 · 518 阅读 · 0 评论 -
利用MapReduce进行二次排序--附例子
首先先来明确几个概念: 1.分区-partition 1)分区(partition): 默认采取散列值进行分区,但此方法容易造成 “ 数据倾斜 ” (大部分数据分到同一个reducer中,影响运行效率); 所以需要自定义partition; ...原创 2018-07-19 21:35:59 · 3174 阅读 · 1 评论 -
MapReduce之倒排索引的讲解--例子
1.需求:将以下三个文件进行倒排。 【word1.txt】 MapReduce is simple 【word2.txt】 ...原创 2018-07-19 19:29:57 · 1524 阅读 · 0 评论 -
MapReduce计算同一个订单ID的最大金额数--加深group的印象
需求:在输入文件中,求出每一个订单Id花费金额的最大值!!输入文件:GoodsMaxID.txt 订单ID 商品ID 金额Order_0000001 Pdt_01 222.8Order_0000001 Pdt_05 25.8Order_0000002 Pdt_05 325.8Order_0000002 Pdt_03 522.8Order_000...原创 2018-07-24 20:29:17 · 1157 阅读 · 3 评论 -
MapReduce之单表关联Join输出祖父母、孙子---(附例子)
需求:一个文件,有子女和对应的父母,要求输出 祖父母 孙子,文件如下:单表关联 结果:child parent grand childTom Lucy Alice TomTom Jack Jesse TomJon...原创 2018-07-24 16:56:58 · 1806 阅读 · 0 评论 -
Mapreduce之多表关联Join---(附例子)
需求: address.txt: 1 Beijing2 Guangzhou3 Shenzhen4 Xian factory.txt:Beijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1Guangzhou Development ...原创 2018-07-24 16:05:48 · 3286 阅读 · 1 评论 -
MapReduce程序计算多个文件,对里面的数字进行排序,并输出(附例子)
MapReduce计算的案例,如下: 数据排序sortDemo: 将sortfile1.txt、sortfile2.txt、sortfile3.txt中的记录整合排序后,输出到一个文件中,包含行号。 编写MapReduce程序,实现上述内容: 分析:利用MR的sort能力,必须进行shuffle,一定实现reduce; 1.编写mappe...原创 2018-07-12 17:59:56 · 5578 阅读 · 1 评论 -
利用MapReduce计算学生的平均成绩--(附例子)
要求:利用MapReduce计算学生的平均成绩???分析: Mapper阶段 将学生的name和grade成绩context.write(name,grade), 实现<k1,v1>---> <k2,v2>的转换; Reduce阶段 计算每个学生的平均成绩;【这个阶段实现了...原创 2018-07-17 22:38:58 · 13615 阅读 · 1 评论 -
MapReduce对 file1.txt , file2.txt里面的内容进行去重,排序,并输出结果
题目:利用MapReduce对 file1.txt和 file2.txt里面对里面的内容进行去重,排序,并输出结果。。。1.Mapper阶段: 主要是对<k1,v1>进行排序,排序之后<k2,v2>作为Map的输出;public class DistinctMapper extends Mapper<LongWritable,...原创 2018-07-16 23:02:43 · 941 阅读 · 0 评论 -
本地执行MapReduce程序之后,报的一些错误
【client eclipse集群提交运行】:客户端 eclipse集群提交 mapreduce代码 1. 需求:在master:8088上,有客户端提交的job,则需要local-->yarn 需要改: 【mapred-site.xml】 <property> <name>mapreduce....原创 2018-06-28 14:25:16 · 1881 阅读 · 0 评论 -
Hadoop在Zookeeper、HA的条件下配置HBase的步骤--单机模式
前提: 本文在Hadoop已配置好zookeeper和HA的组件的条件下,去配置HBase组件,单机模式, 是在master主机上配置。 软件: hbase-1.3.1.tar.gz 步骤:安装Hbase(本地存储) 1.下载hbase-1.3.1版...原创 2018-07-30 17:51:39 · 563 阅读 · 0 评论 -
Hadoop搭建HBase的步骤--伪分布
HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库; HBase首先是数据库,分布式的,面向列的,<首选在HDFS基础上>; Google发布三篇论文:GFS、Ma...原创 2018-07-30 18:26:58 · 588 阅读 · 0 评论 -
Hadoop搭建HBase的方法和步骤--完全分布式
HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库; HBase首先是数据库,分布式的,面向列的,<首选在HDFS基础上>; Google发布三篇论文:GFS、Ma...原创 2018-07-30 18:57:55 · 496 阅读 · 0 评论 -
注意区分HBase与Hive之间的定义和区别
HBase 官方定义: Apache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。 当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™,Apache HBase是一个开源的,分布式的, 版本化的非关系...原创 2018-08-16 13:33:41 · 983 阅读 · 0 评论 -
Hadoop上手动安装MySQL的方法和步骤
前言:Hadoop的基础上安装MySQL,有两种方式:在线安装和手动安装。 本文介绍:手动安装在线安装(https://blog.csdn.net/xiaozelulu/article/details/81513285)1. 手动安装 手动安装MySQL---------------------------------- 1.验证Centos是否安装MySQL ...原创 2018-08-08 18:55:01 · 5837 阅读 · 0 评论 -
Hadoop上在线安装MySQL的方法和步骤
前言:Hadoop的基础上安装MySQL,有两种方式:在线安装和手动安装。 本文介绍:在线安装 1. 在线安装 在线安装(MySQL)--------------------------------------------- 1.验证Centos是否安装MySQL $>yum list installed | grep mysql 2.删除M...原创 2018-08-08 18:25:51 · 3479 阅读 · 1 评论 -
Hadoop上安装Hive的步骤--易安装
Hive 1.定义: Apache Hive 数据仓库软件便于读,写,和管理大型数据集驻留在分布式存储(Hadoop)使用SQL。 结构可以投影到存储中的数据上。 客户端的连接方式可采用:command line 和 JDBC Driver 注意:Hive实质就是客户端,不存在主从结构,搭建过程没有集群概念; 2.搭建Hiv...原创 2018-08-07 09:08:42 · 818 阅读 · 0 评论 -
Hive的静态分区 的案例操作
hive中的分区针对{表组织}进行规划的;【静态分区】: 创建静态分区 hive>create table logs(st bigint,line string) >partitioned by (dt string,country string) >row format delimited fields ter...原创 2018-08-11 15:00:55 · 338 阅读 · 0 评论 -
Hive装载数据 、导出数据
Hive 数据操作 装载数据 既然Hive没有行级数据插入、数据更新和删除操作,那么就使用一种大量数据装载操作; hive>load data 【local】 inpath 'hdfs://data/employees.txt' overwrite into table employees partition ...原创 2018-08-11 14:40:36 · 862 阅读 · 0 评论 -
Hive对数据库database的创建、修改
前言:Hive中对database的创建、查询、location、修改、删除等操作,作了简单描述1.创建数据库 hive>create database myhive; hive>create database if not exists myhive;2.查询数据库和表 hive>show databases; ...原创 2018-08-11 13:48:37 · 25541 阅读 · 1 评论 -
Hive中相关核心概念与定义
1.什么是Hive? Apache Hive 数据仓库软件便于读,写,和管理大型数据集驻留在分布式存储(Hadoop)使用SQL。 结构可以投影到存储中的数据上。 客户端的连接方式可采用:command line 和 JDBC Driver 注意:Hive实质就是客户端,不存在主从...原创 2018-08-10 23:03:37 · 489 阅读 · 0 评论 -
HBase的介绍 表结构 常用命令
HBase的表结构:这些名词的具体含义如下:1、Row Key与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行,只有三种方式:通过单个row key访问 通过row key的range 全表扫描Row key行键 (Row key)可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hba...原创 2018-08-05 20:50:52 · 12747 阅读 · 0 评论 -
Hadoop搭建HA的时候,开启NameNode服务的时候总有其中一个挂掉的原因及解决方法
搭建HA的情况下,开启start-dfs.sh 服务的时候, master和slave1两个NameNode服务总有一个挂掉,原因:start-dfs.sh的时候,首先开启的是 master:NameNode 后是 s...原创 2018-07-27 23:04:39 · 2571 阅读 · 0 评论 -
开启hiveserver2服务的时候,For compliance with existing applications not using SSL the verifyServerCertifica
前言:执行hiveserver2服务是时候报错:如下 $>hiveserver2 (或者hive --service hiveserver2 &) 18/08/09 16:36:19 WARN conf.HiveConf: HiveConf of name hive.server2.thrift.client.use...原创 2018-08-09 17:06:32 · 1375 阅读 · 0 评论 -
Hadoop搭建HA的步骤与讲解--详细
前提: 已经有搭建过hadoop集群了,本文章主要是在Hadoop条件下搭建HA, 现在让我们先在主节点master搭建HA,并测试:搭建HA的步骤:(要保证各master,slave1,slave2三个可以互相ssh无密登陆) 1. 创建软链接: ln -s hadoop_cluster_ha ...原创 2018-07-27 22:29:22 · 1478 阅读 · 0 评论 -
HBase shell 的常用命令及语法
HBase shell 1.进入Hbase shell命令 $>hbase shell 2.建议参照“help”命令 $>help 3.shell命令 ...原创 2018-08-05 09:58:59 · 2438 阅读 · 0 评论 -
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io解决方法
本地执行MapReduce数据,可能会出现下面的错误: 抛异常:Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 原因:...原创 2018-06-28 13:58:33 · 7539 阅读 · 5 评论 -
本地执行MapReduce程序,报错org.apache.hadoop.io.nativeio.NativeIO
在进行MapReduce进行本地文娟Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z原创 2018-06-27 19:19:02 · 680 阅读 · 0 评论 -
了解MapReduce之Partition分区的概念与执行过程(附例子)
Partition1.用户需求 在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念 partition是在map阶段完成后执行的。然后将分好区的数据传输到reduce端,也就是由Partitioner来决定每条记录应该送往哪个reducer节点。mapreduce中默认的分区是HashPartition类; 核心代码:...原创 2018-07-09 20:02:06 · 4018 阅读 · 0 评论 -
Linux如何通过sudo获得root权限???
给hadoop账户添加sudo权限: 在root下: chmod u+w /etc/sudoers vi /etc/sudoers 在 root ALL=(ALL) ALL下添加一行: Mcwang ALL=(ALL) ALL //添加sodo授权 chmod u-w /etc/sudoers 撤销文件的写权限 ...原创 2018-05-16 22:22:02 · 11150 阅读 · 0 评论 -
Hadoop,JDK ,SSH 无密钥的Linux下详细的步骤方法
搭建Hadoop,需要在安装jdk,hadoop,以及配置它们的环境变量,还有SSH(虚拟机自带,不用自己安装)三台主机的普通用户都是同一个:Mcwang2018/5/16创建三台虚拟机:master、slave1、slave2三台主机ip地址分别为: master:192.168.201.135 slave1: 192.168. 201.133 ...原创 2018-05-16 19:29:42 · 740 阅读 · 0 评论 -
Namenode,Datanode,SecondaryNamenode的文件结构
NameNode1.NameNode的文件结构//中间省略很多行 分析:从上图可以看出,NameNode的文件结构包含edits、fsimage、seen_txid、VERSIONedits编辑日志(edit log):当客户端执行写操作时,首先NameNode会在编辑日志中写下记录,并在内存中保存一个文件系统元数据,这个描述符会在编辑日志改动之后更新。所有对HDFS的写操作都会记录在此文件中si...原创 2018-05-26 19:55:53 · 400 阅读 · 0 评论 -
Hadoop分别启动namenode,datanode,secondarynamenode等服务
查找当前解压文件之后,hadoop2.7.3的默认配置文件, 四个文件的.xml, 1.core-default.xml hadoop-2.7.3\share\hadoop\common\hadoop-common-2.7.3.jar 2.hdfs-default.xml hdfs\hadoop-hdfs-2.7.3 3.mapred-...原创 2018-05-20 23:01:27 · 42151 阅读 · 0 评论 -
Hadoop简介
hadoop简介 Apache™Hadoop®项目为可靠的,可扩展的分布式计算开发开源软件。 Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供高可用性服务,每...原创 2018-05-20 22:22:24 · 103 阅读 · 0 评论 -
安装Hadoop方法集群步骤
在Linux安装hadoop。。。。。 。 我解压的hadoop2.7.3(更名为hadoop)文件路径是在 /home/Mcwang/soft/hadoop 我们要修改的配置文件是在:/home/Mcwang /hadoop/etc/hadoop下的文件上传并解压缩 上传到/home/Mcwang/soft tar -zvxf ha...原创 2018-05-14 16:57:15 · 1767 阅读 · 0 评论 -
Linux-SSH无密钥登陆
这里所用虚拟机是Centos6.5安装三个机器, 机器名(主机) IP地址 master 192.168.29.130 slave1 192.168.29.133 ...原创 2018-05-14 00:30:15 · 2332 阅读 · 0 评论