2019年11月_kismetG

原创 HIVE -- 基础介绍，建表介绍

1.hive的介绍Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，hive可以理解为一个将SQL转换为MapReduce的任务的工具。2.hive的特点可扩展 Hive可以自由的扩展集群...

2019-11-28 17:18:51 1993

原创 hive -- return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

异常：Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)查看日志信息：原因，没有开启Metastore，解决方法：开启Metastore，...

2019-11-20 10:41:29 3524

原创 MapReduce （8）--MapReduce 自定义outputFormat

1 需求现在有一些订单的评论数据，需求，将订单的好评与差评进行区分开来，将最终的数据分开到不同的文件夹下面去，数据内容参见资料文件夹，其中数据第九个字段表示好评，中评，差评。0：好评，1：中评，2：差评2 分析程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义outputformat来实现3 实现实现要点：...

2019-11-19 10:36:28 1483

原创 MapReduce （7）--MapReduce 自定义inputFormat合并小文件

无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案下面我们在业务处理之前，在HDFS上使用mapreduce程序对小文件进行合并，自定义一个InputFormat改写RecordReader，实现一次读取一个完整文件封装为KV在输出时使用SequenceFileOutPutFormat输出合并文件上代码！...

2019-11-19 09:12:06 1549

原创大数据篇 --错题集 java.lang.ClassCastException: cannot be cast to org.apache.hadoop.io.ByteWritable

错误异常：java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast to org.apache.hadoop.io.ByteWritable at org.apache.hadoop.mapred.LocalJobRunner$Job.run(...

2019-11-19 08:54:54 2570

原创大数据篇 --错题集自定义InputFromat的错误cannot be cast to org.apache.hadoop.io.NullWritable

错误1：java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.NullWritable原因：自定义的inputfromat 但是还是用的原来的：修改：...

2019-11-19 08:42:09 1737

原创 MapReduce（6）--MapReduce reduce端join与map端join算法实现

1、reduce端join算法实现1.txt：1001,20150710,p0001,21002,20150710,p0002,31002,20150710,p0003,32.txtp0001,小米5,1000,2000p0002,锤子T1,1000,3000通过将关联的条件作为map输出的key，将两表满足join条件的数据并携带数据所来源的文件信息，发往同一个redu...

2019-11-18 22:28:54 1359

原创 MapReduce（5）--MapReduce shuffle阶段数据的压缩机制

在shuffle阶段，可以看到数据通过大量的拷贝，从map阶段输出的数据，都要通过网络拷贝，发送到reduce阶段，这一过程中，涉及到大量的网络IO，如果数据能够进行压缩，那么数据的发送量就会少得多。文件压缩有两大好处，节约磁盘空间，加速数据在网络和磁盘上的传输hadoop支持的压缩算法：压缩格式工具算法文...

2019-11-18 22:05:59 1607

原创 MapReduce（4）--MapReduce 统计求和，排序

1.统计求和，需求：统计每个手机号的上行流量总和，下行流量总和，上行总流量之和，下行总流量之和文件：13631579850 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 游戏娱乐 24 27 2481 24681 20013631579950 13826544101 5C-0E-8B-C7-F1...

2019-11-18 21:55:47 3505

原创大数据篇 --错题集 Check system time and time zones. 节点间时间不一致

1.三台服务器时间不同步三个节点的时间：同步三个节点的时间：见：ntp时间同步，联网模式，离线模式！！！https://blog.csdn.net/weixin_44036154/article/details/102718110...

2019-11-18 16:07:01 1382

原创 MapReduce（3）--分布式计算框架MapReduce初体验

1.pom准备2.定义一个mapper类3.定义一个reducer类-----------------------------------------------------------------------------------------------------------------此上与本地的MapReduce无任何区别，参照：https://blog.csdn.n...

2019-11-14 11:19:18 1738

原创 MapReduce（2）--分布式计算框架MapReduce初体验（本地计算）

1.需求：在给定的文本文件中统计输出每一个名字出现的总次数数据准备：ttt.txtzhangshan,lisi,wangwu,zhaoliu,zhangshan,zhangshan,zhangshan,zhangshan,wangwu,wangwu,wangwu,zhaoliu,zhaoliu,zhaoliu,zhangshanpom 文件准备：<r...

2019-11-13 17:48:17 1593

原创 MapReduce（1）--分布式计算框架MapReduce介绍

Hadoop组成 Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统，对海量数据的存储。 Hadoop MapReduce：一个分布式的资源调度和离线并行计算框架。 Hadoop Yarn：基于HDFS,用于作业调度和集群资源管理的框架。什么是计算框架？是指实现某项任务或某项工作从开始到结束的计算过程或流的...

2019-11-13 16:50:42 1784 1

原创大数据篇 --错题集 MapReduce 计算求和 storedException报null java.lang.NullPointerException

debug结果：指定位置都有值，接着debug发现异常！！原因：解决方法：错误：数据转换错误，导致空指针异常

2019-11-12 21:17:26 1519

原创 HDFS（12）--HDFS的javaAPI操作

创建maven工程并导入jar包<repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>&...

2019-11-12 15:17:47 2031 1

原创大数据篇 --（错题集）Output directory F:/aa already exists

程序报错：检查代码，发现没有任何错误，检查查询文件，无误，查询结果目录，发现已有结果，此目录已被占用，个换目录尝试！程序正常，无误当结果输出的目标地址已经被其他程序占用时，会报以上错误，跟换路径到新文件夹就行...

2019-11-12 14:56:52 1474

原创大数据篇 --（错题集）Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org

代码如下：map里的代码会发现重写map方法的时候没有删除super.map(key, value, context);返回的结果依旧是之前的把它删除就行了！！再次运行：...

2019-11-12 14:43:31 1435

原创 HDFS（11）--HDFS新增节点与删除节点

需求基础：随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。准备新节点第一步：复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来，作为我们新的节点第二步：修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修...

2019-11-11 20:19:52 2160

secondaryNamenode对namenode当中的fsimage和edits进行合并时，每次都会先将namenode的fsimage与edits文件拷贝一份过来，所以fsimage与edits文件在secondarNamendoe当中也会保存有一份，如果namenode的fsimage与edits文件损坏，那么我们可以将secondaryNamenode当中的fsimage与edits拷贝...

2019-11-11 20:11:35 1650

原创 HDFS（9）--hdfs的fsimage，edits，secondarynameNode

NameNode元数据解析（1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载edits和fsimage文件到内存。（2）客户端对元数据进行增删改的请求。（3）namenode记录操作日志，更新滚动日志。（4）namenode在内存中对数据进行增删改查。fsimage保存了最新的元数据检查点，在HDFS启动时加载fsim...

2019-11-11 08:42:22 1678 1

原创 HDFS（8）--hdfs的安全模式

安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求。在NameNode主节点启动时，HDFS首先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，当整个系统达到安全标准时，HDFS自动离开安全模式。如果HDFS处于安全模式下，则文件block不能进行任何的副本复制操作，因此达到最小的副本数量要求是基...

2019-11-11 08:34:56 1978

原创 HDFS（7）--HDFS的特性

优点：1、海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别或更高级别的数据存储。2、高容错性：数据保存多个副本，副本丢失后自动恢复。可构建在廉价的机器上，实现线性扩展。当集群增加新节点之后，namenode也可以感知，进行负载均衡，将数据分发和备份数据均衡到新的节点上。3、商用硬件：Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件（廉价商业硬件）的...

2019-11-11 08:27:16 1420

原创 HDFS（6）--HDFS的shell命令操作

（1）-help：输出这个命令参数bin/hdfs dfs -help rm（2）-ls:显示目录信息hdfs dfs-ls /（3）-mkdir：在hdfs上创建目录hdfs dfs-mkdir -p /aaa/bbb/cc/dd（4）-moveFromLocal从本地剪切粘贴到hdfshdfs dfs-moveFromLocal /home/Had...

2019-11-11 08:22:18 1590

转载大数据篇（8）--分布式与女朋友的神奇组合

你女朋友是高可用么？分布式系统的概念，技术来源于恋爱，又高于恋爱1.高可用:就算失恋了，可以迅速和另一个女生恋爱，永远不会是单身状态2.注册中心:你和你女朋友去民政局登记，民政局就是注册中心，掉线的代价就是离婚3.负载均衡:你和多个女朋友轮流约会。星期一，三，五跟A约会，二，四，六和B约会，叫RoundRibon算法4.熔断限流:跟多个女朋友约会，你身体吃得消么？你要保护自己，星期...

2019-11-08 10:37:16 1182 3

原创 HDFS（5）--hdfs数据的完整性，掉线时限参数设置

数据的完整性当DataNode读取block的时候，他会计算checksum 计算checksum时如发现与block创建时（第一次上传文件时会计算checksum值）不一样时，说明block已损坏 client会读取其他DataNode上checksum完整的block DataNode在其文件创建后周期验证check...

2019-11-08 10:30:01 1940

原创 HDFS（4） --HDFS文件读写流程（最详细！！！）

文件写入过程：详细步骤：1.client发起文件上传请求，通过rpc与namenode建立通讯，namenode检查目标文件是否存在，父目录是否存在，返回是否可以上传2.click请求第一个block该传输到那些datenode服务器上3.namenode根据配置文件将指定的备份数量以及机架感知进行文件分配，返回可用的dataname的地址4.click请求三台dat...

2019-11-05 17:33:01 3239

原创 HDFS（3）--名字空间（NameSpace）、机架感知

名字空间（NameSpace）HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。Namenode 负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。HDFS 会给客户端提供一个统一的目录树，客户端通过路...

2019-11-04 21:16:22 1796 4

原创 HDFS（2）--HDFS结构功能介绍

Namenode 功能1.Namenode 负责维护整个hdfs文件系统的目录树结构，以及每一个文件所对应的 block 块信息（block 的id，及所在的datanode 服务器）。2.Namenode节点负责确定指定的文件块到具体的Datanode结点的映射关系。在客户端与数据节点之间共享数据。3.管理Datanode结点的状态报告，包括Datanode结点的健康状态报告和其所在...

2019-11-04 21:09:24 1840

原创 HDFS（1）--HDFS基本介绍

HDFS 是Hadoop分布式文件系统。是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。HDFS使用Master和Slave结构对集群进行管理，一般一个HDFS集群只有一个Namenode和一定数目的Datanode组成，Namenode 是 HDFS 集群主节点，Datanode 是 HDFS 集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。NameNode...

2019-11-04 20:32:22 1427

原创大数据篇（2）--集群

1.正常启动集群2.正常关闭集群3.每个服务在启动时都会将启动的详细信息打印到日志里注：在hadoop中修改任何配置文件都需要全局（所有节点）同步！！！那个节点服务出现了异常，就到哪个节点查看你想要的的日志集群不要随意格式化（格式化数据永久消失且不...

2019-11-01 16:01:54 1528

原创大数据篇（1）--简介

1.Hadoop的由来! Hadoop之父Doug Cutting 1.Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、...

2019-11-01 14:53:11 1450

kismet