自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

kismet

大数据进行中ing~~

  • 博客(31)
  • 资源 (3)
  • 收藏
  • 关注

原创 HIVE -- 基础介绍,建表介绍

1.hive的介绍Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。2.hive的特点可扩展 Hive可以自由的扩展集群...

2019-11-28 17:18:51 1993

原创 hive -- return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

异常:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)查看日志信息:原因,没有开启Metastore,解决方法:开启Metastore,...

2019-11-20 10:41:29 3524

原创 MapReduce (8)--MapReduce 自定义outputFormat

1 需求现在有一些订单的评论数据,需求,将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容参见资料文件夹,其中数据第九个字段表示好评,中评,差评。0:好评,1:中评,2:差评2 分析程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现3 实现实现要点:...

2019-11-19 10:36:28 1483

原创 MapReduce (7)--MapReduce 自定义inputFormat合并小文件

无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案下面我们在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并,自定义一个InputFormat改写RecordReader,实现一次读取一个完整文件封装为KV在输出时使用SequenceFileOutPutFormat输出合并文件上代码!...

2019-11-19 09:12:06 1549

原创 大数据篇 --错题集 java.lang.ClassCastException: cannot be cast to org.apache.hadoop.io.ByteWritable

错误异常:java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast to org.apache.hadoop.io.ByteWritable at org.apache.hadoop.mapred.LocalJobRunner$Job.run(...

2019-11-19 08:54:54 2570

原创 大数据篇 --错题集 自定义InputFromat的错误cannot be cast to org.apache.hadoop.io.NullWritable

错误1:java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.NullWritable原因:自定义的inputfromat 但是还是用的原来的:修改:...

2019-11-19 08:42:09 1737

原创 MapReduce(6)--MapReduce reduce端join与map端join算法实现

1、reduce端join算法实现1.txt:1001,20150710,p0001,21002,20150710,p0002,31002,20150710,p0003,32.txtp0001,小米5,1000,2000p0002,锤子T1,1000,3000通过将关联的条件作为map输出的key,将两表满足join条件的数据并携带数据所来源的文件信息,发往同一个redu...

2019-11-18 22:28:54 1359

原创 MapReduce(5)--MapReduce shuffle阶段数据的压缩机制

在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多。文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输hadoop支持的压缩算法: 压缩格式 工具 算法 文...

2019-11-18 22:05:59 1607

原创 MapReduce(4)--MapReduce 统计求和,排序

1.统计求和,需求:统计每个手机号的上行流量总和,下行流量总和,上行总流量之和,下行总流量之和文件:13631579850 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 游戏娱乐 24 27 2481 24681 20013631579950 13826544101 5C-0E-8B-C7-F1...

2019-11-18 21:55:47 3505

原创 大数据篇 --错题集 Check system time and time zones. 节点间时间不一致

1.三台服务器时间不同步三个节点的时间:同步三个节点的时间:见:ntp时间同步,联网模式,离线模式!!!https://blog.csdn.net/weixin_44036154/article/details/102718110...

2019-11-18 16:07:01 1382

原创 MapReduce(3)--分布式计算框架MapReduce初体验

1.pom准备2.定义一个mapper类3.定义一个reducer类-----------------------------------------------------------------------------------------------------------------此上与本地的MapReduce无任何区别,参照:https://blog.csdn.n...

2019-11-14 11:19:18 1738

原创 MapReduce(2)--分布式计算框架MapReduce初体验(本地计算)

1.需求:在给定的文本文件中统计输出每一个名字出现的总次数数据准备:ttt.txtzhangshan,lisi,wangwu,zhaoliu,zhangshan,zhangshan,zhangshan,zhangshan,wangwu,wangwu,wangwu,zhaoliu,zhaoliu,zhaoliu,zhangshanpom 文件准备:<r...

2019-11-13 17:48:17 1593

原创 MapReduce(1)--分布式计算框架MapReduce介绍

Hadoop组成 Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。 Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。 Hadoop Yarn:基于HDFS,用于作业调度和集群资源管理的框架。什么是计算框架? 是指实现某项任务或某项工作从开始到结束的计算过程或流的...

2019-11-13 16:50:42 1784 1

原创 大数据篇 --错题集 MapReduce 计算求和 storedException报null java.lang.NullPointerException

debug结果:指定位置都有值,接着debug发现异常!!原因:解决方法:错误:数据转换错误,导致空指针异常

2019-11-12 21:17:26 1519

原创 HDFS(12)--HDFS的javaAPI操作

创建maven工程并导入jar包<repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>&...

2019-11-12 15:17:47 2031 1

原创 大数据篇 --(错题集)Output directory F:/aa already exists

程序报错:检查代码,发现没有任何错误,检查查询文件,无误,查询结果目录,发现已有结果,此目录已被占用,个换目录尝试!程序正常,无误当结果输出的目标地址已经被其他程序占用时,会报以上错误,跟换路径到新文件夹就行...

2019-11-12 14:56:52 1474

原创 大数据篇 --(错题集)Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org

代码如下:map里的代码会发现重写map方法的时候没有删除super.map(key, value, context);返回的结果依旧是之前的把它删除就行了!!再次运行:...

2019-11-12 14:43:31 1435

原创 HDFS(11)--HDFS新增节点与删除节点

需求基础:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。准备新节点第一步:复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来,作为我们新的节点第二步:修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修...

2019-11-11 20:19:52 2160

原创 HDFS(10)--namenode故障恢复

secondaryNamenode对namenode当中的fsimage和edits进行合并时,每次都会先将namenode的fsimage与edits文件拷贝一份过来,所以fsimage与edits文件在secondarNamendoe当中也会保存有一份,如果namenode的fsimage与edits文件损坏,那么我们可以将secondaryNamenode当中的fsimage与edits拷贝...

2019-11-11 20:11:35 1650

原创 HDFS(9)--hdfs的fsimage,edits,secondarynameNode

NameNode元数据解析(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载edits和fsimage文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode记录操作日志,更新滚动日志。(4)namenode在内存中对数据进行增删改查。fsimage保存了最新的元数据检查点,在HDFS启动时加载fsim...

2019-11-11 08:42:22 1678 1

原创 HDFS(8)--hdfs的安全模式

安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,HDFS自动离开安全模式。如果HDFS处于安全模式下,则文件block不能进行任何的副本复制操作,因此达到最小的副本数量要求是基...

2019-11-11 08:34:56 1978

原创 HDFS(7)--HDFS的特性

优点:1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。2、高容错性:数据保存多个副本,副本丢失后自动恢复。可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,namenode也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。3、商用硬件:Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件(廉价商业硬件)的...

2019-11-11 08:27:16 1420

原创 HDFS(6)--HDFS的shell命令操作

(1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls:显示目录信息hdfs dfs-ls /(3)-mkdir:在hdfs上创建目录hdfs dfs-mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘贴到hdfshdfs dfs-moveFromLocal /home/Had...

2019-11-11 08:22:18 1590

转载 大数据篇(8)--分布式与女朋友的神奇组合

你女朋友是高可用么?分布式系统的概念,技术来源于恋爱,又高于恋爱1.高可用:就算失恋了,可以迅速和另一个女生恋爱,永远不会是单身状态2.注册中心:你和你女朋友去民政局登记,民政局就是注册中心,掉线的代价就是离婚3.负载均衡:你和多个女朋友轮流约会。星期一,三,五跟A约会,二,四,六和B约会,叫RoundRibon算法4.熔断限流:跟多个女朋友约会,你身体吃得消么?你要保护自己,星期...

2019-11-08 10:37:16 1182 3

原创 HDFS(5)--hdfs数据的完整性,掉线时限参数设置

数据的完整性 当DataNode读取block的时候,他会计算checksum 计算checksum时如发现与block创建时(第一次上传文件时会计算checksum值)不一样时,说明block已损坏 client会读取其他DataNode上checksum完整的block DataNode在其文件创建后周期验证check...

2019-11-08 10:30:01 1940

原创 HDFS(4) --HDFS文件读写流程(最详细!!!)

文件写入过程:详细步骤:1.client发起文件上传请求,通过rpc与namenode建立通讯,namenode检查目标文件是否存在,父目录是否存在,返回是否可以上传2.click请求第一个block该传输到那些datenode服务器上3.namenode根据配置文件将指定的备份数量以及机架感知进行文件分配,返回可用的dataname的地址4.click请求三台dat...

2019-11-05 17:33:01 3239

原创 HDFS(3)--名字空间(NameSpace)、机架感知

名字空间(NameSpace)HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。Namenode 负责维护文件系统的名字空间,任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。HDFS 会给客户端提供一个统一的目录树,客户端通过路...

2019-11-04 21:16:22 1796 4

原创 HDFS(2)--HDFS结构功能介绍

Namenode 功能1.Namenode 负责维护整个hdfs文件系统的目录树结构,以及每一个文件所对应的 block 块信息(block 的id,及所在的datanode 服务器)。2.Namenode节点负责确定指定的文件块到具体的Datanode结点的映射关系。在客户端与数据节点之间共享数据。3.管理Datanode结点的状态报告,包括Datanode结点的健康状态报告和其所在...

2019-11-04 21:09:24 1840

原创 HDFS(1)--HDFS基本介绍

HDFS 是Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。HDFS使用Master和Slave结构对集群进行管理,一般一个HDFS集群只有一个Namenode和一定数目的Datanode组成,Namenode 是 HDFS 集群主节点,Datanode 是 HDFS 集群从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。NameNode...

2019-11-04 20:32:22 1427

原创 大数据篇(2)--集群

1.正常启动集群2.正常关闭集群3.每个服务在启动时都会将启动的详细信息打印到日志里 注: 在hadoop中修改任何配置文件都需要全局(所有节点)同步!!! 那个节点服务出现了异常,就到哪个节点查看你想要的的日志 集群不要随意格式化(格式化数据永久消失且不...

2019-11-01 16:01:54 1528

原创 大数据篇(1)--简介

1.Hadoop的由来! Hadoop之父Doug Cutting 1.Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、...

2019-11-01 14:53:11 1450

java POI 通过MultipartFile删除Excel文件解析写入数据库

java POI 通过MultipartFileExcel文件解析写入数据库

2020-09-02

kylin资源包(hbase安装,kylin安装,安装测试题)

为个人方便后期巩固安装配置kylin,其中包括相对应的habse安装包,安装步骤,kylin安装的测试题

2020-05-13

kylin.rar为kylin.properties的配置

修改 资料配置文件\kylin.properties 中HDFS的路径,然后上传到 Linux的 Kylin/conf文件夹中

2020-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除