自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 Kylin的安装部署以及遇到的一些问题的解决==问题解决篇(3)

在上篇博客中已经配置好了Kylin,但是在配置的过程中会出现各种各样的奇葩报错,煞费苦心哇话不多说我就直接上截图了1.这个报错我就不复制了直接看截图把:这个原因当时花了好长时间,为什么他会报这个错误呢??我的思路:1.不慌从开始检查,这个是配置hbase1.1版本的时候在hbase1.1/conf/hbase. size.xml的时候我的集群上hbase是开启的,HMaster和Hregionserver是开启的。我直接就修改了文件中的配置,导致修改的东西没有修改过来,还是之前没配置的时候那

2020-05-14 18:41:53 806

原创 Flink四大基石和流处理,批处理

之前介绍了FLink的一些基本原理,架构部署,那么Flink中的四大基石是什么?我们来研究研究这玩意我们了解到FLink中有四大基石:Checkpoint stage Time Window这四部分那么首先我们来看看Checkpoint机制是Flink中最重要的一个特性,FLink基于chandy_Lamport算法实现了一个分布式的一致性的快照,从而提供了一致性的语义,提供了一致性的语义之后,Flink为了让用户编程更加轻松,更加容易的去管理状态,还提供了一套stage API (也就是状态管理,状

2020-09-11 11:32:47 1006 2

原创 Flink(二--->架构(流程体系))

1.Flink中重要的角色JobManager 处理器:也称之为 Master, 用于协调分布式执行, 它们用来调度 task, 协调检查点, 协调失败时恢复等。 Flink 运行时至少存在一个 master 处理器, 如果配置高可用模式则会存在多个 master 处理器, 它们其中有一个是 leader, 而其他的都是 standby。TaskManager 处理器:也称之为 Worker, 用于执行一个 dataflow 的 task(或者特殊的 subtask)、 数据缓冲和datastre

2020-08-31 18:35:50 240

原创 Flink(一>介绍概念,特征等)

在看到这个松鼠的时候我首先想到DOTA2里的蓝胖的经典台词!!!“刚刚是几级?”“一级!”“你先请!”“你先请!”“那是只松鼠吗?”“得了吧你!那明明是只鸟!”蓝胖子愣住了。那明明是一只金鹏……可它的眼眸里,竟反射出了熟悉的光——是专属于那只松鼠的狡黠。1.Flink的介绍(背景):这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计.

2020-08-31 18:02:18 525

原创 kafka学习(了解,kafka的介绍及特点)

kafka理解及使用1.什么是kafka???kafka是一个分布式的,可分区的,多副本的,多订阅者的消息订阅系统。1.1那么问题来了什么是消息队列呢(我们对比一下消息和消息队列):**消息:**是指在应用之间传送的数据,消息非常简单,比如只包含文本字符串,也可以更加复杂,可能包含插入对象消息队列:是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递,消息发布这只管把消息发布到MQ中不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的

2020-08-25 15:47:23 418

原创 hive的优化及数据倾斜的一些处理方式

一、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。

2020-08-19 20:07:31 815

原创 Kylin的安装部署以及遇到的一些问题的解决(2)

话接上篇,安装好hbase1.1.1后安装kylin-2.6.3-bin-hbase1x解压apache-kylin-2.6.3-bin-hbase1x.tar.gztar -zxf /export/softwares/apache-kylin-2.6.3-bin-hbase1x.tar.gz -C /export/servers/增加kylin依赖组件的配置/export/servers/apache-kylin-2.6.3-bin-hbase1x/confln -s $HADOOP_HOME

2020-05-14 18:00:56 438

原创 Kylin的安装部署以及遇到的一些问题的解决(1)

Kylin安装依赖环境软件 版本Apache hbase-1.1.1-bin.tar.gz 1.1.1spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz 2.2.0-bin-cdh5.14.0apache-kylin-2.6.3-bin-hbase1x.tar.gz 2.6.3注意:• kylin-2.6.3-bin-hbase1x所依赖的hbase为1.1.1版本• 要求hbase的hbase.zookeeper.quorum值必须只能是host1,host2,…。

2020-05-14 17:49:42 524

原创 Kylin_麒麟介绍

Kylin简介 kylin-是由中国团队研发的,是第一个真正的由中国人自己主导,从零开始,并成为Apache顶级的开源项目,在此发表感叹国货之光。

2020-05-14 17:32:01 5083

原创 关于HBase的JavaAPI的一点细节的问题

在向表中添加数据的时候,获取表以后,我这是创建Put对象并指定Rowkey的时候,指定的Rowkey和表中的对应列族的名称不同,出了这么一个问题:19/12/18 08:59:24 WARN client.AsyncProcess: #2, table=new, attempt=1/31 failed=1ops, last exception: org.apache.hadoop.hbase....

2019-12-18 09:18:15 366

原创 对于ZooKeeper选举机制的学习

zookeeper默认的算法是FastLeaderElection,采用投票数大于半数则胜出的逻辑。概念服务器ID比如有三台服务器,编号分别是1,2,3。编号越大在选择算法中的权重越大。选举状态LOOKING,竞选状态。FOLLOWING,随从状态,同步leader状态,参与投票。OBSERVING,观察状态,同步leader状态,不参与投票。LEADING,领导者状态。数据I...

2019-12-12 17:29:23 130

原创 ZooKeeper Java API的使用

org.apache.zookeeper.ZookeeperZookeeper 是在Java中客户端主类,负责建立与zookeeper集群的会话,并提供方法进行操作。org.apache.zookeeper.WatcherWatcher接口表示一个标准的事件处理器,其定义了事件通知相关的逻辑,包含KeeperState和EventType两个枚举类,分别代表了通知状态和事件类型,同时定义了事...

2019-12-12 17:28:13 315

原创 学习ZooKeeper Watcher(监听机制)

ZooKeeper提供了分布式数据发布/订阅功能,一个典型的发布/订阅模型系统定义了一种一对多的订阅关系,能让多个订阅者同时监听某一个主题对象,当这个主题对象自身状态变化时,会通知所有订阅者,使他们能够做出相应的处理。ZooKeeper中,引入了Watcher机制来实现这种分布式的通知功能。ZooKeeper允许客户端向服务端注册一个Watcher监听,当服务端的一些事件触发了这个Watcher...

2019-12-12 17:25:47 150

原创 zookeeper的安装部署的一些细节

安装zookeeper的注意事项:安装前需要安装好jdk检测集群时间是否同步检测防火墙是否关闭检测主机 ip映射有没有配置##下载安装包、解压下载地址:CDH版本:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.14.0.tar.gzapache版本:https://archive.apache.org/dis...

2019-12-12 17:21:51 113

原创 Apache Impala的介绍和hive的关系以及Impala的架构图

1. Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)当中的Dremel实现而来,其中旧...

2019-12-12 17:18:39 288

原创 对于Apache Impala安装部署工作

温馨提示::安装Impala之后hdfs 和hive可能会出点问题,请提前准备好快照1. 安装前提集群提前安装好hadoop,hive。hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。hadoop框架需要支持C程序访问接口,查看下图,如果有该路径下有这么文件,就证明支持C接口。2. 下载安装包、依赖包由于impala没有提供tar包进行...

2019-12-12 17:10:48 298

原创 HBase的集群环境搭建从0-1

注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行第一步:下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.com/cdh...

2019-12-12 16:37:44 115

原创 Hbase出现ERROR的两个问题

1.HBase所出现的第一个问题:hbase(main):001:0> listTABLEERROR: Can’t get master address from ZooKeeper; znode data nullHere is some help for this command:List all tables in hbase. Optional regular expre...

2019-12-12 15:47:37 2387 1

原创 Apache Hue集成YARN

1. 修改hue.ini[[yarn_clusters]][[[default]]]resourcemanager_host=node-1resourcemanager_port=8032submit_to=Trueresourcemanager_api_url=http://node-1:8088history_server_api_url=http://node-1:19888...

2019-12-11 21:29:45 161

原创 Apache Hue与软件的集成

1. Hue集成HDFS注意修改完HDFS相关配置后,需要把配置scp给集群中每台机器,重启hdfs集群。2.1.1. 修改core-site.xml配置<!—允许通过httpfs方式访问hdfs的主机名 --><property><name>hadoop.proxyuser.root.hosts</name><value>*...

2019-12-11 21:24:09 133

原创 Apache Hue安装部署及编译

1. 上传解压安装包:Hue的安装支持多种方式,包括rpm包的方式进行安装、tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等,我们这里使用tar.gz包的方式来进行安装。Hue的压缩包的下载地址:http://archive.cloudera.com/cdh5/cdh/5/我们这里使用的是CDH5.14.0这个对应的版本,具体下载地址为http://a...

2019-12-10 18:05:34 561

原创 Azkaban工作流调度简单介绍和部署

1.Azkaban工作流调度:

2019-12-10 17:34:04 284

原创 日志采集框架的简单介绍和部署集群的注意点

1 Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。 一般的采集需求,通过对flume的简单配置即可实现。 Flume针对特殊场景也具备良好的自定义扩...

2019-12-09 22:21:26 283 1

原创 Hive的使用方式

##1.安装Hive后的配置变量的前提下,再节点的任意位置直接Hive+回车hive(default)>>>2.2.安装配置环境以后,再节点的任意位置直接hive --service hiveserver22.hive的使用方式1.安装Hive后的配置变量的前提下,再节点的任意位置直接Hive+回车hive(default)>>>2.安装配置环境以后,再...

2019-11-20 22:31:22 440

原创 Hive的基本概念(安装部署)

#1.什么是Hive?hive是Hadoop的一个数据仓库工具,是将结构化数据文件映射成为一个数据表,并提供类SQL的查询工具。Hive可以对数据进行储存于计算数据存储依赖于HDFS数据计算依赖于Map Reduce#Hive的目的(意义):在hadoop是个好软件,但是不好使用(学习成本太高,坡度陡,难度大)的前提下降低了程序员使用hadoop的学习成本,降低了难度。#Hive特点...

2019-11-20 22:25:02 155

原创 Map Reduce的join算法的实现

##1、reduce端join算法实现这里有两个数据表:orders.txt和product.txt假如数据量巨大,两表的数据是以文件的形式存储在HDFS中,需要用mapreduce程序来实现一下SQL查询运算:select a.id,a.date,b.name,b.category_id,b.price from t_order a join t_product b on a.pid ...

2019-11-19 08:06:01 414

原创 简单介绍Hadoop当中支持的压缩算法

文件压缩他有两大好处:1.节约磁盘空间2.加速数据在网络和磁盘的传输现在我所用的这个Hadoop经过重新编译,可以支持所有的压缩格式 各种压缩算法对应使用的java类压缩格式 对应使用的java类DEFLATE org.apache.hadoop.io.compress.DeFaultCodecgzip org.apache.hadoop.io.compress.GZipCod...

2019-11-18 23:34:46 269

原创 MapReduce介绍及使用

Hadoop组成:Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。Hadoop Yarn:基于HDFS,用于作业调度和集群资源管理的框架。分布式计算框架MapReduce:#1.什么是计算框架:计算框架就是指某项任务或者某项工作从开始到结束的计算过程或流的结构,用于解决或者处...

2019-11-13 17:26:22 345

原创 关于HDFS一些总结

今天说的是关于1.HDFS的特性 2.HDFS的缺点 3.HDFS的高级命令 4.HDFS安全模式 5.HDFS的配置选项 6.secondartnameNode的工作原理(意义)步入正题:1.HDFS的特性1.存储海量数据:HDFS可横向扩展,其储存的文件可以支持PB级数据2.高容错性:数据保存多个副本,副本丢失后自动恢复。可构建廉价(与小型机大型机对比)的机器上,实现线性扩展。(...

2019-11-05 21:36:15 289

原创 HDFS的文件读写具体流程

之前说到Hadoop的安装部署和一些大数据的特点今天总结一下DataNode的作用HDFS的文件读取流程和写入流程还有一点对机器感知的理解步入主题:DataNode功能:文件的各个block的具体存储管理由datanode节点承担。每一个block都可以在多个datanode上。Datanode 需要定时Namenode汇报自己持有的block信息,存储多个副本(副本数量也可以通过参数设...

2019-11-04 20:43:55 330

原创 接着我上次发的Hadoop安装部署有点小问题做点小改进

上次发的Hadoop安装部署修改部署文件少了点东西,现在补上修改hadoop配置文件,做的很粗造,请不要介意修改hdfs-site.xml剩下的顺着上次发的那个走就...

2019-10-31 21:51:02 66

原创 大数据的概述 /大数据的特点/

**1.什么是大数据 ** 字面意思:数据量很大的数据就是大数据 数据集的大小已经远远超过了现有传统的技术方案(数据库)工具他们的处理能力的数据。是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2.大数据的特点1. 海量化(数据量大)2. 多样化(结构化数...

2019-10-31 21:34:04 1038

原创 安装Hadoop具体实现操作(Hadoop运行环境的搭建)

今天关于安装hadoop一些具体的操作步骤,这是个人看法和想法,大佬勿喷##我的Hadoop安装的是CDH编译好的所以我的没有编译是直接安装直接配置Hadoop环境搭建:(从静态IP配置好开始,每个节点)1.JDK 1.82 、远程ssh无密码登录(主到从)3、 防火墙关闭4、 selinux关闭5、 修改主机名6、 主机名和IP对应##JDK配置环境所需要的:(etc/prof...

2019-10-31 21:21:37 210

原创 虚拟机JDK/tomcat/mysql安装

JDK安装部署​ 安装JDK​ 第一步​ 上传1.8jdk的压缩包,并解压​ 文件上传的路径为/export/soft​ jdk解压的路径是/export/install​ 第二步:配置环境变量​ 在/etc/profile.d目录下创建一个java.sh文件,在该文件内编辑环境变量​ export JAVA_HOME=/export/install/jdk1.8....

2019-10-21 21:08:48 114

原创 关于挂载和yum源制作

关于Linux挂载 持有系统镜像 光驱 的一些小问题1.查看分区四大块:1.分区名称2.分区类型3.uuid:设备的唯一编号4.mountpoint:目录的位置(虚拟机增加硬盘不用多说,傻瓜式操作完成以后重启就成)lslbk -f :查看所有设备的挂载 情况*分区具体操作:开始分区: fdisk /dev/sdb2.命令依次是 m–>n–>p–&...

2019-10-17 18:06:39 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除