![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
大数据
我是泛滥
这个作者很懒,什么都没留下…
展开
-
关联分析中的支持度、置信度和提升度 计算
目录项集(Itemset)事务的宽度支持度、置信度和提升度 定义例一例二项集(Itemset)包含0个或多个项的集合,如果包含k个项,则称为k-项集。事务的宽度事务中出现的项的个数支持度、置信度和提升度 定义一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。Support(支持度)Support(支持度):表示同时包含A和B的事务占所有事务的比...原创 2020-04-26 16:31:18 · 17737 阅读 · 5 评论 -
hbase资源管理
目录概述流量限制资源限制Quota语句概述在HBase-1.1.0之前,HBase集群中资源都是全量的。用户、表这些都是没有限制的,看似完美实则隐患较大。流量限制为什么要做流量限制,无限制全量跑不是更好吗?比如今天的双十一日,数据流量是非常大的。如果不限制用户和表的流量,某些重要的核心业务,需要在资源有限的情况下优先保证正常运行。如果非核心业务在此期间其QPS一直降不下来,严重消耗系统资源,影响核心业务的正常运作。针对上述问题,可以采取以下方案来解决:资源限制:针对用户、命名空间及表的请求大原创 2020-05-25 17:32:35 · 548 阅读 · 0 评论 -
ERROR: Can't get master address from ZooKeeper; znode data == null
错误如下:ERROR: Can't get master address from ZooKeeper; znode data == null愿因是因为zookeeper不稳定,长时间待机等所造成,我是属于后者解决方案stop-hbase.shstart-hbase.sh...原创 2020-03-19 13:06:03 · 2508 阅读 · 0 评论 -
hadoop01:16000.activeMasterManager] master.HMaster: Failed to become active master
hbase启动后HMaster闪挂hbase启动之后,hmaster几秒钟后又挂掉,rs和zk在各个节点的进程均正常然后我查看hbase的logs,发现以下问题:2020-03-03 21:19:59,346 FATAL [hadoop01:16000.activeMasterManager] master.HMaster: Failed to become active masterja...原创 2020-03-03 21:52:36 · 3018 阅读 · 2 评论 -
Hbase概念与架构(1)
一、HBase概念HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBase不同于Oracle、SQL Server等关系型数据库,它不支持标准SQL语言,也不是以行存储的关系型结...原创 2020-02-25 19:56:32 · 151 阅读 · 0 评论 -
hbase shell常用命令
常用命令hbaseshell命令描述create创建表< create ‘表名’, ‘列族名’, ‘列族名2’,‘列族名N’ >list查看所有表< list all >describe显示表详细信息< describe ‘表名’ >exists判断表是否存在< exists ‘表名’ >...原创 2020-03-19 12:49:05 · 400 阅读 · 0 评论 -
HBase的应用场景及特点
一、Hbase能做什么?海量数据存储:上百亿行 x 上百万列 并没有列的限制当表非常大的时候才能发挥这个作用, 最多百万行的话,没有必要放入hbase 中准实时查询:百亿行 x 百万列,在百毫秒以内二、Hbase在实际场景中的应用:交通方面:船舶GPS信息,全长江的船舶GPS信息,每天有1千万左右的数据存储。金融方面:消费信息,贷款信息,信用卡还款信息等...原创 2020-02-22 11:57:33 · 1276 阅读 · 1 评论 -
HBase表结构(2)
简介HBase的名字的来源于Hadoop database,即hadoop数据库,不同于一般的关系数据库,它是非结构化数据存储的数据库,而且它是基于列的而不是基于行的模式。简单介绍如图HBase是一个分布式的、面向列的、基于Google Bigtable的开源实现。Hadoop HDFS作为其文件存储系统,Hadoop MapReduce来处理HBase中的海量数据,Zookeepe...原创 2020-03-18 18:52:00 · 762 阅读 · 0 评论 -
HBase的完全分布式的安装
安装步骤:一、上传解压tar -zxf hbase-2.0.1-hadoop1-bin.tar.gz -C /opt/app/二、设置全局设置环境变量vim /etc/profile #每台都配置,生效export HBASE_HOME=/app/hbase-2.0.1export PATH=$PATH:$HBASE_HOME/bin然后使用source /etc/prof...原创 2020-03-03 22:40:08 · 354 阅读 · 0 评论 -
hbase 创建一直到删除过程学习笔记
创建王者荣耀表的需求:1.进入Shell[root@hadoop01 ~]# hbase shellHBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 1.3.1, r930b9a55...原创 2020-04-20 18:58:34 · 168 阅读 · 0 评论 -
hbase shell 输入无法使用退格键删除解决办法
解决办法:使用Ctrl + Backspace(退格键)或Shift + Backspace组合键删除原创 2020-03-19 10:50:53 · 220 阅读 · 0 评论 -
HDFS简介
hadoop简介Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。(1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。(2)YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager(3)Map...原创 2020-03-31 11:51:10 · 424 阅读 · 0 评论 -
Shell命令操作
HDFS的基本命令命令格式:hdfs dfs -操作命令 参数1、 创建存放数据文件的目录(1) 列出目录结构hdfs dfs –ls 目录路径`例:查看HDFS根目录下的文件hdfs dfs –ls /(2) 创建文件夹hdfs dfs –mkdir 文件夹名称hdfs dfs –mkdir -p 多层文件夹名称例:在根目录下创建HDFSShell文件夹,用来存放...原创 2020-03-01 18:29:27 · 268 阅读 · 0 评论 -
hadoop apache版本和cdh版本的区别和联系
1、cdh比原生的Apache发行版本包含了更多的补丁,用于增强稳定性,改善功能,有时候还增加功能特性2、cdh版本是由cloudera公司开源的,可以使用cm平台进行管理,比原生的Apache版本安装、维护更加省力3、但是对技术人员的要求更高,必须对原生apache版本的各个组件理解清晰4、在cm管理平台中,cdh的parcel包不包含某些组件,需要自己下载对应的parcel包,比如说kafka5、对hdfs部署过程中,对磁盘进行lvm卷轴或者是磁盘目录统一,对于多台机器,否则之后维护成本高.原创 2020-05-14 21:28:10 · 1667 阅读 · 0 评论 -
完全分布式hadoop集群搭建
一、前期准备就绪的前提下二,开始部署1.上传打开三个虚拟机 ,Xshell 连接三台服务器,Xftp把jar包传入到Linux系统里2.创建虚拟机根目录创建hadoop及java文件夹hadoop的jar包就放在hadoop文件夹下/usr/local/hadoop/mkdir hadoopjava的jar包就放在java文件夹下/usr/local/java/mkdir j...原创 2020-02-26 16:06:16 · 236 阅读 · 0 评论 -
解决HDFS YARN 页面访问失败
防火墙解决方案:关闭firewall:systemctl stop firewalld.service拓展知识:停止firewall(禁止firewall开机启动):systemctl disable firewalld.service查看默认防火墙状态(关闭后显示notrunning,开启后显示running):firewall-cmd --state...原创 2020-02-26 16:12:41 · 884 阅读 · 0 评论 -
Linux .ssh下实现免密码登录
1、三台机器:hadoop01hadoop02hadoop03 2、每台机器准备工作:安装JDK、关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service3、设置主机名vi /etc/hosts192.168.157.12 Hadoop01192.168.157.13 ha...原创 2020-02-26 17:33:48 · 84 阅读 · 0 评论 -
使用Hadoop运行自带WorldCount示例
使用Hadoop运行WorldCount示例引言:我们搭建好Hadoop集群,通过一个小型Wordcount案例见识Hadoop的魅力1.首先找到hadoop自带worldcount jar包示例的路径2.准备工作,需要创建输入输出路径以及上传的文件(1)创建vim inputWord #本地txt(2)创建目录hdfs -dfs mkidr -p /input/word...原创 2020-03-04 19:50:28 · 675 阅读 · 0 评论 -
sqoop基本语法简介及导入导出详细步骤
mysql> show databases;+--------------------+| Database |+--------------------+| information_schema || hivedb || mysql || performance_schema |+--------------------+4 rows in set (0.11 sec)mysql> create dat原创 2020-05-21 12:57:50 · 1462 阅读 · 2 评论 -
Sqoop 简单介绍与配置安装
目录简单介绍下载解压配置环境变量修改配置加入数据库驱动三级目录三级目录简单介绍Sqoop是一个用来将Hadoop(Hive、HBase)和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。下载解压下载所需版本的Sqoop ,这里我下载的官网的Sqoop 。下载地址为:https://mirror.bit.edu.cn/apache/sqoop/1.4.原创 2020-05-14 22:08:58 · 570 阅读 · 0 评论 -
ERROR tool.ImportTool: Import failed: java.io.IOException: Hive exited with status 64
sqoop的 迁移数据到hive的报错20/05/20 16:38:16 ERROR tool.ImportTool: Import failed: java.io.IOException: Hive exited with status 64 at org.apache.sqoop.hive.HiveImport.executeExternalHiveScript(HiveImport.java:384) at org.apache.sqoop.hive.HiveImport.executeScri原创 2020-05-20 16:58:11 · 4719 阅读 · 5 评论 -
ERROR util.SqlTypeMap: It seems like you are looking up a column that does not
首次导入可能会报错如下20/05/20 16:31:01 ERROR util.SqlTypeMap: It seems like you are looking up a column that does not20/05/20 16:31:01 ERROR util.SqlTypeMap: exist in the table. Please ensure that you've specified20/05/20 16:31:01 ERROR util.SqlTypeMap: correct c原创 2020-05-20 17:05:48 · 1104 阅读 · 2 评论 -
ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException
sqoop从mysql导入到hive报错:18/08/22 13:30:53 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf at org.apache.sqoop.hive.HiveConfig.getHiveConf(HiveConfig.java:50) at原创 2020-05-20 11:52:24 · 838 阅读 · 0 评论 -
sqoop job的使用
sqoop job的使用sqoop job可以将执行的语句变成一个job,并不是在创建语句的时候执行,你可以查看该job,可以任何时候执行该job,也可以删除job,这样就方便我们进行任务的调度。--create <job-id> 创建一个新的job.--delete <job-id> 删除job--exec <job-id> 执行job--show <job-id> 显示job的参数--list 列出所有的job# 创建job[root@h原创 2020-05-21 15:45:51 · 1305 阅读 · 0 评论 -
hive远程模式
1、搭建的大致流程:上传解压hive包配置环境变量修改配置文件上传jar包替换jar包安装mysql启动Hive验证hive远程模式搭建是否成功2、简单介绍hive远程模式布局节点名服务名hadoop01(主节点)mysql服务端hadoop02Hive服务端Hadoop03hive客户端3、搭建步骤在从节点上作如下操作1.安装...原创 2020-03-15 18:49:11 · 1620 阅读 · 0 评论 -
创建分区表详细笔记
目录前言分区分区表演示创建表查询表结构信息插入数据查询表中信息创建分区表查看分区表信息插入对应分区表查看hdfs前言如果一个表中数据很多,我们查询时就很慢,耗费大量时间,如果要查询其中部分数据该怎么办呢,这时我们引入分区的概念。分区可以根据PARTITIONED BY创建分区表,一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。分区是以字段的形式在表结构...原创 2020-04-16 16:15:05 · 962 阅读 · 0 评论 -
CentOS7安装MySql
1.先检查系统是否装有mysqlrpm -qa | grep mysql2.下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm如果报错: -bash: wget: 未找到命令安装wget插件 yum -y install wget3.安装 mysql-community-...原创 2020-03-12 17:21:24 · 315 阅读 · 0 评论 -
安装MySQL报错 : Your password does not satisfy the current policy requirements
之前在虚拟机中安装了CentOS7.4,按mysql 按照步骤完全没问题,今天在给同学解决CentOS7.4中安装了Mysql5.7问题时,走一步一个错。报如下错误:ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)看到后查阅得知这是mysql安装完后给root用户生成了一个默...原创 2020-03-12 22:12:40 · 377 阅读 · 0 评论 -
hive 之 Fetch Task功能描述应用
Fetch Task功能一个简单的查询语句,是指一个没有函数、排序等功能的语句,当开启一个FetchTask功能,就执行一个简单的查询语句不会生成MapRreduce作业,而是直接使用FetchTask,从hdfs文件系统中进行查询输出数据,从而提高效率。3种配置方式1、在hive提示符set hive.fetch.task.conversion=more;2、启动hive时,加入参数 hive --hiveconf hive.fetch.tas.conversion=more3、修原创 2020-05-22 08:43:01 · 306 阅读 · 0 评论 -
[ERROR] Terminal initialization failed; falling back to unsupported 解决方法
1:出现此种错误应该是jar版本包冲突了,启动hive的时候,由于hive依赖hadoop,启动hive,会将hadoop的配置以及jar包等等导入到hive中,导致jar包版本冲突,下面贴一下错误:Logging initialized using configuration in jar:file:/opt/app/hive/lib/hive-common-1.2.1.jar!/hive-l...原创 2020-02-27 20:15:21 · 1488 阅读 · 1 评论 -
hive配置
一、hive三种模式local模式(内嵌derby)单用户模式(mysql)多用户模式二、local模式元数据信息被存储在Hive自带的Derby数据库中只允许创建一个连接多用于Demo(演示和第一次安装测试)hivelocal模式(Hadoop进程开启)1.上传apache-hive-1.2.1-bin.tar.gz解压(就按我的目录作为例子)tar -zxvf ap...原创 2020-02-28 21:54:44 · 273 阅读 · 0 评论 -
Hive命令行数据库(DDL)和表操作(DML)
介绍Hive命令行的一个基本使用注意:使用命令行时,每次操作语句都要以 ; 结尾###交互命令#查看帮助bin/hive -help# -e 不进入hive提示窗口执行sql语句bin/hive -e "select id from student;"# -f 执行脚本中sql语句bin/hive -f /opt/hivef.sql###hive提示窗口命令#进入提示...原创 2020-03-26 19:38:12 · 492 阅读 · 0 评论 -
Exception in thread "main" java.lang.RuntimeException: java.net.ConnectException错误问题
之前可以打开hive服务,后又出现错误:Logging initialized using configuration in jar:file:/opt/app/hive/lib/hive-common-1.2.1.jar!/hive-log4j.propertiesException in thread "main" java.lang.RuntimeException: java.net....原创 2020-02-28 12:41:51 · 9533 阅读 · 11 评论 -
hive Fetch Task-----笔记
vim tmp.txtMITH CLERK 7902 1980-12-17 800.0 NULL 207499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 307521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 307499 ALLEN SALESMAN 769原创 2020-06-09 17:27:01 · 82 阅读 · 0 评论 -
hive本地模式
1. 安装解压hivetar -zxvf apache-hive-1.2.1-bin.tar.gz2. 删除tarrm -rf apache-hive-1.2.1-bin.tar.gz3. 配置hive环境vim /etc/profileexport HIVE_HOME=/opt/app/hiveexport PATH=$PATH:$HIVE_HOME/bin生效环境...原创 2020-03-15 19:04:53 · 205 阅读 · 0 评论 -
20/03/12 15:50:43 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not exist 警告
但我们在登录hive时会出现警告20/03/12 15:50:43 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not exist解决方法:(在0.10 0.11 之后的HIVE版本 hive.metastore.local 属性不再使用。)在配置文件里面: <property> &...原创 2020-03-12 16:32:14 · 1055 阅读 · 1 评论 -
flume配置
目录1. 下载解压2. 添加环境变量3.修改配置文件4. flume版本5. 测试flume6.telnet1. 下载解压$ sudo tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local/$ sudo mv apache-flume-1.8.0-bin flume2. 添加环境变量vim /etc/profileexport F...原创 2020-04-15 00:21:59 · 231 阅读 · 0 评论 -
Zookeepe常用命令
熟悉Zookeeper命令查看 zkServer.sh 帮助信息 zkServer.sh help启动/关闭 zk服务器 zkServer.sh start zkServer.sh stop查看服务器状态 zkServer.sh statuszkCli:连接zk的命令 zkCli.sh -server localhost:2181[root@hadoop01...原创 2020-03-25 17:09:40 · 256 阅读 · 0 评论 -
部署ZooKeeper
一、引言ZooKeeper简介顾名思义 zookeeper 就是动物园管理员,他是用来管 hadoop(大象)、Hive(蜜蜂)、pig(小 猪)的管理员, Apache Hbase 和 Apache Solr 的分布式集群都用到了 zookeeper;Zookeeper: 是一个分布式的、开源的程序协调服务,是 hadoop 项目下的一个子项目。ZooKeeper一般部署奇数个节点,部署...原创 2020-02-22 16:24:49 · 204 阅读 · 0 评论