自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 phoenix 01 (概述,安装,连接方式,增删改查,schema操作,映射)

phoenix是什么?phoenix目前是apache旗下的一款开源工具phoenix是构建在hbase层之上的一个sql层,使用标准的sql语言对hbase进行操作sql会被翻译成hbase的API,比如扫描对象Scan,过滤器Filter等phoenix适合做OLAP的工作(不适合做OLTP)为什么要学?(特点)phoenix虽然是构建在hbase层之上,但是由于以下特点,不会影响查询性能,反而会提高性能编译SQL查询为原生HBase的scan语句检测scan语句最佳的开始和结束的

2020-10-22 18:39:37 1252

原创 Hbase 02 (hbase的API,过滤器,比较器,存储机制,寻址流程,读写流程,布隆过滤器,与hive的整合)

文章目录hbase的API提取的工具类namespace 的DDLtable的DDLtable的CRUD过滤器单列过滤器SingleColumnValueFilter结构过滤器FilterListKeyValue元数据过滤器1、FamilyFilter2、**QualifierFilter**3、**ColumnPrefixFilter**4、**MultipleColumnPrefixFilter**5、**ColumnRangeFilter**RowKey过滤器**RowFilter**Utility过

2020-10-21 21:16:22 965

原创 hbase 01(概述,体系结构,安装)

hbase是什么?1、hbase是apache旗下的一款开源的,基于hdfs的,分布式的,面向列式存储的非关系型数据库2、基于内存的,可以近似实时读写3、基于hdfs,高可靠性,高扩展性4、可以存储数十亿行*数百万列的大数据集5、起源于google的《BigTable》6、java语言编写的hbase的作用1、主要是用来存储非结构化的大数据集2、基于内存,可以实现近似实时的读写3、基于hdfs,高可靠性,高扩展性hbase的特点1、分布式的面向列式存储的非关系型数据库2、hbase

2020-10-20 08:28:20 455 1

原创 hive场景练习题

1、以下数据的每一列分别表示:sid name gender age academy dt chinese math english 95001 李勇 男 20 CS 2017-08-31 56 28 6295002 刘晨 女 19 IS 2017-08-31 84 22 3895003 王敏 女 22 MA 2017-08-31 38 80 8295004 张立 男 19 IS 2017-08-31 39 65 495005 刘刚 男 18 MA 2018-08-31

2020-10-16 21:03:15 250 2

原创 hive的Serde2020-10-15

文章目录Hive的SerDe1 hql读取/动态加载数据的解析2 常用的SerDe类型3.2.1 LazySimpleSerde2.2 CSVSerDe2.3 JsonSerde2.4 RegexSerDeHive的SerDe1 hql读取/动态加载数据的解析--建表语句:create table t2(id int,name string)row format delimitedfields terminated by '\t';--第一个类型:实际上delimited 对应一个

2020-10-15 20:46:12 276

原创 hive的函数

第八章 Hive函数在Hive中,函数主要分两大类型,一种是内置函数,一种是用户自定义函数。8.1 Hive内置函数8.1.1 函数查看show functions;desc function functionName;8.1.2 日期函数1)当前系统时间函数:current_date()、current_timestamp()、unix_timestamp()-- 函数1:current_date(); 当前系统日期 格式:"yyyy-MM-dd"-- 函数2:current_

2020-10-14 21:54:17 487

原创 hive之分区分桶

第九章 分区表的相关内容9.1 分区简介9.1.1 为什么分区Hive的Select查询时,一般会扫描整个表内容。随着系统运行的时间越来越长,表的数据量越来越大,而hive查询做全表扫描,会消耗很多时间,降低效率。而时候,我们需求的数据只需要扫描表中的一部分数据即可。这样,hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询效率。9.1.2 如何分区根据业务需

2020-10-14 21:38:32 710

原创 Hive 之复杂数据类型,以及内置函数的应用

复杂数据类型array-- array 类型-- 创表语法 --不指定数组内部分隔符create table if not exists array1(name string,scores array<string>)row format delimited fields terminated by '\t';load data local inpath '/root/hivedata/array1' into table array1;select * from a

2020-10-13 21:50:53 309

原创 Hive。。

什么是hive?1、hive是一个运行在分布式应用程序上的一个数据仓库管理工具2、hive可以将hdfs上的具有一定结构的文件映射成一张表,,并且提供了类sql的语法来管理和分析这些表(本质就是hdfs上的文件)3、用于描述文件和表的映射关系的数据叫做元数据,存储在关系型数据库中(mysql,oracle等)4、默认情况下执行引擎为mapreduce(还有spark等)hive是干什么的?1、hive是一个运行在分布式应用程序上的一个数据仓库管理工具2、hive可以将hdfs上的具有一定结构的

2020-10-09 19:48:17 445 1

原创 MySql练习题

第一套题目建表语句和数据CREATE TABLE Student(Sno CHAR(3) PRIMARY KEY COMMENT "学号(主码)",Sname CHAR(8) NOT NULL COMMENT "学生姓名",Ssex CHAR(2) COMMENT"学生性别",Sbirthday DATETIME COMMENT "学生出生年月",Class CHAR(5) COMMENT"学生所在班级")CREATE TABLE Course(Cno CHAR(5) PRIMAR

2020-10-08 16:07:54 175

原创 mapreduce

什么是mapreduce1、是apacheHadoop项目的一个核心模块2、是对google提出来的分布式并行编程模型《MapReduce》论文的java开源实现3、mapreduce是运行在hdfs上的一个分布式运算程序的编程框架,用于大数据集的并行运算为什么会有mapreduce1、在单机上处理海量数据,硬件资源有限,无法完成2、而将单机程序扩展到集群中分布式运行,将极大增加程序的复杂度和开发难度3、引入mapreduce框架后,开发人员可以将分布式计算的负杂性交由框架来处理mapred

2020-10-07 17:42:52 1577

原创 zookeeper

zookeeper是什么?1、是apache的一个开源框架2、是分布式应用程序的 协调服务框架,是hdfs和hbase的重要组成部分3、本身就是一个分布式应用框架4、拥有类unix的文件系统的树状图的数据存储模型5、提供了监听和通知的功能6、提供了一组机器指令,提供了java和C语言接口zookeeper的特点1、是一个分布式集群框架,一个leader多个follower2、半数以上存活就可以正常工作,所以一般适合安装在奇数台机器上3、会把请求按照提交的先后顺序执行4、数据一致性,所有

2020-10-05 11:05:28 225

原创 hdfs;;

hdfs是什么?干什么的?hdfs是hadoop框架的一个核心组件,就是一个分布式文件系统,主要负责存储大数据集。hdfs中块的概念传统文件系统的块的缺点传统文件系统中的块 没有规定块的大小是统一的,因此有以下缺点– 1. 负载不均衡: 每台机器上存储的文件大小非常不均匀,有的机器只存储很小的文件,有的机器存储很大的文件。– 2. 网络瓶颈问题: 网络带宽本来就稀缺,用户在使用时,集中到某几台机器上读取文件,因此本来就已经很稀缺的网络带宽有被稀释了。hdfs的块的特点– hdfs的块大小统一

2020-10-04 11:28:04 293

原创 hadoop

hadoop是什么?1、hadoop是apache旗下的一款项目2、解决了大数据集的存储和计算分析3、使用java编写的,所以可以跨平台4、开源的5、运行在廉价的机器上,机器宕机是常态 ,容错度高6、利用集群的cpu并发计算,性能好hadoop的核心模块1、command:hadoop框架的通用模块2、hdfs:hadoop的分布式存储文件系统,用于存储大数据集3、mapreduce:hadoop的分布式计算分析框架,提供了移动计算而非移动数据的思想,并发计算,性能好...

2020-10-04 10:06:41 108

原创 linux的定时器

Linux定时器详解今天在看linux的定时任务,了解了一下crontab命令,下面我们来一起学习一下。首先要知道 crontab 文件的格式:{minute} {hour} {day-of-month} {month} {day-of-week} {full-path-to-shell-script}o minute: 区间为 0 – 59o hour: 区间为0 – 23o day-of-month: 区间为0 – 31o month: 区间为1 – 12. 1 是1月. 12是12月.

2020-09-22 11:30:15 1204

原创 azkaban_note

一 azkaban的简介1.1 调度系统背景1. 一个完整的大数据分析系统通常都是由大量任务单元组成:shell脚本程序,mapreduce程序、hive脚本、spark程序等。2. 各任务单元之间存在时间先后及前后依赖关系:先后关系、依赖关系、定时执行。3. 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。任务流程图:azkaban的作用其实就是将我们搭建数据的流程串联起来,并设置自动定时运行。官网:https://azkaban.github.io/Azkab

2020-09-19 16:52:24 288

原创 grafana

八、grafana的应用Grafana 是一个开源的可视化平台,支持多种数据源,方便易用。更多的不再赘述,用起来就明白了。 以下是官网对Grafana的定义。官网地址:https://grafana.com/Grafana is the open source analytics and monitoring solution for every database8.1 grafana的安装--1. 下载wget http://doc.yihongyeyan.com/qf/project/sof

2020-09-19 16:45:30 1725

原创 promethes的安装以及搭配supervisor

七、Prometheus的应用前文已经说过我们整体的监控系统采用 Prometheus + Grafana 的方案。这也是当前企业中普遍采用的监控方案,这里我们以Nginx的请求和Flume Argent实时监控为例,来讲解监控方案的实施。7.1 prometheus的简介supervisor是python的一个进程管理工具,可以管理多个进程的状态,断线自动重启,supervisor启动则程序也跟着自动启动等,并有一个简单的可视化web界面,可以对多个进程进行统一管理,本人也是在研究ELK的时候,首次

2020-09-19 10:46:07 478

原创 hbase_note

day01一、大纲形式##一、Linux 1. 操作系统 2. 开源 3. 免费 4. 多用户 5. 多进程 6. 多线程 7. 性能稳定 8. 安全(权限的管理)##二、Hadoop的核心模块之一HDFS 解决了大数据集如何存储的问题##三、Hadoop的核心模块之一Mapreduce 解决了分布式系统上的大数据集如何快速,高效的分析与计算的问题,是一个运行在hdfs上的并发的计算与分析框架##四、Hadoop的核心模块之一yarn 是一个资源(内存,cpu,磁盘)管理框架

2020-09-03 19:17:27 387

原创 Hive的概念,表结构,特点,作用以及安装(hadoop的一个复习)

一、大纲形式##一、Linux 1. 操作系统 2. 开源 3. 免费 4. 多用户 5. 多进程 6. 多线程 7. 性能稳定 8. 安全(权限的管理)##二、Hadoop的核心模块之一HDFS 解决了大数据集如何存储的问题##三、Hadoop的核心模块之一Mapreduce 解决了分布式系统上的大数据集如何快速,高效的分析与计算的问题,是一个运行在hdfs上的并发的计算与分析框架##四、Hadoop的核心模块之一yarn 是一个资源(内存,cpu,磁盘)管理框架##五、Z

2020-09-01 08:30:53 339

原创 hive语法

hive的执行模式1、 客户端(也就是黑窗口)2、 hive -e ‘hql’3、 hive -f sql.hql(指定一个脚本执行)hive -S -f sql.hql 没有提示信息 (静默模式)hive-help (linux下的命令,查看hive的帮助文档)-- linux下的命令,查看hive的使用帮助hive -helpusage: hive -d,--define <key=value> Variable s...

2020-08-26 17:43:27 371

原创 Zookeeper

Zookeeper什么是Zookeeper是一个分布式协调服务,就是为用户的分布式程序提供协调服务。本身也是一个分布式程序(只要节点半数以上存活,zookeeper就可以对外提供服务)是为别的分布式程序服务的作用核心功能:1、管理用户程序提交的数据(数据一般多为状态信息)2、为用户程序提供数据节点的监听服务应用场景:1、主从协调2、服务器的动态上下线3、统一的配置管理4、统一的名称服务网站系统动态上下线爬虫系统动态上下线分布式共享锁:特点1、zookeeper集群

2020-08-24 19:32:54 268

原创 Mapreduce

Mapreduce是什么?有什么优点?为什么要学?优点

2020-08-18 17:41:27 233

原创 hdfs的读写流程

hdfs写数据流程第一步:客户端向namenode请求上传文件第二步:namenode检查元数据是否有相同的文件第三步:返回客户端是否可以上传第四步:客户端把文件在内存中切分为块,然后向namenode请求第一个块应该上传到哪些datanode上第五步:这时候namenode根据datanode的负载情况返回若干个datanode的服务器(也就是创建块的上传通道)第六步:客户端开始往第一个datanode上传第一个块,而块是以包为单位(),第一个datanode收到一个包就会传给第二

2020-08-17 19:31:13 77

原创 hdfs各个节点的工作机制以及hdfs的总结2020-08-17

hdfs详解hdfs的写流程(补文字)hdfs的读流程各个节点的工作机制namenode的工作机制namenode的职责:1、管理元数据2、响应客户端的IO请求3、管理datanode元数据管理的三种形态1、内存元数据2、fsimage(安全性考虑,定期将元数据存入磁盘)3、操作日志editsnamenode 的启动过程:namenode启动之后:1、加载fsimage()2、加载edits3、保存fisimage4、namenode会直接进入安全模式5、等待d

2020-08-17 16:14:44 597

原创 HDFS完全安装模式集群

HDFS完全安装模式集群完全分布式模式介绍完全分布式,指的是在真实环境下,使用多台机器,共同配合,来构建一个完整的分布式系统。在真实环境中,hdfs中的相关守护进程会分布在不同的机器中。1、namenode守护进程尽可能的单独部署在一台硬件性能相对来说比较好的机器上2、其他的每台机器上都会部署一个datanode守护进程,一般的硬件环境即可3、seconddarynamenode守护进程最好不要 和namenode在同一台机器上完全分布式环境搭建的前提1、全部的机器的防火墙必须是关闭的2、

2020-08-15 10:22:13 250

原创 Maven

编写工具类package com.qfedu.bigdata.HdfsUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.log4j.Logger;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;public c

2020-08-14 17:38:15 69

原创 Hadoop

Hadoop是什么?apache hadoop 是apache 基金会旗下的一套开源的软件平台Hadoop是一套可靠的、可扩展的分布式计算开源软件,Hadoop的软件库是一个框架,他允许使用简单的编程模型来跨计算集群开分布式处理大型数据集hasoop提供的功能利用服务器集群,根据用户自定义的业务逻辑,对海量数据进行分布式处理Hadoop的核心模块Hadoop的COMMON(通用的):支持其他Hadoop模块的通用工具Hadoop的HDFS:Hadoop的分布式文件系统,可提供对应用程序数据的高

2020-08-12 17:44:56 65

原创 shell介绍;shell的运行环境和方式;变量,read命令,测试;条件控制语句;

查看已安装的解析器创建一个文件用来写shell脚本vi hello.shshell脚本的第一行应该写使用哪种解析器来执行写的代码(如果不写,默认为/bin/bash)脚本文件的执行变量局部变量环境变量位置参数变量修改变量的作用域(三种方法)第一种第二种第三种运算符代码例子:expr:(()):let:流程控制函数短路(三元运算符)条件组合Read常用运算符调试脚本...

2020-08-11 22:39:22 83

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除