自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 问答 (1)
  • 收藏
  • 关注

原创 Impala基础知识点--笔记

Impala用于交互实时查询,最⼤大特点就是快速,Impala中文翻译是高角羚羊。Impala使用MPP技术,MPP是将任务并行的分散到多个服务器器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。Impala没有容错,由于良好的查询性能,Impala遇到错误会重新执行一次查询Impala的缺点: 1. Impala属于MPP架构,只能做到百节点级,一般并发查询个数达到20左右时,整个系统的吞吐已经达到满负荷状态,在扩容节点也提升不不了了吞吐量量,处理理数据量量在PB级

2020-08-02 22:08:04 772

原创 HBase基础知识点

HBase列存储的优点:1)减少存储空间占用。2)⽀支持好多列HBase的特点: 海量存储(基于HDFS);列式存储;支持高并发;易扩展;稀疏;数据多版本;数据类型单一(全部用字节数组来存储)列存储的优点:1)减少存储空间占用。2)⽀支持好多列HBase的特点: 海量存储(基于HDFS);列式存储;支持高并发;易扩展;稀疏;数据多版本;数据类型单一(全部用字节数组来存储)HBase数据逻辑结构HBase整体架构:HBase shell操作: put; get;

2020-08-02 22:02:59 419

原创 Zookeeper基础知识点

Zookeeper: zookeeper是一个分布式的小文件管理存储系统; zookeeper可以提供客户端监控存储在zk内部数据的功能zookeeper架构:zookeeper特点:zookeeper数据结构与监听机制znode的类型在zookeeper中,事务表示能给改变zookeeper服务器状态的操作(create,update data,更新子节点),也称事务操作或更新操作。zookeeper监听器:客户端可以对一个不存在的节点进行子节点变更的监听。一旦客户端对一个节点

2020-08-02 21:57:55 255

转载 hive中DML,DDL,DCL的区别

一、DMLDML(data manipulation language)数据操纵语言:    就是我们最经常用到的 SELECT、UPDATE、INSERT、DELETE。 主要用来对数据库的数据进行一些操作。二、DDLDDL(data definition language)数据库定义语言:    其实就是我们在创建表的时候用到的一些sql,比如说:CREATE、ALTER、DROP等...

2020-08-02 21:53:35 372

原创 Flume面试题

1 你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。2 Flume的Source,Sink,Channel的作用?你们Source是什么类型?1、作用(1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence gen...

2020-03-08 14:36:30 91

原创 Kafka相关面试题

1.Kafka中的ISR、AR又代表什么?ISR:与leader保持同步的follower集合AR:分区的所有副本2.Kafka中的HW、LEO等分别代表什么?LEO:没个副本的最后条消息的offsetHW:一个分区中所有副本最小的offset3.Kafka中是怎么体现消息顺序性的?每个分区内,每条消息都有一个offset,故只能保证分区内有序。4.Kafka中的分区器、序列化器、...

2020-03-01 15:37:55 141

原创 算法之空间复杂度

1.Java中常见内存占用1.1基本数据类型占用内存情况计算机访问内存的方式为一次一个字节(8位)1.2一个引用(机器地址)需要8个字节表示:例如: Date date = new Date(),则date这个变量需要占用8个字节来表示1.3创建一个对象,比如new Date(),除了Date对象内部存储的数据(例如年月日等信息)占用的内存,该对象本身也有内存开销,每个对象的自身开销是...

2020-02-15 18:02:16 384

原创 算法之时间复杂度

分析一个算法的运行时间,最重要的就是把核心操作的次数和输入规模关联起来,即找出核心操作与数据输入规模之间的关系,如下图所示。比较算法随着输入规模的增长量时,可以有以下规则:1.算法函数中的常数可以忽略;2.算法函数中最高次幂的常数因子可以忽略;3.算法函数中最高次幂越小,算法效率越高。大O记发:语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随着n的变化情况并确定T...

2020-02-15 17:30:21 412

原创 SQL练习题

userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8U02 2017/1/23 6U01 2017/2/22 4要求使用SQL统计出每个用户的累积访问次数,如下...

2020-02-07 12:45:12 137

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除