2019年12月_kismetG

12月 11月 10月

原创 HBase -- javaAPI 基础篇（创建hbase表，添加数据，查询）

pom文件配置：<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> ...

2019-12-20 11:35:10 2237 1

原创 HBase -- 三个重要机制，预分区，HBase的rowKey设计技巧

HBase三个重要机制1、flush机制1.（hbase.regionserver.global.memstore.size）默认;堆大小的40%regionServer的全局memstore的大小，超过该大小会触发flush到磁盘的操作,默认是堆大小的40%,而且regionserver级别的flush会阻塞客户端读写2.（hbase.hregion.memstore.flush...

2019-12-17 09:48:31 2468

原创 HBase --- 底层原理（系统架构，表数据模型，物理存储，读写过程，Region管理，Master工作机制）

hbase系统架构Client1 包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如regione的位置信息。Zookeeper1 保证任何时候，集群中只有一个master2 存贮所有Region的寻址入口3 实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master4 存储Hb...

2019-12-17 09:39:11 1985

转载 HBase – Memstore Flush、StoreFile、File解析

转载于https://blog.csdn.net/qq_43733123/article/details/103552467请多多支持原作者！！！Memstore Memstore 概述Memstore是HBase框架中非常重要的组成部分之一，是HBase能够实现高性能随机读写至关重要的一环。深入理解Memstore的工作原理、运行机制以及相关配置，对hbase集群管...

2019-12-16 14:27:15 1352

原创 HBase --shell命令

HBase常用shell操作名称命令表达式查看存在哪些表 list 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' ...

2019-12-12 20:13:00 2842 1

原创 HBase --初识

HBase基本介绍 hbase是bigtable的开源java版本。建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql（不支持SQL）的数据库系统。、主要用来存储结构化和半结构化的松散数据。hdfs：什么都能存MR：不能做快速返回最初的大数据，只有hdfs+MR，众多企业数据依旧是机构化数据（存储数据库内），大数据内没有提供快速查询的...

2019-12-12 14:50:51 1500 1

原创 HBase --集群环境搭建

注意事项：HBase强依赖zookeeper和hadoop，安装HBase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行下载对应的HBase的安装包：所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.co...

2019-12-11 08:51:29 1601

原创 ZooKeeper的初识（Zookeeper基本知识，ZooKeeper shell，ZooKeeper数据模型，ZooKeeper Watcher 监听机制，ZooKeeper选举机制）

Zookeeper基本知识 Zookeeper集群搭建 Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台servers组成。这是因为为了保证Leader选举（基于Paxos算法的实现）能过得到多数的支持，所以ZooKeeper集群的数量一般为奇数。Zookeeper运行需要java环境，所以需要提前安装jdk。对于安装leade...

2019-12-10 19:48:39 1990 1

原创 zookeeper --java API基本操作

org.apache.zookeeper.ZookeeperZookeeper 是在Java中客户端主类，负责建立与zookeeper集群的会话，并提供方法进行操作。org.apache.zookeeper.WatcherWatcher接口表示一个标准的事件处理器，其定义了事件通知相关的逻辑，包含KeeperState和EventType两个枚举类，分别代表了通知状态和事件类型，同时定...

2019-12-10 17:25:20 1646 1

原创 zookeeper的下载安装

安装zookeeper的注意事项：安装前需要安装好jdk 检测集群时间是否同步检测防火墙是否关闭检测主机 ip映射有没有配置下载安装包、解压下载地址：CDH版本：http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.14.0.tar.gzapache版本：https://arc...

2019-12-10 15:50:30 1737

原创 Azkaban工作流调度

一.工作流程1．工作流产生背景工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。工作流解决的主要问题是：为了实现某个业务目标，利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的：数据采集、数据预处理、数据分析、数据展示等。各个模块单元之间存在时间先后依赖关系，且存在着周期性重...

2019-12-09 22:30:13 1878

原创 Flume

什么是Flume 一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统 Flume内部组成 1、 Source ：与数据源对接，用于采集、收集数据 2、Channel : 用于数据传输（在flflumeAgent内部） 3、Sink : 用户数据的发送或数据下沉（在flflumeAgent内部）F...

2019-12-06 11:09:26 1525 2

原创 Hive --调优

Fetch抓取（Hive可以避免进行MapReduce） Hive中对某些情况的查询可以不必使用MapReduce计算。例如在查询表所有数据上，Hive可以简单地读取表对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive...

2019-12-05 10:58:30 4759 2

原创 Sqoop --错题 java.io.IOException: Hive exited with status 88

错误：遇到运行导入作业:java.io的IOException。状态88退出蜂巢其实原因很简单！！！你没有在hive中创建对应的数据库！！！再次尝试导入到hive：数据导入成功！！！...

2019-12-05 08:59:51 2641 2

原创 Hive --数据压缩

hive的数据压缩在实际工作当中，hive当中处理的数据，一般都需要经过压缩，节省我们的MR处理的网络带宽mr支持的压缩编码压缩格式工具算法文件扩展名是否可切分 DEFAULT 无 DEFAULT ...

2019-12-03 20:39:12 1696

原创 Hive --自定义函数

hive的自定义函数1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。3）根据用户自定义函数类别分为以下三种：（1）UDF（User-Defined-Function） ...

2019-12-03 15:03:51 1402

原创 HIVE --管理表（表分隔符，外部表，分区表，分桶表，hive载入数据，导出数据）

1.管理表--建表关键字 1.创建表并指定字段之间的分隔符 row format delimited fields terminated by '\t'create table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t'...

2019-12-02 11:43:27 2094

原创 Sqoop --增量导入，更新导出（updateonly模式），（allowinsert模式）

1.增量导入在实际工作当中，数据的导入，很多时候都是只需要导入增量数据即可，并不需要将表中的数据每次都全部导入到hive或者hdfs当中去，这样会造成数据重复的问题。因此一般都是选用一些字段进行增量的导入， sqoop支持增量的导入数据。增量导入是仅导入新添加的表中的行的技术。--check-column (col)用来指定一些列，这些列在增...

2019-12-02 11:12:54 7675 1

原创 Sqoop --导入导出数据

1.导入导出数据区分导入：关系型数据库到hdfs上导出：hdfs到关系型数据库导入导出与参数位置没关系！！！2.sqoop用法手册：http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html3.导入数据 3 .1导入全部数据到hdfsbin/sqoop import \ ...

2019-12-01 18:55:03 1862 3

原创 Sqoop --基础介绍与安装

1.sqoop是什么sqoop是一个导入导出的工具，实现关系型数据库导入到hdfs中，同样的也可以导出。2.sqoop官网（http://sqoop.apache.org/）sendOS6.8-->1.4.6sendOS7 -->1.4.73.sqoop的两个版本最新的稳定版本是sqoop1：1.4.7）。Sqoop2的最新版本为1.99....

2019-12-01 16:40:40 2155

java POI 通过MultipartFile删除Excel文件解析写入数据库

java POI 通过MultipartFileExcel文件解析写入数据库

2020-09-02

kylin资源包（hbase安装，kylin安装，安装测试题）

为个人方便后期巩固安装配置kylin，其中包括相对应的habse安装包，安装步骤，kylin安装的测试题

2020-05-13

kylin.rar为kylin.properties的配置

修改资料配置文件\kylin.properties 中HDFS的路径，然后上传到 Linux的 Kylin/conf文件夹中

2020-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人