![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hbase
闻香识代码
这个作者很懒,什么都没留下…
展开
-
spark streaming 结合kafka 精确消费一次将结果保存到hbase
spark streaming 结合kafka 精确消费一次将结果保存到hbase1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10hadoop 3.2.1hbase 2.2.5 (另外一个明细数据幂等处理,保存到habse)redis 5.0pom<!-- 定义了一些常量 --> <properties> <maven.compiler.s原创 2020-12-06 20:23:44 · 960 阅读 · 0 评论 -
Hive数据导入到HBase
Hive数据导入到HBase1. 背景作为一个数据处理框架,hive本身并不计算和存储数据,计算引擎一般是mapreduce,tez,spark,数据存储则是在hdfs中,元数据一般在mysql中。hive将数据计算处理之后,如果数据结果需要对外提供并且有秒或亚秒级别的访问速度,并且跟hadoop生态有较好的兼容性,则hbase是一个很好的选择。当然实际上只是数据存储,mysql,elasticsearch,clickhouse都可以胜任亚秒级别的数据访问性能。当业务需要,将hive数据导入hba原创 2020-10-27 23:06:25 · 4427 阅读 · 0 评论 -
SpringBoot 搭建HBase 数据服务API接口
SpringBoot 搭建HBase 数据对外服务http API接口1. 背景在大数据开发中,数据分析结果在公司内部从数据查询速度要求来看分为2种,一种是不太在乎速度,在时间期限之前给到即可;一种是查询速度要求较高。应对查询速度较高的,有2种思路。一种是提前计算好,然后存入数据查询较快的数据库中;一种是采用高速计算引擎,当场计算。提前计算好的数据,如果数据规模较小,如亿条数据级别,可以使用如mysql集群应对。当数据再大时,使用Hbase,elasticsearch等就可以纳入技术选型视野。本原创 2020-10-27 20:01:13 · 1327 阅读 · 0 评论 -
HBase 协处理器总结
HBase 协处理器总结1. 协处理器是什么1.1 概述理解为服务端的拦截器,可根据需求确定拦截点,再重写这些拦截点对应的方法协处理器允许在region server上运行自己的代码,更准确地说是允许用户执行 region级的操作,并且可以使用与RDBMS中触发器(trigger)类似的功能协处理器分两种类型,系统协处理器可以全局导入region server上的所有数据表,表协处理器即是用户可以指定一张表使用协处理器。协处理器框架为了更好支持其行为的灵活性,提供了两个不同方面的插件。一个原创 2020-09-01 22:10:44 · 714 阅读 · 0 评论 -
HBase负载均衡总结归纳
HBase负载均衡总结归纳1.负载均衡概述Master的LoadBalancer线程周期性的在各个RegionServer间移动region维护负载均衡1 经常被并发查询的数据不要存储在同一个RegionServer中 , 避免热点读取问题 .2 当一个机器上经过大量的插入或者删除数据以后 ,region合并或者分裂 ,那么机器上的region的数量会相差很大 .3 当新增了节点以后 , 应该去分配一些其他机器上的region数据4 当某个RegionServer宕机以后 , 这台机器上数原创 2020-09-01 20:20:17 · 1063 阅读 · 0 评论 -
HBase Hlog原理总结归纳
HBase Hlog原理总结归纳1. Hlog概述按照此前另外一篇博客所述,Hlog其实就是为了保存内存缓存数据现场而建立的一套机制Hbase内部机制Hlog也叫做WAL文件,全名是write ahead log。故名思意,就是在数据写入到memory store之前,先把信息写入到这个wal日志文件中。2. Hlog简介Write Ahead Log (WAL)提供了一种高并发、持久化的日志保存与回放机制.这一点和hdfs的checkpoint机制很类似,都是通过追加形式的磁盘日志文件来原创 2020-09-01 18:06:56 · 5497 阅读 · 0 评论 -
HBase StoreFile原理总结
HBase StoreFile原理总结1. StoreFile是什么在hbase架构设计中,本身hbase基于hdfs进行数据存储。同时为了提升效率,数据会有一个memstore、block cache来做数据缓存,使用wal日志文件来防止内存数据丢失。但最终都会落地到磁盘中,这个磁盘文件就是store file。具体架构可以看我另一篇博客HBase架构原理一个region中会有多个store,按照此前查看hdfs中信息可知,一个列族一个store文件夹,一个列族中会有1到多个HFile(store原创 2020-09-01 17:20:52 · 4776 阅读 · 1 评论 -
HBase Region原理总结归纳
HBase Region原理总结1. 环境准备基于Hadoop 3.2.1基于zookeeper 3.4.6基于Hbase 2.2.5资料来源:官网http://hbase.apache.org/2.2/book.html网络博客、视频等资料2.HBase数据存储概述2.1 hbase概述HBase是基于hdfs的一个数据库,也就是本身Hbase的数据存储在hdfs中。默认的,文件会分布式存储在hdfs节点中,并且按照128MB一块进行切分,并且会保存3份hdfs中数据不适合原创 2020-09-01 15:46:24 · 2766 阅读 · 0 评论 -
HBase数据大批量导入方式总结和对比
HBase数据导入1. 背景在实际生产中,海量数据一般都不是直接存储在HBase中,这时候就需要一个数据导入到HBase的步骤上一篇博客讲述了可以通过java api的方式或者shell 客户端方式导入或者创建数据,但这对于实际生产中海量数据导入来说,速度和效率都太慢了,所以我们需要使用其他方式来解决海量输入导入到HBase的问题利用HBase底层文件是HFile形式存储再HDFS中,所以如果能够直接生成HFile的话,这时候再让HBase从HFile中读取数据,就会快很多。2. 批量数据导入原创 2020-08-30 23:07:11 · 3582 阅读 · 1 评论 -
HBase Java api入门代码案例(put、delete、scan、get)
HBase Java api入门代码案例1.背景在HBase的访问方式中,主要划分2种方式,一种是shell命令行,一种就是java api方式。这一点跟很多服务器端框架一样,都是会提供一个命令行客户端和api接口操作shell命令行指令,可以看我的另一篇博文HBase shell2.环境准备Idea2020版本Maven环境3.6.3 Maven安装JDK1.8 JDK安装HBase 2.2.5maven项目的pom文件<properties> &原创 2020-08-29 20:20:04 · 1154 阅读 · 0 评论 -
HBase shell命令知识总结(二)
HBase shell命令知识总结(二)3.5 工具命令 tools3.5.1 assign,这里需要注意,如已经分配好区,就会强制覆盖处理assign[əˈsaɪn]v. 指派(任务); 给予;3.5.2 balance_switch,负载均衡相关,hbase是一个分布式数据库,数据处理和请求需要分配到不同节点服务器上处理3.5.3 balancer,3.5.4 balancer_enabled,3.5.5 catalogjanitor_enabled,3.5.6原创 2020-08-29 20:02:22 · 894 阅读 · 1 评论 -
HBase shell命令知识总结(三)
HBase shell命令知识总结(三)3.7 数据快照命令 snapshots注意,在很多场景下, 为了可以快速恢复现场和数据,都会有快照功能,大的如操作系统,小的如软件的快照功能3.7.1 clone_snapshot,3.7.2 delete_all_snapshot,3.7.3 delete_snapshot,3.7.4 delete_table_snapshots,3.7.5 list_snapshots,3.7.6 list_table_snapshots,3.7.原创 2020-08-29 17:54:19 · 777 阅读 · 0 评论 -
HBase shell命令知识总结(一)
HBase shell命令知识总结1. HBase访问方式shell命令行客户端java api本文主要总结关于shell命令行的知识点不知道如何安装Hbase的可以看我另外一篇博文 HBase安装PS:可以横向对比,很多框架特别是运行在服务器端的,都会提供至少2种客户端,命令行客户端和代码api,部分如mysql还会有图形化客户端。针对数据库框架的操作,主要就是查看、DML、DDL、如果比较强大还会有权限、数据备份等操作功能。2. HBase的Shell概览开启客户端PS:原创 2020-08-29 16:37:35 · 1338 阅读 · 0 评论 -
HBase 总结之基本结构和内部流程机制
HBase总结之基本概念背景介绍由于互联网发展,由于人和设备运行产生的数据急剧爆发,所需要处理的数据超过传统技术所能处理的极限。所以面对海量数据存储和处理的大数据技术应运而生大数据技术主要处理2个问题,数据存储和数据的处理和分析大数据所需要处理的数据主要分3类,结构化数据、非结构数据、半结构化数据。结构化数据就是存储在各个数据库中的结构化数据典型如mysql中存储的数据;非结构数据如小说文本、图片、视频、音频、ppt、word文档等等;半结构化数据如日志文件HBase就是可以存储海量数据,并且支原创 2020-08-28 21:43:07 · 960 阅读 · 1 评论 -
HBase 2.2.5 安装教程(基于centos7.x)
HBase 安装教程(基于centos7.x)1.版本选择官网地址HBase目前选择相对新版本的2.2.5版本,2020年5月份。在企业开发中,由于整个技术架构中包含各种框架,框架和框架之间往往会有版本依赖问题。所以虽然每个框架的版本都会解决一些历史bug和增强性能或者添加新功能,但企业做版本选择时往往会选择相对稳定和兼容性更佳的版本而不是最新的版本。2. 环境准备linux集群(这里windows10系统上,使用vmware15.x基于centos7.x的linux操作系统版本虚拟出原创 2020-08-27 23:08:25 · 2002 阅读 · 0 评论 -
磁盘读写机制及其在软件框架中的应用
磁盘读写机制以及应用1. 计算机硬件组成现行计算机结构都是遵循冯诺依曼结构,控制器、计算器、存储器、输入设备、输出设备体现在现实中,主要部件有CPU、内存、硬盘、显卡、主板、电源PS:在其他计算机架构中,不一定遵循冯诺依曼的结构,如量子计算机、生物计算机等等。2.数据存储层级在整个计算机结构中,因为结构原因,数据需要兼顾传输速度和存储容量。而现行结构中,就采用多层存储结构来实现技术和成本的均衡结果。这是多层级计算机数据缓存简图机械硬盘和固态硬盘图示机械硬盘sata接口固态原创 2020-08-27 21:15:59 · 290 阅读 · 0 评论