![](https://img-blog.csdnimg.cn/282be78520c4440ca3d14028b41fb0b4.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
HBase
文章平均质量分 81
大数据中HBase框架学习文章汇总
电光闪烁
一个大数据开发工程师的学习之路
展开
-
HBase文章汇总
HBase相关博文汇总:HBase(1):HBase简介HBase(2):HBase安装部署HBase(3):HBase Shell 操作HBase(4):HBase APIHBase(5):HBase进阶HBase(6):HBase优化原创 2022-10-16 23:24:36 · 718 阅读 · 0 评论 -
HBase(8):HBase与Hive的集成
目标: 在 HBase 中已经存储了某一张表 hbase_emp_table,然后在 Hive 中创建一个外部表来关联 HBase 中的 hbase_emp_table 这张表,使之可以借助 Hive 来分析 HBase 这张表中的数据。如果大量的数据已经存放在 HBase 上面,需要对已经存在的数据进行数据分析处理,那么Phoenix 并不适合做特别复杂的 SQL 处理,此时可以使用 hive 映射 HBase 的表格,之后写 HQL 进行分析处理。1) 在 Hive 中创建表同时关联 HBase。原创 2022-11-02 21:56:24 · 233 阅读 · 0 评论 -
HBase(7):HBase整合Phoenix
Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API来创建表,插入数据和查询 HBase 数据。原创 2022-11-02 21:49:24 · 373 阅读 · 0 评论 -
HBase(6):HBase优化
理由是 HBsae 大量使用内存用于存储数据,容易遭遇数据洪峰造成 OOM,同时写缓存的数据是不能垃圾回收的,主要回收的就是读缓存,而读缓存垃圾回收不影响性能,所以最终设置的效果可以总结为:防患于未然,早洗早轻松。一条数据的唯一标识就是 rowkey,那么这条数据存储于哪个分区,取决于 rowkey 处于哪个一个预分区的区间内,设计 rowkey的主要目的 ,就是让数据均匀的分布于所有的 region中,在一定程度上防止数据倾斜。所有必须添加在 rowKey 的最前面,前缀为最简单的数字。原创 2022-10-24 23:50:25 · 750 阅读 · 0 评论 -
HBase(5):HBase进阶
每一个 region 维护着 startRow 与 endRowKey,如果加入的数据符合某个 region 维护的rowKey 范围,则该数据交给这个 region 维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高 HBase 性能。1) 手动设定预分区2) 生成 16 进制序列预分区3) 按照文件中设置的规则预分区-- 创建 splits.txt 文件内容如下:aaaabbbbccccdddd-- 执行4) 使用 JavaAPI 创建预分区。原创 2022-10-24 23:24:19 · 1011 阅读 · 0 评论 -
HBase(4):HBase API
根据官方 API 介绍, HBase 的客户端连接由 ConnectionFactory 类来创建,用户使用完成之后需要手动关闭连接。同时连接是一个重量级的,推荐一个进程使用一个连接,对 HBase的命令通过连接中的两个属性 Admin 和 Table 来实现。在resources 文件夹中创建配置文件 hbase-site.xml,添加以下内容。注意:会报错 javax.el 包不存在,是一个测试用的依赖,不影响使用。使用类单例模式,确保使用一个连接,可以同时用于多个线程。创建类 HBaseDML。原创 2022-10-24 00:35:19 · 341 阅读 · 0 评论 -
HBase(3):HBase Shell 操作
scan 是扫描数据,能够读取多行数据,不建议扫描过多的数据,推荐使用 startRow 和 stopRow 来控制读取的数据,默认范围左闭右开。info 列族数据维护的版本数为 5 个,如果不写默认版本数为 1。delete 表示删除一个版本的数据,即为 1 个 cell,不填写版本默认删除最新的一个版本。表名创建时写的所有和列族相关的信息,都可以后续通过 alter 修改,包括增加删除列族。get 最大范围是一行数据,也可以进行列的过滤,读取数据的结果为多行 cell。原创 2022-10-16 23:44:22 · 398 阅读 · 0 评论 -
HBase(2):HBase安装部署
在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。4) 解决 HBase 和 Hadoop 的 log4j 兼容性问题,修改 HBase 的 jar 包,使用 Hadoop 的 jar 包。1) hbase-env.sh 修改内容(可以添加到文件最后面)1) 关闭 HBase 集群(如果没有开启则跳过此步)原创 2022-10-16 23:23:18 · 531 阅读 · 0 评论 -
HBase(1):HBase简介
Apache HBase™ 是以 hdfs 为数据存储的,一种分布式、可扩展的 NoSQL 数据库。原创 2022-10-16 23:23:34 · 207 阅读 · 0 评论