hbase
文章平均质量分 59
hbase
宝哥大数据
大数据、机器学习、深度学习
展开
-
python操作hbase增删改
python 操作hbase原创 2022-05-23 08:37:39 · 956 阅读 · 0 评论 -
Spark跨集群写入Hbase
Spark在集群AHbase在集群B参考: https://www.jianshu.com/p/fe1b26f424d3原创 2021-05-15 10:27:31 · 467 阅读 · 0 评论 -
hbase的ValueFilter对列值(Double)过滤
1.1、插入测试数据插入两条Double类型数据 def put(): Unit = { val hbaseConf = HBaseConfiguration.create() val hbaseConn = ConnectionFactory.createConnection(hbaseConf) val table = hbaseConn.getTable(TableName.valueOf("test")) val put = new Put(Bytes.原创 2021-05-11 21:49:32 · 593 阅读 · 0 评论 -
业务数据调研及ETL
文章目录一、系统介绍二、电商数据2.1、MySQL数据库2.2、Hive 数据仓库2.2.1、创建表2.2.1.1、用户信息表: tbl_users2.2.1.2、订单数据表: tbl_orders2.2.1.3、商品表: tbl_goods2.2.1.4、行为日志表: tbl_logs2.2.2、导入数据至Hive表2.2.2.1、用户信息表: tbl_users一、系统介绍整个用户画像(UserProfile)项目中,数据、业务及技术流程图如下所示:其中数据源存储在业务系统数据库:MySQL 数原创 2021-04-26 22:42:58 · 1135 阅读 · 5 评论 -
维表关联代码实现
1.4、维表关联代码实现维度关联实际上就是在流中查询存储在 hbase 中的数据表。但是即使通过主键的方式查询,hbase 速度的查询也是不及流之间的 join。外部数据源的查询常常是流式计算的性能瓶颈,所以咱们再这个基础上还有进行一定的优化。1.4.1、先实现基本的维度查询功能封装 Phoenix 查询的工具类 PhoenixUtil封装查询维度的工具类 DimUtil(直接查询 Phoenix)...原创 2021-03-22 21:28:14 · 480 阅读 · 0 评论 -
phoenix到底是如何查询的
一、Scan 原理 scanAPI原理: 最常见的scan用法,见官方API文档。scan的原理之前在多篇文章中都有提及,为了表述方便,有必要在此简单概述一番。HBase中scan并不像大家想象的一样直接发送一个命令过去,服务器就将满足扫描条件的所有数据一次性返回给客户端。而实际上它的工作原理如下图所示:1.1、源码系列Scan 客户端Scan 服务端二、协处理器三、phoeni...原创 2018-12-08 14:49:38 · 2329 阅读 · 0 评论 -
rowkey
rowkey原创 2018-06-02 10:03:53 · 4625 阅读 · 0 评论 -
hbase Filter
一、首先介绍几个知识点1.1、 过滤器是作用于Scan or Get, 通过设置Filter,对查询进行优化Get and Scan instances can be optionally configured with filters which are applied on the RegionServer.Filters can be confusing because ther...原创 2018-05-31 23:34:14 · 665 阅读 · 0 评论 -
Pre-Creating Regions
前言:默认情况下, HBase创建表时候会自动创建一个region,当插入数据的时候, 数据到会写到这一个region, 直到这个region足够大了才进行切分(split)。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。...原创 2018-05-31 09:30:17 · 375 阅读 · 0 评论 -
Hbase BulkLoad
在使用bulkload加载hfile时候总是报错hbase在hfile目录没有写权限,导致操作失败。Caused by: org.apache.hadoop.security.AccessControlException: Permission denied: user=hbase, access=WRITE, inode="/apps/hbase/data/data/hbaseCach...原创 2018-05-30 00:23:28 · 680 阅读 · 0 评论 -
hbase目录导图
一、介绍 1.1、hbase简介hbase数据模型hbase体系架构1.2、基本命令原创 2018-06-20 13:44:18 · 1021 阅读 · 1 评论 -
hbase coprocessor
问题create 'test', 'f1'disable 'test'alter 'test', 'coprocessor' => 'hdfs://chb0-179004:8020/apps/hbase/coprocesssor/coprocesssor.jar|com.moon.hadoop.hbase.coprocessor.DemoCoprocessor|1073741825|a...原创 2018-12-09 09:27:52 · 317 阅读 · 0 评论 -
spark入hbase版本问题(未解决)
集群 spark-2.3.2, hbase-2.0.2Exception in thread "main" java.lang.NullPointerException at org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:122) at org.apache.hadoop.hbase.c...原创 2019-03-23 00:45:59 · 1116 阅读 · 1 评论 -
hbase进行分布式split log一直失败,导致region不可用
进行在对hbase的一个表进行统计分析的时候, 平常半个小时报完的程序, 今天跑了一个小时,还是没有完成,1、查看spark任务, 发现大量报错, 但是主要是如下错误# 由于是spark读取hbase数据, 怀疑hbase有问题Cannot receive any reply from null in 120 seconds. This timeout is controlled by...原创 2019-07-03 08:55:01 · 673 阅读 · 0 评论 -
HBase split 源码分析
基于HBase-2.1.51.1、HbaseAdmin 发起split原创 2019-07-19 14:28:47 · 333 阅读 · 0 评论 -
hbase 客户端超时问题
参考:https://blog.csdn.net/bryce123phy/article/details/51504585hbase 客户端超时org.apache.hadoop.hbase.client.ScannerTimeoutException: 97622ms passed since the last invocation, timeout is currently set to...原创 2019-07-23 13:44:10 · 1862 阅读 · 0 评论 -
Hbase散列加分区对写入、读取的影响
Hbase散列加分区对写入、读取的影响原创 2019-09-26 16:18:32 · 230 阅读 · 0 评论 -
HBase应用程序开发02插入数据
插入数据 /** * 插入数据 * @throws IOException */ public static void insert() throws IOException { Table table = conn.getTable(tableName); Put put = new Put(getRowKey("1原创 2017-03-05 17:14:36 · 421 阅读 · 0 评论 -
hbase目录介绍
/hbase/.tmp: 临时目录,当对表做创建和删除操作时,会将表move到该目录下,然后进行操作。 /hbase/WALs:RegionServer在处理数据插入和删除的过程中记录操作内容的一种日志,在0.94叫.logs /hbase/data:核心目录,存储Hbase表的数据 默认情况下该目录下有两个目录Hbase/data/default:当在用户创建表的时候,没有指定...原创 2018-03-06 09:12:35 · 2432 阅读 · 0 评论 -
HBase应用程序开发01创建表
hbase-1.1.3 hadoop-2.5.2 zookeeper-3.4.6在HBase测试的时候出现HBaseConfiguration为null; ClassLoader cc = HBaseConfiguration.class.getClassLoader(); System.out.println(cc);显示cc为null;有网友说是...原创 2017-03-05 14:43:30 · 964 阅读 · 0 评论 -
hbase的snappy的配置
一、hadoop的配置1.1 配置snappy.so原创 2018-03-02 10:15:37 · 413 阅读 · 0 评论 -
hbase学习00--hbase简介
HBase简介HBase – hadoop DataBase, 是一个高可靠性,包含下面两点:数据不可丢:由于Hbase依赖于HDFS, HDFS对数据进行备份,保证数据不会丢。服务不能挂: 由于Zookeeper(分布式协作服务管理), 保证服务的高可靠性。zookeeper实时的对集群状态进行监测, zookeeper内部有自动选leader,一旦leader挂了,将会在其他节点中选取一个原创 2017-02-05 16:32:22 · 652 阅读 · 0 评论 -
HBase应用程序开发04---案例
Hbase与RDBMS的区别在于:HBase的Cell(每条数据记录中的数据项)是具有版本描述的(versioned),行是有序的,列(qualifier)在所属列簇(Column families)存在的情况下,由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题:1、 Hbase中没有joins的概念大表的结构可以使得不需要joins,而解决这一问题。 注意:HBa原创 2017-04-03 22:47:49 · 626 阅读 · 1 评论 -
HBase应用程序开发03查询
hbase查询get ro scan原创 2017-03-05 17:17:09 · 1075 阅读 · 0 评论 -
HBase的Bulk Loading
参考官网http://hbase.apache.org/book.html#arch.bulk.load HBase包括将数据加载到表中的几种方法。 最直接的方法:使用MapReduce作业中的TableOutputFormat类或者使用普通的客户端API; 然而,这些并不总是最有效的方法。批量加载功能使用MapReduce作业以HBase的内部数据格式输出表数据,然后将生成的Store原创 2017-04-07 00:35:55 · 1076 阅读 · 0 评论 -
HBase学习04-phoenix安装
1、phoenix是什么HBase的一个查询工具 HBase是一个NoSQL数据库, 可存储大量非关系型数据。 hbase的查询方式hbase shelljava apiHBase虽然是一个数据库,但是它的查询语句非常不好用,如果能够像MySQL那样使用sql查询就好了。 现在可用的工具很多Hive,Tez,Impala,Shark/Spark,Phoenix等今天主要介绍phoen原创 2017-02-25 18:34:46 · 837 阅读 · 2 评论 -
HBase学习01--Hbase的安装
HBase学习01–Hbase的安装一、单机模式:1.1 解压软件包tar -zxvf hbase-1.1.3-bin.tar.gz1.2 配置JAVA_HOME环境变量cd /usr/local/hbase-1.1.3/confvi hbase-env.sh 添加JAVA_HOME=/usr/java/jdk1.7.0_79,如下:# The java implementation to原创 2017-02-05 16:33:10 · 634 阅读 · 3 评论 -
HBase应用程序开发00
HBase应用程序开发00原创 2017-01-13 21:14:08 · 1036 阅读 · 1 评论 -
Hbase写数据,存数据,读数据的详细过程
HBase架构Region HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表 示不同的HRegion可以分布在不同的HRegion server上。 HRegion由一个或者多个Store组成,每个store保存一个columns familyHFileStoreFile 以HFile格式保存在HDFS一、写操作 Client写入 -> 存入MemStore, 一直原创 2017-04-04 11:35:47 · 6683 阅读 · 2 评论 -
hbase的调优
一、表的设计1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。下面是一个原创 2017-04-04 17:14:15 · 2290 阅读 · 0 评论 -
hbase常识及habse适合什么场景
当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个严重影响了质量。并且如果面对大数据库,pt级别的数据,这种浪费更是严重的,那么我们该使用是什么数据库?hbase数个不错的选择,那么我们对于hbase还存在下列问题:1.Column Family代表什么? 2.HBase原创 2017-04-04 17:37:38 · 1020 阅读 · 5 评论 -
hive到hbase
hive到hbase原创 2017-12-29 23:55:35 · 1678 阅读 · 1 评论 -
hbase到hive
hbase 到 hive原创 2017-12-29 23:30:01 · 2215 阅读 · 1 评论 -
HBase数据的导入和导出
一、hbase的导入导出原创 2017-12-29 20:42:11 · 1477 阅读 · 1 评论 -
HBase基本命令
HBase基本命令原创 2016-11-21 15:14:49 · 638 阅读 · 1 评论 -
HBASE结合MapReduce批量导入
HBASE结合MapReduce批量导入原创 2017-12-30 20:59:25 · 924 阅读 · 0 评论 -
HBase的Bulk Loading---实战01
从临时入云目录中读取文件 /xx/cloudTmp #临时入云目录 [root@idc07 cloudTmp]# du -sh * //目录形式 4.0K ido_yyyyMMddd_175242 4.0K ido_20170419_175141 2.6G ido_20170420_175151 4.0K ido_20170421_17363...原创 2017-04-20 18:25:09 · 983 阅读 · 1 评论 -
hbase如何确定一条新数据写入到哪个regionserver?
前言面试中别人问hbase相关问题(1)、你的hbase集群如何做到负载均衡(2)、你知道一条新的数据插入集群的哪个结点,(3)、一、一条数据如何插入hbase中原创 2017-04-19 10:22:25 · 2547 阅读 · 1 评论 -
20170405的面试总结
问题一:mapreduce的wordcount的处理流程1. Map端的ShuffleMap函数开始产生输出时,并不是简单地把数据写到磁盘,因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂,数据首先写到内存中的一个缓冲区,并做一些预排序,以提升效率; 每个MapTask都有一个用来写入输出数据的循环内存缓冲区(默认大小为100MB),当缓冲区中的数据量达到一个特定阈值时(默认是80%)系统原创 2017-04-05 22:09:22 · 723 阅读 · 2 评论 -
HBASE简介
HBASE简介原创 2016-12-04 11:38:31 · 455 阅读 · 0 评论