hdfs
闻香识代码
这个作者很懒,什么都没留下…
展开
-
Flume 拦截器interceptor和选择器selector演示案例
Flume 拦截器和选择器演示案例(interceptor、selector)1. 背景在大数据处理中,要处理的数据分为结构化,半结构化,非结构化数据。其中日志就是半结构化数据当处理日志文件时,一般先使用flume或者其他方式将日志文件采集出来,一般是从日志系统中采集出来,然后存入到hdfs系统中。当使用flume采集日志时,因为这是最原始的数据,很多时候需要对其进行一定的处理,这时候就需要用到拦截器,拦截器可以对数据做预处理。flume的每一条数据使用Event对象包装起来,event分为he原创 2020-10-09 22:49:10 · 627 阅读 · 0 评论 -
HBase 协处理器总结
HBase 协处理器总结1. 协处理器是什么1.1 概述理解为服务端的拦截器,可根据需求确定拦截点,再重写这些拦截点对应的方法协处理器允许在region server上运行自己的代码,更准确地说是允许用户执行 region级的操作,并且可以使用与RDBMS中触发器(trigger)类似的功能协处理器分两种类型,系统协处理器可以全局导入region server上的所有数据表,表协处理器即是用户可以指定一张表使用协处理器。协处理器框架为了更好支持其行为的灵活性,提供了两个不同方面的插件。一个原创 2020-09-01 22:10:44 · 742 阅读 · 0 评论 -
HBase负载均衡总结归纳
HBase负载均衡总结归纳1.负载均衡概述Master的LoadBalancer线程周期性的在各个RegionServer间移动region维护负载均衡1 经常被并发查询的数据不要存储在同一个RegionServer中 , 避免热点读取问题 .2 当一个机器上经过大量的插入或者删除数据以后 ,region合并或者分裂 ,那么机器上的region的数量会相差很大 .3 当新增了节点以后 , 应该去分配一些其他机器上的region数据4 当某个RegionServer宕机以后 , 这台机器上数原创 2020-09-01 20:20:17 · 1101 阅读 · 0 评论 -
HBase Hlog原理总结归纳
HBase Hlog原理总结归纳1. Hlog概述按照此前另外一篇博客所述,Hlog其实就是为了保存内存缓存数据现场而建立的一套机制Hbase内部机制Hlog也叫做WAL文件,全名是write ahead log。故名思意,就是在数据写入到memory store之前,先把信息写入到这个wal日志文件中。2. Hlog简介Write Ahead Log (WAL)提供了一种高并发、持久化的日志保存与回放机制.这一点和hdfs的checkpoint机制很类似,都是通过追加形式的磁盘日志文件来原创 2020-09-01 18:06:56 · 5741 阅读 · 0 评论 -
HBase StoreFile原理总结
HBase StoreFile原理总结1. StoreFile是什么在hbase架构设计中,本身hbase基于hdfs进行数据存储。同时为了提升效率,数据会有一个memstore、block cache来做数据缓存,使用wal日志文件来防止内存数据丢失。但最终都会落地到磁盘中,这个磁盘文件就是store file。具体架构可以看我另一篇博客HBase架构原理一个region中会有多个store,按照此前查看hdfs中信息可知,一个列族一个store文件夹,一个列族中会有1到多个HFile(store原创 2020-09-01 17:20:52 · 4978 阅读 · 1 评论 -
HBase Region原理总结归纳
HBase Region原理总结1. 环境准备基于Hadoop 3.2.1基于zookeeper 3.4.6基于Hbase 2.2.5资料来源:官网http://hbase.apache.org/2.2/book.html网络博客、视频等资料2.HBase数据存储概述2.1 hbase概述HBase是基于hdfs的一个数据库,也就是本身Hbase的数据存储在hdfs中。默认的,文件会分布式存储在hdfs节点中,并且按照128MB一块进行切分,并且会保存3份hdfs中数据不适合原创 2020-09-01 15:46:24 · 2811 阅读 · 0 评论 -
HBase数据大批量导入方式总结和对比
HBase数据导入1. 背景在实际生产中,海量数据一般都不是直接存储在HBase中,这时候就需要一个数据导入到HBase的步骤上一篇博客讲述了可以通过java api的方式或者shell 客户端方式导入或者创建数据,但这对于实际生产中海量数据导入来说,速度和效率都太慢了,所以我们需要使用其他方式来解决海量输入导入到HBase的问题利用HBase底层文件是HFile形式存储再HDFS中,所以如果能够直接生成HFile的话,这时候再让HBase从HFile中读取数据,就会快很多。2. 批量数据导入原创 2020-08-30 23:07:11 · 3660 阅读 · 1 评论 -
HBase Java api入门代码案例(put、delete、scan、get)
HBase Java api入门代码案例1.背景在HBase的访问方式中,主要划分2种方式,一种是shell命令行,一种就是java api方式。这一点跟很多服务器端框架一样,都是会提供一个命令行客户端和api接口操作shell命令行指令,可以看我的另一篇博文HBase shell2.环境准备Idea2020版本Maven环境3.6.3 Maven安装JDK1.8 JDK安装HBase 2.2.5maven项目的pom文件<properties> &原创 2020-08-29 20:20:04 · 1177 阅读 · 0 评论 -
HBase shell命令知识总结(二)
HBase shell命令知识总结(二)3.5 工具命令 tools3.5.1 assign,这里需要注意,如已经分配好区,就会强制覆盖处理assign[əˈsaɪn]v. 指派(任务); 给予;3.5.2 balance_switch,负载均衡相关,hbase是一个分布式数据库,数据处理和请求需要分配到不同节点服务器上处理3.5.3 balancer,3.5.4 balancer_enabled,3.5.5 catalogjanitor_enabled,3.5.6原创 2020-08-29 20:02:22 · 942 阅读 · 1 评论 -
HBase shell命令知识总结(三)
HBase shell命令知识总结(三)3.7 数据快照命令 snapshots注意,在很多场景下, 为了可以快速恢复现场和数据,都会有快照功能,大的如操作系统,小的如软件的快照功能3.7.1 clone_snapshot,3.7.2 delete_all_snapshot,3.7.3 delete_snapshot,3.7.4 delete_table_snapshots,3.7.5 list_snapshots,3.7.6 list_table_snapshots,3.7.原创 2020-08-29 17:54:19 · 801 阅读 · 0 评论 -
HBase shell命令知识总结(一)
HBase shell命令知识总结1. HBase访问方式shell命令行客户端java api本文主要总结关于shell命令行的知识点不知道如何安装Hbase的可以看我另外一篇博文 HBase安装PS:可以横向对比,很多框架特别是运行在服务器端的,都会提供至少2种客户端,命令行客户端和代码api,部分如mysql还会有图形化客户端。针对数据库框架的操作,主要就是查看、DML、DDL、如果比较强大还会有权限、数据备份等操作功能。2. HBase的Shell概览开启客户端PS:原创 2020-08-29 16:37:35 · 1396 阅读 · 0 评论 -
HBase 总结之基本结构和内部流程机制
HBase总结之基本概念背景介绍由于互联网发展,由于人和设备运行产生的数据急剧爆发,所需要处理的数据超过传统技术所能处理的极限。所以面对海量数据存储和处理的大数据技术应运而生大数据技术主要处理2个问题,数据存储和数据的处理和分析大数据所需要处理的数据主要分3类,结构化数据、非结构数据、半结构化数据。结构化数据就是存储在各个数据库中的结构化数据典型如mysql中存储的数据;非结构数据如小说文本、图片、视频、音频、ppt、word文档等等;半结构化数据如日志文件HBase就是可以存储海量数据,并且支原创 2020-08-28 21:43:07 · 985 阅读 · 1 评论 -
HBase 2.2.5 安装教程(基于centos7.x)
HBase 安装教程(基于centos7.x)1.版本选择官网地址HBase目前选择相对新版本的2.2.5版本,2020年5月份。在企业开发中,由于整个技术架构中包含各种框架,框架和框架之间往往会有版本依赖问题。所以虽然每个框架的版本都会解决一些历史bug和增强性能或者添加新功能,但企业做版本选择时往往会选择相对稳定和兼容性更佳的版本而不是最新的版本。2. 环境准备linux集群(这里windows10系统上,使用vmware15.x基于centos7.x的linux操作系统版本虚拟出原创 2020-08-27 23:08:25 · 2024 阅读 · 0 评论 -
MapReduce 之小文件合并(HDFS小文件预处理)
MapReduce 之小文件合并1.HDFS之小文件背景知识HDFS作为分布式文件系统,自身机制原因,每一个数据块(默认128MB一个数据块)都会在namenode节点的元数据中保存一份索引。如果是小文件,例如1MB以下的小文件,由于HDFS本身机制,每个文件都会建立一个索引。这样的小文件过多,会导致namenode的索引文件过大。namenode的索引文件在启动时会加载到namenode的内存中,而内存是有限的。考虑到HDFS是分布式文件系统,里面存储的文件数量会非常大,所以这些小文件单独存放到原创 2020-08-22 20:27:19 · 1760 阅读 · 0 评论 -
HDFS 之Java API归纳(对照Zookeeper的java api)
HDFS 之Java API归纳1. HDFS访问方式HDFS和文件IO、mysql、yarn、zookeeper一样,都同时提供了命令行客户端,java api访问方式mysql、文件IO还有图形化客户端,navicat,图形化操作系统进行文件创建,删除等操作。2. HDFS的java api汇总2.1 封装获取FileSystem对象的代码private static FileSystem getFileSystem() throws URISyntaxException, IOExce原创 2020-08-22 17:24:06 · 169 阅读 · 0 评论