文章目录
前言
bulkloader 一个用于批最快速导入数据到 hbase 的工具/方法
bulkloader介绍
应用场景:用于已经存在一批巨量的静态数据的情况!如果不用 bulkloader 工具,则只能用rpc请求,一条一条地通过rpc提交给regionserver去插入,效率极其低下!
简介:使用 Bulk Load方式由于利用了HIBase 的数据信息是按照特定格式存储在HDFS里的这一特性,直接在 HDFS中生成持久化的 HFile数据格式文件,然后完成巨量数据快速入库的操作,配合MapReduce完成这样的操作,不占用 Region资源,不会产生巨量的写入IO,所以需要较少的CPU和网络资源。Bulk Load 的实现原理是通过一个MapReduce Job来实现的,通过Job直接生成一个HBase的 HFile格式文件,用来形成一个特殊的 HBase数据表,然后直接将数据文件加载到运行的集群中。与使用Hbase API相比,使用Bulkload导入数据占用更少的CPU和网络资源。
shell端使用步骤
1 静态数据如下
uid001,zss,23,F
uid002,lss,13,M
uid003,ww,22,M
uid004,zl,34,F
uid005,tq,43,M
uid006,wb,55,