小博和小新-CSDN博客

原创 HBaseAPI

HBaseAPIjavaAPI操作HBase表数据1.创建表myuser2.向表中添加数据3、查询数据4.通过startRowKey和endRowKey进行扫描5.过滤器查询6.rowKey过滤器RowFilter7.列族过滤器FamilyFilte8.列过滤器QualifierFilter9.列值过滤器ValueFilter10.专用过滤器单列值过滤器SingleColumnValueFil...

2020-01-03 20:25:20 248 4

原创大数据之Hbase介绍

Hbase 基本介绍 hbase 建立在HDFS之上的bigtable java版本。 hbase是一个数据库。不支持join等复杂sql操作，不支持复杂的事务（行级的事务） Hbase中支持的数据类型：byte[] 一个表可以有上十亿行，上百万列面向列(族)的存储使用key-value操作数据对于为空(null)的列，并不占用存储空间, 表可以设...

2019-12-13 20:39:10 428

原创大数据之HBase的集群环境搭建

HBase的安装注意事项：HBase强依赖zookeeper和hadoop，安装HBase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行所有关于CDH版本的软件包下载地址如下CDH版本的软件包HBase对应的版本下载地址如下HBase对应的版本1、软件包的上传解压cd /export/softwares/tar -zxvf hbase-1.2.0-cdh5....

2019-12-13 20:26:02 175

原创 hive第二部分

通过参数使用Hive hive -e ‘命令’ hive -e ‘show databases;’hive -f 文件（文件内编写造作命令） hive -f test.sql数据库的相关操作（增删改查）增：create database [if not exists] 库名；删： drop database 库名；（若数...

2019-12-02 21:35:25 483

原创离线计算系统（hive部分）

什么是HIVEHive是一个语句Hadoop的一个数据仓库工具，是将结构化数据文件映射成为一个数据表，并提供类SQL的查询功能。Hive可以对数据进行存储于计算数据存储依赖于HDFS数据计算依赖于MapReduceHive意义（目的）在hadoop是个好软件，但是不好使用（学习成本太高，坡度陡，难度大）的前提下降低了程序员使用hadoop的学习成本，降低了难度。Hive特点...

2019-11-19 22:17:21 502

原创 Hadoop之Hive的安装部署

前提以制作本地资源库完成安装mysql[root@node01 ~]# yum install -y mysql mysql-server mysql-devel已加载插件：fastestmirror, security设置安装进程Determining fastest mirrorsc6-media ...

2019-11-19 22:16:00 275

原创一周学习之MapReduce总结

分步式并行计算框架Map Reduce是指实现某项任务或某项工作从开始到结束的计算过程或流的结构MapReduce计算框架图示：分布式并行计算架构一个大的任务被拆分成多个小任务，每个小任务同时执行。按照执行流程进行计算。MapReduce核心思想分而治之，先分后和（只有一个模型）Map负责数据拆分 map: [k1,v1] → [(k2,v2)]Reduce负责数据合并 red...

2019-11-15 20:31:08 406

原创 hadoop Mapreduce执行流程

第一步：inputFormatinputFormat 在hdfs（分布式文件系统）文件系统读取要进行计算数据输出给split第二步：splitsplit把数据进行逻辑分割，切分成多个任务输出给RR（RecordReader）第三步：RR（RecordReader）RR将切分后的数据转换成key（键）value（值）进行输出key：每一行行首字母的偏移量（到段首的差值）value：每...

2019-11-13 21:49:52 248