- 博客(8)
- 收藏
- 关注
原创 HBaseAPI
HBaseAPIjavaAPI操作HBase表数据1.创建表myuser2.向表中添加数据3、查询数据4.通过startRowKey和endRowKey进行扫描5.过滤器查询6.rowKey过滤器RowFilter7.列族过滤器FamilyFilte8.列过滤器QualifierFilter9.列值过滤器ValueFilter10.专用过滤器 单列值过滤器SingleColumnValueFil...
2020-01-03 20:25:20
193
4
原创 大数据之Hbase介绍
Hbase 基本介绍 hbase 建立在HDFS之上的bigtable java版本。 hbase是一个数据库。 不支持join等复杂sql操作, 不支持复杂的事务(行级的事务) Hbase中支持的数据类型:byte[] 一个表可以有上十亿行,上百万列 面向列(族)的存储 使用key-value操作数据 对于为空(null)的列,并不占用存储空间, 表可以设...
2019-12-13 20:39:10
364
原创 大数据之HBase的集群环境搭建
HBase的安装注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行所有关于CDH版本的软件包下载地址如下CDH版本的软件包HBase对应的版本下载地址如下HBase对应的版本1、软件包的上传解压cd /export/softwares/tar -zxvf hbase-1.2.0-cdh5....
2019-12-13 20:26:02
136
原创 hive第二部分
通过参数使用Hive hive -e ‘命令’ hive -e ‘show databases;’hive -f 文件(文件内编写造作命令) hive -f test.sql数据库的相关操作(增删改查) 增:create database [if not exists] 库名; 删: drop database 库名;(若数...
2019-12-02 21:35:25
404
原创 离线计算系统(hive部分)
什么是HIVEHive是一个语句Hadoop的一个数据仓库工具,是将结构化数据文件映射成为一个数据表,并提供类SQL的查询功能。Hive可以对数据进行存储于计算数据存储依赖于HDFS数据计算依赖于MapReduceHive意义(目的)在hadoop是个好软件,但是不好使用(学习成本太高,坡度陡,难度大)的前提下降低了程序员使用hadoop的学习成本,降低了难度。Hive特点...
2019-11-19 22:17:21
440
原创 Hadoop之Hive的安装部署
前提以制作本地资源库完成安装mysql[root@node01 ~]# yum install -y mysql mysql-server mysql-devel已加载插件:fastestmirror, security设置安装进程Determining fastest mirrorsc6-media ...
2019-11-19 22:16:00
213
原创 一周学习之MapReduce总结
分步式并行计算框架Map Reduce是指实现某项任务或某项工作从开始到结束的计算过程或流的结构MapReduce计算框架图示:分布式并行计算架构一个大的任务被拆分成多个小任务,每个小任务同时执行。按照执行流程进行计算。MapReduce核心思想分而治之,先分后和(只有一个模型)Map负责数据拆分 map: [k1,v1] → [(k2,v2)]Reduce负责数据合并 red...
2019-11-15 20:31:08
356
原创 hadoop Mapreduce执行流程
第一步:inputFormatinputFormat 在hdfs(分布式文件系统)文件系统读取要进行计算数据 输出给split第二步:splitsplit把数据进行逻辑分割,切分成多个任务输出给RR(RecordReader)第三步:RR(RecordReader)RR将切分后的数据转换成key(键)value(值)进行输出key:每一行行首字母的偏移量(到段首的差值)value:每...
2019-11-13 21:49:52
204
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人