Hadoop
文章平均质量分 61
xixihaha_coder
坚持就是胜利!
展开
-
Scala简单学习
文章目录Scala简单学习Helloworld演示注释变量 常量标识符字符串键盘输入文件的操作数据类型字符类型Unit类型 Null类型 Nothing类型类型转换算数运算符比较运算符流程控制FOR遍历集合遍历循环守卫循环步长 By嵌套循环引入变量打印输出九层妖塔循环返回值循环中断函数式编程集合不可变数组添加元素可变数组可变、不可变数组转换二维数组列表不可变列表Set集合不可变集合可变集合Map集合不可变Map可变Map元组集合常用操作衍生集合集合计算简单函数集合计算高级函数reducefoldwordCo原创 2022-04-07 17:35:28 · 1681 阅读 · 1 评论 -
HBase
HBase介绍HBase是一种数据库:Hadoop分布式数据库。总体上来说,它是一个随机访问存储和检索数据的平台。HBase作用不适合处理实时数据,它适合处理海量数据,这与Hbase的极易扩展性息息相关。HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop M原创 2021-12-21 20:36:16 · 1080 阅读 · 0 评论 -
Sqoop学习
Sqoop的简介产生背景基于传统关系型数据库的稳定性,还是有很多企业将数据存储在关系型数据库中;早期由于工具的缺乏,Hadoop与传统数据库之间的数据传输非常困滩。基于前两个方面的考虑,需要一个在传统关系型数据库和Hadoop之间进行数据传输的项目,Sqoop应运而生。Sqoop是什么Sqoop是一个用于Hadoop和结构化数据存储(如关系型数据库)之间进行高效传输大批量数据的工具。它包括以下两个方面;可以使用Sqoop将数据从关系型数据库管理系统(如MySQL)导入到Hadoop系原创 2021-11-13 16:37:20 · 1890 阅读 · 0 评论 -
04-系统内置拦截器使用&自定义拦截器
系统内置拦截器使用在Flume运行过程中,Flume有能力在运行阶段修改/删除Event,这是通过拦截器((Interceptors)来实现的。拦截器有下面几个特点:拦截器需要实现org.apache.flume.interceptor.Interceptor接口。拦截器可以修改或删除事件基于开发者在选择器中选择的任何条件。拦截器采用了责任链模式,多个拦截器可以按指定顺序拦截。一个拦截器返回的事件列表被传递给链中的下一个拦截器。如果一个拦截器需要删除事件,它只需要在返回的事件集中不包含要删除的原创 2021-11-13 13:01:14 · 580 阅读 · 0 评论 -
03-Flume的配置说明及案例演示
Flume的配置说明定义组件名称要定义单个代理中的流,您需要通过通道链接源和接收器。您需要列出给定代理的源,接收器和通道,然后将源和接收器指向一个通道。一个源实例可以指定多个通道,但是一个接收器实例只能指定一个通道。格式如下:# list the sources,sinks and channels for the agent<Agent>.sources = <Source><Agent>.sinks = <Sink><Agent>.原创 2021-11-13 12:41:37 · 2092 阅读 · 0 评论 -
02-Flume的安装
Flume的安装安装和配置环境变量准备软件包将apache-flume-1.8.0-bin.tar.gz 上传到linux系统中的/root/soft目录中解压软件包[root@tianqinglong01 soft]# pwd/root/soft[root@tianqinglong01 soft]# tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local更名操作[root@tianqinglong01 soft]# cd /usr/原创 2021-11-13 12:36:53 · 213 阅读 · 0 评论 -
01-Flume的简介
Flume的简介大数据的处理流程1.数据采集2数据存储3.数据清洗4.数据分析5.数据展示Flume的简介Fume是一种分布式的,可靠的、高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据横型,允许在线分析应用程序。fume 最开始是由cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。但随着fume功能的扩展,fum原创 2021-11-13 12:35:02 · 542 阅读 · 0 评论 -
11-hive的存储格式&索引&视图&数据压缩
hive的存储格式案例测试案例一:textfile案例二:sequencefile案例三:parquetrcfile 和 orcfile跟上述一样stored as rcfilestored as orcfilehive的索引概要索引的创建2 )创建索引create index index_rate2on table rate2(uid)as 'compact' -- 索引文件的存储格式with deferred rebuild -- 索引能够重建;原创 2021-11-10 09:32:09 · 463 阅读 · 0 评论 -
10-hive中序列化和反序列化简介
hive中序列化和反序列化简介serde简介hive的常用serdeLazySimpleSerDeCSVjson serde原创 2021-11-09 15:41:05 · 376 阅读 · 0 评论 -
09-hive中的分区表
hive中的分区表为什么分区Hive的Select查询时,一般会扫描整个表内容。随着系统运行的时间越来越长,表的数据量越来越大,而hive查询做全表扫描,会消耗很多时间,降低效率。而有时候,我们需求的数据只需要扫描表中的一部分数据即可。这样,hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询效率。如何分区根据业务需求而定,不过通常以年、月、日、小原创 2021-11-09 15:37:58 · 2920 阅读 · 0 评论 -
08-hive中的函数
hive内置函数在Hive中,函数主要分两大类型,一种是内置函数,一种是用户自定义函数。函数查看show functions;desc function functionName;日期函数1)当前系统时间函数: current_date(). current_timestamp()、unix_timestamp()-- 函数1:current_date();当前系统日期 格式:"yyyy-MM-dd"-- 函数2:current_timestomp();当前系统时问戳:格式:"yyy原创 2021-11-09 15:35:49 · 1159 阅读 · 0 评论 -
06-hive的shell技巧
hive的shell技巧只执行一次Hive命令通过shell的参数-e可以执行一次就运行完的命令[root@tianqinglong01 hive]# hive -e "select * from qfdb.t_user"[root@tianqinglong01 hive]# hive --database qfdb -e "select * from t_user"单独执行一个sql文件[root@tianqinglong01 ~]# vim query.hqlselect * from原创 2021-11-09 15:28:33 · 626 阅读 · 0 评论 -
05-Hive内部表和外部表
Hive内部表和外部表在hive中,表数据主要分为两种,第一种:内部表- 也叫管理表- 表目录会创建在集群上的{hive .metastore.warehouse.dir}下的相应的库对应的目录中。- 默认创建的表就是内部表第二种:外部表- 外部表需要使用关键字"external",- 外部表会根据创建表时LOCATION指定的路径来创建目录,- 如果没有指定LOCATION,则位置跟内部表相同,一般使用的是第三方提供的或者公用的数据。- 建表语法:必须指定关键字external.c原创 2021-11-09 15:27:13 · 798 阅读 · 0 评论 -
04-Hive表数据导入和导出
Hive表数据导入[root@tianqinglong01 hive]# mkdir /hivedata[root@tianqinglong01 hive]# cd hivedata[root@tianqinglong01 hivedata]# vi user.txt1,张三2,李四3,王五hive>create database if not exists t_user(id int,name string)row format delimitedfields termin原创 2021-11-09 15:26:01 · 474 阅读 · 0 评论 -
03-hive的数据库操作
hive的数据库操作规则语法大小写规则:1. hive的数据库名、表名都不区分大小写2. 建议关键字大写命名规则:1.名字不能使用数字开头2.不能使用关键字3.尽量不使用特殊符号库操作语法hive> create database test;hive> create database if not exist test;hive> create database if not exist test comment "this is a comment";原创 2021-11-09 15:23:36 · 801 阅读 · 0 评论 -
02-Hive的安装
Hive的安装内嵌模式使用hive自带默认元数据库derby来进行存储,通常用于测试1.优点:使用简单,不用进行配置2.缺点:只支持单session。安装步骤(tianqinglong02)[root@tianqinglong02 ~]# tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/local[root@tianqinglong02 ~]# cd /usr/local[root@tianqinglong02 local]# mv apach原创 2021-11-09 15:22:25 · 1008 阅读 · 0 评论 -
01-Hive简介
Hive简介什么是hivehive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。这套HIVE SQL简称HQL。hive的执行引擎可以是MR。spark、tez。如果执行引擎是MapReduce的话,hive会将Hql翻译成MR进行数据的计算。用户可以使用命令行工具或JDBC驱动程序来连接到hive。为什么要使用hive- 人员学习成本高- 项目周期要求太短- Map原创 2021-11-09 15:18:54 · 261 阅读 · 2 评论 -
YARN学习
文章目录YARN的概述MapReduce 1.x的简介yarn的设计思想YARN的架构及组件YARN的配置历史服务YARN的job提交流程YARN的案例提交YARN的概述MapReduce 1.x的简介了解一下 因为已经过时了~第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和原创 2021-11-06 23:59:57 · 593 阅读 · 0 评论 -
Zookeeper学习
文章目录zookeeper概述zookeeper是什么zookeeper的特点zookeeper的数据模型zookeeper的应用场景Zookeeper安装zookeeper的shell操作zookeeper概述zookeeper是什么1. zookeper是一个为分布式应用程序提供的一个分布式开源协调服务框架。是Google的Chuby的一个开源实现。是Hadoop和Hbase的重要组件。主要用于解决分布式集群中应用系统的一致性问题。2.提供了基于类似Unix系统的目录节点树方式的数据存储。3.原创 2021-11-06 23:56:52 · 95 阅读 · 0 评论 -
Hadoop学习
为什么要用Hadoop现在的我们,生活在数据大爆炸的年代。2020年,全球的数据总量达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。扩展:数据大小单位,从小到大分别是:byte,kb、mb、Gb、Tb、PB、EB、ZB、DB、NB…单位之间的转换都是满足1024为了解决大数据的处理问题,为了解决大数据的存储问题Hadoop的简要介绍Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台,使用jvai语言开发,具有很好的跨平台性原创 2021-11-06 23:52:45 · 357 阅读 · 0 评论