大数据
xjjdlut
大数据技术爱好者,分享学习大数据技术过程中的心得和笔记
展开
-
Cloudera Manager 5.15.2离线安装笔记(一)
Cloudera Manager 5.15.2离线安装笔记(一)工欲善其事必先利其器,想要学好一门技术首先得有趁手的工具,要想学好大数据技术,还是得有比较好的工具才行。本笔记记录的是安装Cloudera Manager的过程。CDH的全称是Cloudera’s Distribution Including Apache Hadoop,是hadoop众多发行版本中的一种,是由Cloudera维护...原创 2019-02-14 19:54:11 · 1158 阅读 · 0 评论 -
Hive基础之创建表
hive创建表的语法参考如下网址:Create/Drop/Truncate Table1.创建基础表在这个网页里详细记录了创建表的每个语法,下面就一一来看这些创建表的语法内容:CREATE TABLE [IF NOT EXISTS] [db_name.]table_name ``[(col_name data_type [COMMENT col_comment], ... [c...原创 2019-02-26 21:31:40 · 494 阅读 · 0 评论 -
Hive基础之数据类型
hive创建表的语法参考如下网址:Create/Drop/Truncate Table1.数据类型在创建表的时候我们在新建列的时候会需要指定数据类型,一般在数据文件中我们可以将所有的数据都指定为string即字符串类型,然后再用函数转换为其他的数据类型,比如日期、数值等。CREATE TABLE [IF NOT EXISTS] [db_name.]table_name ``[(...原创 2019-02-26 21:33:10 · 373 阅读 · 0 评论 -
Hive基础之表操作
使用过Oracle数据库的童鞋都知道Oracle里面有两张经典的表员工(emp)和部门(dept),本文就以这两张表为基础,介绍一些Hive中表的一些基表操作。1.创建表根据emp和dept的字段类型,将其转换为Hive中的对应的数据类型,我们可以得到这两张表的建表语句:–员工表create table IF NOT EXISTS default.emp(empno int,ename...原创 2019-02-26 21:37:29 · 302 阅读 · 0 评论 -
Hive基础之管理表和外部表
在hive创建表的语法中有一个关键字是EXTERNAL,该关键字表示表的类型,在hive中一共有两种类型的表:管理表和托管表(外部表)。如果没有加EXTERNAL关键字,则创建表都是管理表。1.管理表信息如何查看一张表是管理表还是托管表呢?可以使用desc命令:hive (default)> desc formatted dept;OKcol_name data_ty...原创 2019-02-26 21:39:14 · 708 阅读 · 0 评论 -
Hive基础之分区表
我们在做数据挖掘和分析的时候有时候只是针对某一段时间或者某一个月的数据,而我们在创建表的时候是将所有时间的数据都放在一起,这样就会导致我们在进行分析的时候会分析所有的数据,如果数据量很大的时候效率就会很慢,这时候Hive就提供一种特性叫分区表,可以针对一个月的数据进行查询和分析。原来可能要分析100G的数据文件,经过分区后可能只需要分析10G的文件,这样可以大大提升数据分析的效率。下面我们就来详细...原创 2019-02-26 21:41:08 · 347 阅读 · 0 评论 -
如何从0开始学习大数据技术
如何从0开始学习大数据技术呢?本文就本人的经历给大家介绍一下如何开始学习大数据技术,如果你已经开始用自己的方法学习大数据技术,不妨也参考一下本文的方法,如果你是大牛,那可以忽略本文下面的内容了。1.硬件准备要想学习大数据技术,硬件是必不可少的,需要一台至少8GB内存的电脑,有条件的家里如果有多台电脑,且自己比较爱折腾的话就更好了。内存从1块钱1MB的时候,到现在1块钱20MB,依然是电脑最缺少...原创 2019-02-26 21:52:46 · 588 阅读 · 0 评论 -
Hive高阶之数据压缩
Hive的压缩依赖于MapReduce的支持,也就是安装的hadoop组件,如果不支持的话就需要自行编译。常用的压缩方法是snappy压缩,而这种压缩方法依赖于操作系统的snappy组件,所以hadoop组件一般不默认编译,如果要支持的话就需要重新进行编译。好在CDH版本已经支持压缩方法了,不需要重新进行编译。我们可以通过hadoop命令查看当前的hadoop集群是否支持snappy压缩。[ro...原创 2019-03-08 21:48:25 · 276 阅读 · 0 评论 -
Hive高阶之显示数据库名称和字段名
在hive中默认是不显示数据库的名称和数据表的字段名称的,这样我们在hive进行查询的时候就会发现不是很方便。默认hive的客户端执行方式如下:[root@node3 ~]# sudo -u hive hiveLogging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.1...原创 2019-03-13 22:42:01 · 888 阅读 · 0 评论 -
Hive高阶之数据压缩详解
一般在hadoop集群上运行一个MapReduce会有以下步骤:input-> Map-> shuffle -> reduce -> output如果我们采用了数据压缩,在map阶段产生的数据大小就会减少,会减少磁盘的IO,同时还能够减少网络的IO。Linux操作系统中常见的压缩格式是bzip2、gzip、lzo、snappy这四种,这四种压缩方法的比较如下:压...原创 2019-03-12 21:55:07 · 217 阅读 · 0 评论 -
Hive基础之UDF编程
UDF指用户定义函数,即在hive中进行客户化的函数,hive中自定义了很多function,我们使用show function命令可以很容易查看已有函数的用法:hive (default)> desc function split;OKtab_namesplit(str, regex) - Splits str around occurances that match regex...原创 2019-03-01 21:38:07 · 464 阅读 · 0 评论 -
Hive基础之排序查询
hive中排序查询的语法见:LanguageManual SortBy,排序中包括ORDER BY, SORT BY, CLUSTER BY, and DISTRIBUTE BY四种方法。1.order byorder by是与关系型数据库的用法是一样的,还以员工表emp为例,按照员工编号降序进行排列的查询语句如下:select * from emp order by empno desc;...原创 2019-03-01 21:37:07 · 333 阅读 · 0 评论 -
Cloudera Manager 5.15.2离线安装笔记(二)
本文接上一篇文章:Cloudera Manager 5.15.2离线安装笔记(一),已经将CM的Server端正确安装并重新启动,下面可以开始从网页端来安装集群1.登录系统输入网址http://192.168.246.160:7180默认用户名和密码都是admin。 2.选择安装版本 Clouder Manager分为免费版和企业版,企业版收费,我们只需要选择免费版...原创 2019-02-14 20:11:55 · 463 阅读 · 0 评论 -
Cloudera Manager 5.15.2离线安装笔记(三)
接上一步:Cloudera Manager 5.15.2离线安装笔记(二),现在已经将agent安装完毕,下面可以复制安装文件到集群的结点上并进行安装。1.复制安装文件 这一步将安装文件复制到所有的结点上,这一步取决于内网的网速和机器的性能,一般会比较快。2.选择安装的组件安装文件复制完毕后会进入结点检查页面,可以跳过这一步,直接进入安装组件的选择界面。在这个界面可以选择想...原创 2019-02-14 20:14:46 · 623 阅读 · 0 评论 -
Hive基础之创建数据库
hive创建数据库的语法参考如下网址:Create/Drop/Alter/Use Database1.创建数据库企业应用中标准的创建数据库的语法如下:create database if not exists db_hive;这句话的意思是如果不存在数据库db_hive则创建该数据库,如果不加入if not exists,那么在创建数据库的时候如果存在db_hive,则会抛出异常。加上这...原创 2019-02-18 21:34:10 · 9789 阅读 · 0 评论 -
Hive高阶之Beeline与JDBC
从这篇笔记开始我们开始进入Hive的高级部分,这其中包括HiveServer2、Hive数据压缩、hive数据存储、hive企业优化等。首先看一下HiveServer2,该工作作为Hive的一个server端进行启动,供其他的工具使用。之前的hive基础知识部分的笔记都是以hive client为基础的,如果想用其他的工具比如jdbc、spark sql来使用hive就需要启动HiveServe...原创 2019-03-04 23:34:40 · 2133 阅读 · 0 评论 -
Hive基础之导入数据
在hive中创建表之后需要将数据加载或者导入到表中,然后在hive中才能够用查询语句进行分析,本文就来整理一下hive加载数据的方法。加载数据到表中的语法参考Loading files into tables,我们摘抄如下:LOAD DATA [LOCAL] INPATH ``'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (par...原创 2019-03-01 21:31:39 · 353 阅读 · 0 评论 -
Hive基础之导出数据
我们在hive中分析完数据后有时候需要将结果导出到本地文件以供其他用途。hive中提供了几种方式来导出结果,下面就详细介绍一些这几种导出数据的方法。1.导出到本地文件目录hive (default)> insert overwrite local directory '/opt/datas/hive_exp_emp' > select * from de...原创 2019-03-01 21:32:36 · 594 阅读 · 0 评论 -
Hive基础之基础查询
hive中查询语句的语法都在Select Syntax,所有查询相关的语法都在该手册中,包括where、partition以及正则表达式查询,所有与查询相关的语法都在该手册中。全表查询emp表前5条的数据:hive (default)> select * from emp limit 5 ;OKempno ename job mgr hiredate ...原创 2019-03-01 21:33:40 · 5985 阅读 · 0 评论 -
Hive基础之高阶查询
hive中查询语句的语法都在Select Syntax,所有查询相关的语法都在该手册中,本文主要介绍一些高阶的查询语句的用法。1.分组查询需求1,每个部门的平均工资是多少,在这里我们使用avg函数来求平均值,使用group by来进行分组。select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno ;hive (de...原创 2019-03-01 21:35:22 · 485 阅读 · 0 评论 -
Hive基础之导入导出
hive中导入导出的语法见:LanguageManual ImportExport,导入导出是在hive0.8.0版本之后才有的功能。1.export导出,将hive表中的数据导出到外部,导出的语法如下:EXPORT TABLE tablename [PARTITION (part_column=``"value"``[, ...])] ``TO ``'export_target_pat...原创 2019-03-01 21:36:12 · 203 阅读 · 0 评论 -
HDFS架构
1.来源HDFS来源于Google在2003年10月份发表的FGS论文:《The Google File System》,HDFS是GFS克隆版。HDFS的全称是Hadoop Distributed File System。它是易于扩展的分布式文件,运行在大量的普通廉价机器上,提供了很好的容错机制。能够为大量用户提供新能不错的文件存取服务。2.结构介绍HDFS上的文件是以块来进行存储的...原创 2019-08-15 22:03:30 · 299 阅读 · 0 评论