自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hive的压缩和存储

参考视频https://www.bilibili.com/video/BV1EZ4y1G7iL?p=100&spm_id_from=pageDriver1. MR 支持的压缩编码压缩性能比较2.压缩参数配置3.开启 Map 输出阶段压缩(MR 引擎)开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量(1)开启 hive 中间传输数据压缩功能set hive.exec.compress.intermediate=true;(2)开

2021-10-19 16:54:18 81

原创 hive的DDL和DML操作(四)

一、窗口函数(开窗函数)1. 函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。CURRENT ROW:当前行n PRECEDING:往前 n 行数据 n FOLLOWING:往后 n 行数据UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点,UNBOUNDED FOLLOWING 表示到后面的终点LAG(col,n,default_val):往前第 n 行数据LEAD(col,n, default_val):往

2021-10-19 15:46:00 100

原创 hive的DDL和DML操作(三)

一、Hive分区表和分桶表1.分区表分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据 集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多。1)创建分区表数据dept_1.log10 ACCOUNTING 170020 RESEARCH 1800dept_2.log30 SALES 190040 OPERATIONS 170

2021-10-18 17:56:17 153

原创 hive的DDL和DML操作(二)

一、查询语句语法分析1. 查询语句语法SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORDER BY col_list][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]][LIMIT number](1)ALL查询所有

2021-10-16 16:35:26 308

原创 hive的DDL和DML操作(一)

一、hive数据库创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];(1)IF NOT EXISTS:判断该数据库是否存在,可选(2)COMMENT database_comment:添加注释,可选(3)LOCATION hdfs_pa

2021-10-15 20:31:08 195

原创 数据仓库的搭建

一、构建数据仓库思路hadoop11作为数据仓库的client客户端haoop12作为数据仓库hive server端hadoop13上作为mysql server客户端二、在hadoop13上安装mysql1.下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 2.安装mysql-community-release-el7-5.noarch.rpm包rpm -ivh mysql

2021-05-30 16:06:34 239

原创 Hbase的安装配置

一、安装Hbase将Hbase解压包,解压到/opt/moudle目录下二、Hbase-env.sh的配置找到JAVA_HOME和HBASE_CLASSPATH进行配置找到ZK,将ture改为false,这里不使用hbase自带的zk。三、配置hbase-core.xml和regionservers文件hbase.cluster.distributedtruehbase.tmp.dir./tmphbase.unsafe.stream.capability.enforce

2021-05-29 15:03:22 133

原创 zookeeper的配置

在zookeeper的bin目录下的zkEnv.sh文件最后一行添加JAVA_HOMEexport JAVA_HOME=/opt/moudle/jdk1.8在zookeeper目录下创建目录data和logs zoo.cfg配置将conf目录下的zoo_sample.cfg文件名字修改为zoo.cfgvi zoo.cfg在最后一行添加server.1=192.168.10.111:2888:3888server.2=192.168.10.1...

2021-05-28 19:04:22 346

原创 Hadoop动态添加和删除节点

一、创建一个新的虚拟机hadoop14,进行相关配置(ip地址的修改,免密登录,关闭防火墙,hosts文件修改等)1.使用克隆的方法1)修改静态ip地址2)将hadoop目录下的logs和data目录删除。3)删除hadoop/etc/hadoop/workers文件中的内容2.直接安装一个新的虚拟机1)静态ip地址的修改2)免密登录的设置,使其他三台虚拟机可以不输入密码直接登录进去3)关闭防火墙,设置hosts文件(将其他三台虚拟机的地址和虚拟机名称添加进去)二、配置主

2021-05-26 17:21:34 391

原创 Hadoop完全分布式配置

一.准备三台虚拟机(静态IP配置,修改主机名称,免密登录)1. 静态IP配置1) 修改配置文件vi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesIPV6_FAIL.

2021-05-25 14:30:47 235

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除