hive
奔跑的小鲫鱼
关于学习Java的总结以及遇到的问题及解决方法的描述
展开
-
【常见问题】hive、Hadoop(HA)、sqoop出现的问题的总结---各种问题以及解决方案-
问题1:sqoop运行时出现下面的问题:问题:Exceptionin thread "main" java.lang.NoClassDefFoundError: org/json/JSONObjectatorg.apache.sqoop.util.SqoopJsonUtil.getJsonStringforMap(SqoopJsonUtil.java:43)at org...原创 2018-07-05 23:56:35 · 1591 阅读 · 0 评论 -
【hive】hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式
一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化。下面具体讲parquet存储数据的代码以及加载数据的格式。 数据库代码:create table if not exists db_yhd.track_log_parquet(id STRING...原创 2018-07-03 01:00:27 · 23985 阅读 · 3 评论 -
【hive】Hive的安装过程与配置的详解
1.上传、解压、Hive的安装 2.查看是否安装成功 3.将配置文件修改名字之后,如下图所示 4.将配置文件通过notepad++来打开修改好的配置文件,配置的内容如下图所示 5.配置好XML文件之后,本质内容在该网站上有:https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin 6...原创 2018-06-24 19:36:41 · 3164 阅读 · 0 评论 -
【hive】hive----自定义UDF 函数-----时间格式化以及取出双引号的代码
一.UDF的描述用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程。 在ETL处理中,ETL(是指:ETL是将业务系统的数据经过...原创 2018-07-02 00:14:21 · 918 阅读 · 0 评论 -
【hive】如何设置hive以及MapReduce的压缩方式?
一、MapReduce的压缩方式的介绍压缩compress:目的是为了压缩map输出的 结果数据,减少网络IO和磁盘IO流常见的压缩算法:Snappy、Lz4,Lzo配置压缩:MapReduce ,配置 map端的输出有压缩mapreduce.map.output.compress = truemapreduce.map.output.compress.codec="org.apache.had...原创 2018-07-03 00:39:52 · 1375 阅读 · 0 评论 -
【hive】怎么解决Hive中metaData 字符集中文问题?--详细步骤
一.首先,一般常见的错误有以及几种以及他们的解决方案:1.Hive中创建数据库或者表,如下图示但是,当你去查看该数据详细信息时,中文出现了乱码,但英文不会,查看数据详情图为了解决Hive中创建表或者数据库的时候,注解等中文显示的乱码问题,需要设置MetaStore DataBase中某些字段的字符编码为utf-8二.HiveMetaStore 配置说明1. MySQL 授权(如果安装M...原创 2018-07-03 00:46:08 · 1585 阅读 · 2 评论 -
数据倾斜是什么以及造成的原因?
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均...转载 2018-07-11 11:06:58 · 14200 阅读 · 0 评论 -
Hive性能优化(全面)
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在m...转载 2018-07-31 08:41:54 · 2875 阅读 · 0 评论