安纳西丶小雨-CSDN博客

原创 Hive的安装过程

Hive的安装Hive有两种安装模式1)使用默认的自带的元数据库1.上传安装包2.解压 tar -zxvf apache-hive-2.3.2-bin.tar.gz3.配置环境变量ln -s apache-hive-2.3.2-bin hiveexport HIVE_HOME=/home/hadoop01/apps/hiveexport PATH=PATH:PATH:PATH:H...

2019-08-03 23:54:29 268

原创执行SparkSQL脚本后hive出错 FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException

错误信息hive> show databases;;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionH...

2019-06-30 15:34:47 2515

原创 Spark性能调优（四）

spark shuffle 调优spark/mr作业在执行过程中，数据重排的过程，主要发生在mr的话，就在map输出和reduce输入的过程，如果在spark就发生在窄依赖阶段和宽依赖阶段。 shuffle操作是分布式计算不可避免的一个过程，也是分布式计算最消耗性能的一个部分。1.1 spark shuffle执行过程spark中由于不同的ShuffleManager的的配置，会造成s...

2019-06-27 23:39:35 212

原创 Spark性能调优（三）

1.数据倾斜1.1. 什么是数据倾斜，现象是什么？所谓数据倾斜(data skew)，其实说白了，由于数据分布不均匀造成计算时间差异很大，产生了一些列异常现象。常见的现象有两种：个别task作业运行缓慢大多数的task运行都很快速，但是极个别的task运行非常缓慢，甚至是正常task运行时间好多倍。而一个作业运行的最终时间是由时间最短的那些task决定还是有哪些时间最长...

2019-06-27 23:31:50 212

原创 Spark性能调优（二）

Spark性能调优二1.1资源调优资源调优，说白了就是为spark程序提供合理的内存资源、cpu资源等。所以需要知道有哪些参数可以设置这些资源。.spark-submit脚本参数详解–conf PROP=VALUE手动给sparkConf指定相关配置，比如–conf spark.serializer=org.apache.spark.serializer.KryoSerializ...

2019-06-27 23:20:54 140

Spark的性能调优1. 为啥要调优2.开发调优2.1避免创建重复的RDD2.2. 尽可能复用同一个RDD2.3.对多次使用的RDD进行持久化2.3.1 持久化策略2.3.2 选择合适的持久化策略2.4尽量避免使用shuffle类算子2.5. 使用高性能的算子2.5.1建议使用mapPartitions代替map2.5.2建议使用foreachPartitions代替foreach2.5.3. 建...

2019-06-26 00:08:37 390

原创 spark在yarn上运行遇见的错误

Spark代码运行出错19/06/19 22:29:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable19/06/19 22:29:30 INFO yarn.Client: Requ...

2019-06-20 00:14:07 1848

原创 Linux虚拟机上Spark的安装过程

Spark的安装过程首先要确认Scala安装好Spark单机模式的安装测试完全分布式的安装配置启动基于Zookeeper的HA的配置首先要确认Scala安装好第一步去 Scala 官网 https://www.scala-lang.org/ 下载安装包上传并解压到 /home/hadoop01/apps/scala-2.11.8配置环境变量export SCALA_HOME=/home/...

2019-06-17 20:43:15 4081

原创 Scala 类的构造方法

scala类的构造器scala的构造，分为主构造器和辅助构造器辅助构造器scala和java的构造器的区别scala的构造，分为主构造器和辅助构造器主构造器的定义和类的定义交织在一起定义一个主构造器class Xxx(参数列表) {}类名后面的内容就是主构造器，如果参数列表为空的话，()可以省略scala的类有且仅有一个主构造器，要想提供更加丰富的构造器，就需要使用辅助构造器辅...

2019-06-12 23:51:41 3231 3

原创 Hive和Hbase的整合

1、原理Hive 与 HBase 利用两者本身对外的 API 来实现整合，主要是靠 HBaseStorageHandler 进行通信，利用 HBaseStorageHandler，Hive 可以获取到 Hive 表对应的 HBase 表名，列簇以及列，InputFormat 和 OutputFormat 类，创建和删除 HBase 表等。Hive 访问 HBase 中表数据，实质上是通过 M...

2019-06-03 23:22:22 198

安纳西丶小雨的博客