Bigdata 组件连接
内涵大数据组件连接方式和总结
Alienware^
喜欢专研Java,Scala,Python,数据库,以及大数据框架系列知识。希望通过不断的学习,记录自己的点点滴滴。
展开
-
Spark on Hive 和 Hive on Spark 的区别
Spark on Hive : Hive只作为存储角色,Spark负责sql解析优化,执行。 这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下: 通过SparkSQL,加载Hive的配置文件,获取到Hive的元数据信息; 获取到Hive的元数据信息之后可以拿到Hive表的数据; 通过SparkSQL来操作Hive表中的数据。 Hive on Spark: Hive既作为存储又负责sql的解析优化,Spark负责执行。 这里原创 2021-03-27 18:33:45 · 424 阅读 · 0 评论 -
Hive on Spark 调优小结
Executor参数 spark.executor.cores 该参数表示每个Executor(任务) 可利用的CPU核心数。其值不宜设定过大,因为Hive的底层以HDFS存储,而HDFS有时对高并发写入处理不太好,容易造成race condition (竞争状态)。根据我们的实践,设定在3~6之间比较合理。 假设我们使用的服务器单节点有32个CPU核心可供使用。考虑到系统基础服务和HDFS等组件的余量,一般会将YARN NodeManager的yarn.nodemanager.resource.cpu-v原创 2021-04-06 16:54:39 · 314 阅读 · 0 评论