Spark
文章平均质量分 93
奥卡姆的剃刀
GitHub: https://github.com/LeronQ
展开
-
Spark高级算子:mapPartitionsWithIndex,aggregate,aggregateByKey
1:mapPartitionsWithIndex:对RDD中的每个分区(带有下标)进行操作,通过自己定义的一个函数来处理API文档:def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U])def mapPartitions[U](f: (Iterator[T]) ...原创 2019-08-17 12:56:24 · 7049 阅读 · 1 评论 -
Spark:RDD简介及基础算子
本文主要介绍Spark Core的核心内容:RDD。包含以下章节和对应的内容章节 内容 1 RDD简介 2 RDD分区 3 RDD的依赖关系 4 RDD的缓存机制和区别 5 RDD创建的两种方式 6 RDD算子和总结 7 RDD 算子操作案例 1、RDD简介RDD(Resilient Distribute...原创 2019-08-10 11:38:23 · 5604 阅读 · 0 评论 -
SparkSQL集成Hive
(1)相关配置:将以下文件拷贝到 $SPARK_HOME/conf 目录下Hive: hive-site.xmlHadoop: core-site.xml和hdfs-site.xml同时,启动Spark shell 的时候,需要制定mysql的驱动首先查看core-site.xml,hdfs-site.xml,hive-site.xml(2)拷贝mys...原创 2019-08-05 16:37:47 · 4162 阅读 · 2 评论 -
Win10 安装scala并配置环境变量步骤---附图
Win10 安装scala并配置环境变量主要步骤:下载scala软件包解压到文件夹配置环境变量1:下载软件包去官网下载windows环境下的scala安装包。官网地址:https://www.scala-lang.org/可选择项:注:本文选择scala-2.11.8版本2:解压安装将下载好的scala版本解压,放在D盘。注意:安装scala之前,必须安装java ...原创 2019-04-23 15:23:28 · 10358 阅读 · 0 评论 -
大数据组件Presto,Spark SQL,Hive相互关系
大数据组件Presto,Spark SQL,Hive相互关系工作上经常写SQL,有时候会在Presto上查表,或者会Presto web页面上写SQL语句。而有时候会在堡垒机上的服务器利用Spark在Yarn模式下写SQL语句,而有时候查询耗时比较低的情况下,直接利用hive -e 命令直接写SQL。也就是说:在Spark ,Hive,Presto都可以写SQL 的,但是这三者之间有什么区别或者...原创 2019-01-10 11:21:36 · 20720 阅读 · 0 评论