![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 83
hadoop程序猿
爸爸的爸爸是爷爷
展开
-
从数据库的聚合到shuffle
前言:数据库怎么实现聚合?看过《数据库系统实现》第四章的话,知道有基于散列和基于排序的2种方式,散列理解成hash即可,散列和排序很容易联想到mr的shuffle和spark的shuffle,所以本篇只是很肤浅的...原创 2020-12-09 10:41:14 · 518 阅读 · 0 评论 -
spark一次倾斜引发的思考
场景:1大2小表关联其中a表4亿+行,300G左右,b表几w行,17M左右,c表几十w行,90M左右其中b为维表,c为a的子集,a、c以a主键关联,a、b为维度关联原创 2020-08-10 15:53:41 · 382 阅读 · 0 评论 -
spark消费kafka(cdh启用kerberos)
不生产博客,只是别人博客的裁缝一入kerberos深似海,从此节操是个玩意儿之前写过一篇spark消费kafka问题记录(cdh5.16.2),主要记录了安装spark2后,spark的问题,和本地可以执行,而一提集群缺包的问题,这篇主要记录下启用kerberos后的一些问题版本信息如下集群启用kerberos后,想用命令行测下kafkakafka-topics --cre...原创 2019-11-01 16:12:50 · 1496 阅读 · 0 评论 -
CDH 5.14x 配置hive on spark
cdh版本为5.14网上搜hive on spark大都5.9之前或更早,看着挺麻烦的话不多说首先在CDH界面,hive配置搜索execution默认时MR,选spark就ok了然后提示过期配置重启服务,重启的话重启失败,报如下错误还需要配置服务依赖,找到下面这个默认时none,选择spark,重启就ok了。进hive cli,随便执行一个sql语句...原创 2019-03-04 15:00:40 · 2288 阅读 · 4 评论 -
spark sql 官网示例
目录 1.Dataset/Dataframe基本操作2.RDD转Dataset/Dataframe3.不同数据集对于spark,无论core还是streaming,亦或sql,structed streaming最好的资料就是官网示例+源码本人的spark sql的学习路线是1.官网示例(入门,了解)2.Dataset/Dataframe的各个方法(...原创 2019-03-20 21:08:57 · 1432 阅读 · 0 评论 -
spark sql Dataset&Dataframe算子大全
目录Dataset&DataframeRDD,Dataset,Dataframe互相转换Dataset&Dataframe算子show()na() 返回包含null值的行stat()sortWithinPartitions()sort()&order by()hint()selectExpr()filter&w...原创 2019-03-20 21:35:52 · 5346 阅读 · 0 评论 -
spark sql join
目录join的类型join的重载方法join示例inner joinouter join&full join&fullouter joinleft join & leftouter joinright join& rightouter joinleftsemi joinleftanticross joinjoin的类...原创 2019-03-20 21:55:54 · 861 阅读 · 0 评论 -
CDH 5.14x 配置spark sql查询hive
配置idea spark sql连接hive1.首先将/etc/hive/conf/的hive-site.xml复制到项目的resources下2.添加maven依赖到pom.xml文件,不仅需要添加spark-sql,还需要添加spark-hive,spark版本2.2.0,scala版本2.10 <!-- https://mvnrepository.co...原创 2019-03-13 14:03:54 · 1772 阅读 · 0 评论 -
spark RDD算子大全
目录map()&&flatMap()map()&&mapPartitions()mapPartitionsWithIndex()filter()take()&&takeOrdered()&&top()&&first()sample()&&takeSample()union()...原创 2018-09-25 16:32:11 · 4768 阅读 · 0 评论 -
spark RDD源码
spark发展至今,核心设计没什么大变化,如果想快速了解底层实现,可以去看早期的源码,Branch-0.5分支的,https://github.com/apache/spark/tree/branch-0.5,github直接可以找到,相比spark2.x源码的庞大,动辄几十个包,早期的除了注释少点之外,读起来没大的挫败感。目录#源码-RDD的5个特征#源码-RDD的特征一S...原创 2018-12-05 16:17:09 · 744 阅读 · 0 评论 -
spark streaming DStream算子大全
DStream作为spark 流处理的数据抽象,有三个主要的特征:1.依赖的DStream的列表2.DStream生成RDD的时间间隔3.用来生成RDD的方法本篇pom.xml文件spark streaming版本为1.6.0目录window()reduceByWindow()countByWindow()countByValueAndWindow()red...原创 2018-11-05 17:50:10 · 2741 阅读 · 0 评论 -
spark job提交流程源码
目录 #Job提交流程概览#Task类型1.Task2.DAGTask3.ResultTask4.ShuffleMapTask#Stage划分sc.runJobDAGScheduler.runJobsubmitStage()getMissingParentStages()getShuffleMapStage()#Task提交submitM...原创 2018-12-05 16:57:28 · 286 阅读 · 0 评论