Spark
潘书鹏的BigData
用双手改造世界!!!
展开
-
Spark MLlib
基本概念1. 项不项集这是一个集合的概念,在一篮子商品中的一件消费品即一项(item),则若干项的集合为项集,如{啤酒,尿布}构成一个二元项集。2. 关联规则关联规则用亍表示数据内隐含的关联性,例如表示购买了尿布的消费者往往也会购买啤酒。关联性强度如何,由3 个概念,即支持度、置信度、提升度来控制和评价。3. 支持度(support)支持度是指在所有项集中{X, Y}出现的可能性,即项集中同时含有X 和Y 的概率:设定最小阈值为5%,由亍{尿布,啤酒}的支持度为800/10000=8%原创 2020-10-24 11:51:44 · 285 阅读 · 0 评论 -
Spark 的两种 Shuffle
文章目录1. HashShuffle1. 优化前2. 优化后2. SortShuffle1. 普通运行机制2. bypass运行机制1. HashShuffle1. 优化前1. shuffle write阶段,主要就是在一个stage结束计算之后,为了下一个stage可以执行shuffle类的算子(比如reduceByKey),而将每个task处理的数据按key进行“划分”。所谓“划分”,就是对相同的key执行hash算法,从而将相同key都写入同一个磁盘文件中,而每一个磁盘文件都只属于下游st原创 2020-05-31 14:23:30 · 827 阅读 · 1 评论