笔记
^LiuYttt
这个作者很懒,什么都没留下…
展开
-
Spark RDD与DataFrame的区别与联系
区别:RDD是分布式的java对象的集合,但是对象内部结构对于RDD而言却是不可知的。DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息,相当于关系数据库中的一张表联系1.都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action才会运算3.都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出4、三者都有partition的概念5.三者有许多共.原创 2021-12-20 21:04:35 · 2530 阅读 · 0 评论 -
Scala语言中的apply()方法作用
最主要的是 结合伴生对象,利用伴生对象 是object单例静态对象 不用实例化,来构建工厂模式,创建实例化对象。即实现: " val 实例对象 = 类名(参数) " 这种函数式编程的风格实现 实例化对象。。。实现多范式编程,保持对象和函数之间使用的一致性用户在创建类的实例时,无需使用new关键字,而是使用伴生对象中的apply方法,实现解耦3....原创 2021-11-19 20:50:21 · 584 阅读 · 0 评论 -
Apriori算法(经典的发现频繁项目集算法)分析
基本概念I是一个项目集合,事务数据库D是由一系列具有唯一标识TID的事务组成,每个事务t都对应I上的一个子集支持度:项目集I1在数据集D上的支持度是包含I1的事务在D中所占的百分比频繁项目集:对项目集I和事务数据库D,T中所有满足用户指定的最小支持度的项目集,即大于或等于minsupport的I的非空子集最大频繁项目集:在频繁项目集中挑出所有不被其他元素包含的频繁项目集规则的可信度:包含I1,I2的事务数与包含I1的事务数之比强关联规则:D在I上满足最小支持度和最小信任度的关联规则关连规则原创 2021-11-18 10:34:16 · 4140 阅读 · 3 评论 -
基于MapReduce的词频统计过程分析
问题提出:假设HDFS中/user/hadoop/input文件夹下有文件wordfile1.txt和wordfile2.txt。现在需要设计一个词频统计程序,统计input文件夹下所有文件中每个单词的出现次数。运行过程:1.Map输入<key,value>形式,即map第一个任务:<1,I love spark><1,I love hadoop>map第二个任务:<1,hadoop is good><2,spark is fas原创 2021-11-17 20:59:00 · 3449 阅读 · 0 评论