spark
知足但小新
这个作者很懒,什么都没留下…
展开
-
序列化特点(jdk的serializable,Hadoop的writeble,Spark引用框架kryo)
序列化概念 (Serialization)将对象的状态信息通过某种编码转化为二进制,可以存储或传输。序列化的好处和目的:实现了数据的持久化,通过序列化可以把数据永久的保存再硬盘上,通常是存在文件中;利用序列化实现远程通信,在网络上传送对象的字节序列,将对象从一个地方传递到另一个地方,eg:spark程序中将一个driver端的实例对象传送到executor中执行,此对象必须可序列化;– 序列化: 把对象转成字节序列;– 反序列化: 把字节序列转化为对象;– 持久化: 把内存数据存储到磁原创 2020-09-05 21:54:09 · 302 阅读 · 0 评论 -
Spark---IP归属地案例(广播变量,单例对象)
简介 access.log是电信运营商的用户上网数据;20090121000138654752000|123.197.46.211|www.45yo.cn|/|Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)||cck_lasttime=1232466678832; cck_count=020090121000138986515000|115.120.3.48|www.kujue.com|/modules/arti...原创 2020-08-17 22:05:31 · 362 阅读 · 0 评论 -
scala 自定义排序详解
scala 自定义排序详解学大数据,选多易!!!背景:使用RDD的sortBy或sortByKey方法进行排序,根据需求实现灵活的排序规则。场景:有一组数据类型是(姓名,工龄,工资),想按照分数降序,姓名升序进行排序。方式一:利用元组的排序规则特点元组排序规则:先比较第一个字段,相等再比较第二个字段,第二个相等再比较第三个字段........object MySort1 { def main(args: Array[String]): Unit = { val co原创 2020-08-15 21:06:18 · 844 阅读 · 0 评论 -
Spark 中cache和persist详解
cachecache: 缓存,可以将数据缓存到内存或持久化到磁盘[executor所在的磁盘] 。cache和persist严格来说不是transformation,也不是action,因为没有生成新的RDD,只是标记了当前RDD要cache或persist。cache和persist是lazy的,当第一次遇到Action算子的时侯才会进行缓存或持久化,以后再触发Action会读取、复用缓存的RDD的数据再进行操作。cache底层调用了persist方法;def persist():原创 2020-08-14 14:18:39 · 2235 阅读 · 0 评论