![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
cherish-zp
A man seeking for wisdom .
展开
-
spark 自定义数据源
1、创建hbase数据源表node1> bin/hbase shellcreate 'spark_hbase_sql','cf'put 'spark_hbase_sql','0001','cf:name','zhangsan'put 'spark_hbase_sql','0001','cf:score','80'put 'spark_hbase_sql','0002','cf:n...原创 2020-04-28 10:05:57 · 1255 阅读 · 1 评论 -
hive 自定义 udf udtf 函数
hive 自定义UDF 函数package com.atguigu.udf;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;/** * @author cherish * @create 2020-0...原创 2020-04-20 18:09:58 · 193 阅读 · 0 评论 -
spark的map和mapPartitions
1、map是对数据1对1的遍历,传输效率相对比较差,相比起mapPartitions不会出现内存溢出2、mapPartitions 对一个rdd里所有分区遍历 效率优于map算子,减少了发送到执行器执行的交互次数,mapPartitions是批量将分区数据一次发送 但是执行器内存不够的则可能会出现内存溢出(OOM) 假设有N个元素,有M个分区,那么map的函数的将被...原创 2020-04-12 21:30:10 · 282 阅读 · 0 评论 -
spark 累加器 ,共享变量
spark中 3大数据结构RDD : (弹性分布,分布式数据集)广播变量 : 分布式的 只读共享变量累加器 : 分布式的只写共享变量 在某些情况下用rdd计算不是很好,所以有了 广播变量和累加器 例: val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2) ...原创 2020-04-10 10:58:32 · 159 阅读 · 0 评论