spark
wppwpp1
这个作者很懒,什么都没留下…
展开
-
spark与hive集成的问题
ambari默认安装的spark,是无法访问hive的。需要把 /etc/hive/conf 中的 hive-site.xml 移到spark的conf目录下并修改以下配置hive.strict.managed.tables=falsehive.create.as.insert.only=falsemetastore.create.as.acid=falsehive.load.data.owner=admin------------如果想在本地调试spark访问hive读取数...原创 2020-09-03 01:14:38 · 548 阅读 · 0 评论 -
用sparkStreaming按天实时计算PV,UV,第二天自动清零
1,因业务需要,需要实时按天统计数据,pv,uv,同时第二天清零重新计算,主要分两步2,自定义source数据,也可以直接读取kafka的数据。import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.receiver.Receiverimport scala.reflect.ClassTagimport scala.util.Random/** * @Author: wpp *原创 2020-05-27 14:21:17 · 1140 阅读 · 0 评论 -
flink为什么比spark处理速度快
1,flink是基于每条数据进行处理,只要来一条数据就会触发算子操作,而spark是基于微批的,只有达到批次时间才能触发,所以会慢2,原创 2020-05-24 20:21:07 · 3574 阅读 · 3 评论 -
sparkSQL 读取本地文件,写入到hive
1,因业务需要,把本地的文件根据相关表需要导入到hive中,具体代码如下:import com.alibaba.fastjson.{JSON, JSONException, JSONObject}import com.crgt.bigdata.CarLogToHdfs.FlowReportimport org.apache.hadoop.fs.Pathimport org.apach...原创 2020-05-08 14:35:09 · 1606 阅读 · 0 评论 -
spark2.3.3 源码编译
spark 源码编译原创 2020-05-05 10:47:55 · 175 阅读 · 0 评论 -
spark Streaming 自定义source产生随机数据进行测试
1,因业务需要,需要自己定义数据源,来一直产生数据,需要继承 Receiver类import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.receiver.Receiver/** * @Author: wpp * @Date: 2020/5/4 23:36 * *//...原创 2020-05-05 00:27:49 · 187 阅读 · 0 评论 -
spark读取clickhouse报错修复
错误信息如下:Jun 28, 2017 2:06:58 PM com.turo.pushy.apns.SslUtil getSslProviderINFO: Native SSL provider not available; will use JDK SSL provider.Exception in thread "main" java.lang.NoClassDefFoundErr...原创 2020-04-09 21:25:01 · 1735 阅读 · 0 评论