![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark Streaming
wppwpp1
这个作者很懒,什么都没留下…
展开
-
flink的写日志进程退出后,还是导致磁盘被假占用
1,查询相关进程写入日志信息lsof /streaming/ |grep '/streaming/hadoop/yarn/log'2,发现application_1573787044245_0061 应用占用大量磁盘空间3,把相关任务杀掉,重启任务,相关任务恢复原创 2020-07-26 16:46:29 · 287 阅读 · 0 评论 -
用sparkStreaming按天实时计算PV,UV,第二天自动清零
1,因业务需要,需要实时按天统计数据,pv,uv,同时第二天清零重新计算,主要分两步2,自定义source数据,也可以直接读取kafka的数据。import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.receiver.Receiverimport scala.reflect.ClassTagimport scala.util.Random/** * @Author: wpp *原创 2020-05-27 14:21:17 · 1157 阅读 · 0 评论 -
sparkStreaming的offset保存在redis中
实现功能:从kafka读取某一主题,消费者组的偏移量基于读出的offset,创建kafka读取流程把各个分区的偏移量 保存到redis。 import Kafka010.Utils.{MyKafkaUtils, RedisUtilsDemo}import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common....转载 2020-05-26 16:38:18 · 568 阅读 · 0 评论 -
flink为什么比spark处理速度快
1,flink是基于每条数据进行处理,只要来一条数据就会触发算子操作,而spark是基于微批的,只有达到批次时间才能触发,所以会慢2,原创 2020-05-24 20:21:07 · 3636 阅读 · 3 评论 -
spark Streaming 自定义source数据,并实时写入到clickhouse
1,自定义source,实时产生数据package com.crgt.gtdata.customimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.receiver.Receiver/** * @Author: wpp * @Date: 2020/5/4 23:36 * *///自定义数据源 wppclass CustomSourceReceiver() extend原创 2020-05-19 15:27:15 · 2729 阅读 · 1 评论 -
spark Streaming 自定义source产生随机数据进行测试
1,因业务需要,需要自己定义数据源,来一直产生数据,需要继承 Receiver类import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.receiver.Receiver/** * @Author: wpp * @Date: 2020/5/4 23:36 * *//...原创 2020-05-05 00:27:49 · 191 阅读 · 0 评论