spark
稻草一根
这个作者很懒,什么都没留下…
展开
-
使用scala实现Akka底层的rpc通信
需求如下图:Master代码:package com.season.rpc.akkaimport akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collection.mutableimport scala.concurrent.duratio原创 2017-05-02 21:26:54 · 1520 阅读 · 0 评论 -
Scala使用SimpleDateFormat出现线程安全问题的解决办法
在使用Spark进行数据处理的时候,需要对数据中的时间进行格式化,我首先使用的是new SimpleDateFormat("yyyy年MM月dd日,E,HH:mm:ss"),因为每条数据都需要进行格式转换所以将转化过程疯转成一个工具类,为了避免频繁的NEW出对象,将new提到方法外面,但是在运行过程中出现了线程安全问题,因为Spark执行程序的时候是多线程处理的,所以,单纯的创建一个对象是不够的,原创 2017-05-28 14:49:21 · 1853 阅读 · 0 评论 -
SparkStreaming程序优化小记
最近公司部署了一个sparkstreaming程序,主要逻辑是处理flume采集到kafka的数据,集群环境3个nodemanager,5核20G内存,刚开始测试阶段并没设置资源配置,直接丢在yarn上运行,每天的数据量大概2500万records。测试几天后发现数据处理时间延迟稍微长了一点,怀疑是程序处理数据的数据低于数据产生的数据,随着时间和数据的增加,这个时间延迟越来越大,遂决定对程序进行相...原创 2018-06-14 17:39:39 · 3979 阅读 · 0 评论 -
记spark与kafka连接的报错:org.apache.spark.SparkException: Couldn't find leaders for Set([bat_model_task,0])
程序一直运行正常,服务器异常kafka断开了一个broker,重新启动后抛出下面异常:18/10/22 23:24:41 INFO YarnClientSchedulerBackend: Application application_1536983779148_0365 has started running.18/10/22 23:24:41 INFO Utils: Successfu...原创 2018-10-23 11:38:26 · 2347 阅读 · 0 评论