spark
zhangyingchengqi
学无止境。
展开
-
在idea中开发spark Streaming 整合 kafka要注意的版本问题
1. scala的版本选择. 请先到spark安装目录下 lib中查看此版本spark支持的scala版本.从上图可知,我的spark 2.0 的scala版本为 2.11.8.2。 到idea中创建项目,并设定当前的idea的版本.如果不是这个版本,可以在线通过idea的sbt自动下载一下,但请注意,这个下载会很慢,可以配置一下sbt的仓库位置( sbt的插件其实就是一个包管理工具,例如 java之maven、graddle 或者是 python 之 pip等).mac下的...原创 2020-06-04 23:23:47 · 507 阅读 · 0 评论 -
spark streaming从kafka 2.11中拉取数据的错误
spark streaming从kafka 2.11中拉取数据的错误:java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded accessjava.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access at org.apache.kafka.client原创 2020-06-04 23:15:31 · 731 阅读 · 0 评论 -
java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord
spark streaming 2.0 从kafka2.11中读取数据,出现以下错误java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecordSerialization stack: - object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord, value: ConsumerRecord(原创 2020-06-04 22:41:41 · 1256 阅读 · 0 评论 -
spark基础知识(转)
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-10-13 11:21:41 · 172 阅读 · 0 评论