spark
ZJ_2459
这个作者很懒,什么都没留下…
展开
-
学习spark过程中的一些个人总结
spark是一个与Hadoop数据兼容的快速通用处理引擎。它可以通过集群或spark的独立模式在Hadoop集群中运行特点:1、速度快:ApacheSPark使用最新的DAG调度程序、查询优化器和物理执行引擎(基于内存处理数据),实现了批处理和流数据的高性能2、易用性:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。3、通性...原创 2019-03-06 09:39:54 · 1769 阅读 · 0 评论 -
kafka的一些问题
1、kafka在高并发的情况下,如何避免消息丢失和消息重复?消息丢失解决方案:首先对kafka进行限速, 其次启用重试机制,重试间隔时间设置长一些,最后Kafka设置acks=all,即需要相应的所有处于ISR的分区都确认收到该消息后,才算发送成功消息重复解决方案:使用唯一id标识,选择唯一主键存储到外部介质(Redis或者mongdb)中,先查询是否存在,若存在则不处理;若不存在,先插入...原创 2019-03-07 14:17:47 · 290 阅读 · 0 评论