Spark
奔跑的小鲫鱼
关于学习Java的总结以及遇到的问题及解决方法的描述
展开
-
【spark】Spark的介绍、安装以及配置相关介绍
一、spark到底是什么?Apache Spark? is a unified analytics engine for large-scale data processing类似于Hadoop MapReduce 并行计算框架:分析处理海量数据与MapReduce相比:MapReduce:map,reduce函数 将分析的结果写入到磁盘中,并且后续需要处理数据,...原创 2018-07-24 00:51:05 · 317 阅读 · 0 评论 -
mapreduce与spark的区别--内容详细
Hadoop MapReduce采用了多进程模型,而Spark采用了多线程模型:Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用...转载 2018-07-26 14:26:14 · 36484 阅读 · 3 评论 -
Spark Streaming 和 Flink 的对比以及详细描述,图文对比、代码
本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Streaming 与 Flink,希望对有实时处理需求业务的企业端用户在框架选型有所启发。 一、编程模型对比 运行角色Spark Streaming 运行时的角色(standalone 模式)...转载 2018-08-07 15:05:58 · 1421 阅读 · 0 评论 -
Spark中的数据本地性
分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下。概念:block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 。。也就是说单个文件大于block的大小,肯定会被切分,被切分的数目大概是:比如文件是250M,block是64M,就会被分为4个block,64+64+64+58,最后一个block没有满,一个block只能有一...转载 2018-09-18 18:04:08 · 508 阅读 · 0 评论 -
Spark中如何管理Spark Streaming消费Kafka的偏移量
spark streaming 版本 2.1kafka 版本0.9.0.0在这之前,先重述下spark streaming里面管理偏移量的策略,默认的spark streaming它自带管理的offset的方式是通过checkpoint来记录每个批次的状态持久化到HDFS中,如果机器发生故障,或者程序故障停止,下次启动时候,仍然可以从checkpoint的目录中读取故障时候rdd的状态,便...转载 2018-09-18 18:06:31 · 536 阅读 · 0 评论