Spark
我係外星人
我真的很懒,什么都没有留下啊~
展开
-
RDD的partition通俗易懂的介绍
RDD是什么?弹性分布式数据集。弹性:并不是指他可以动态扩展,而是血统容错机制。分布式:顾名思义,RDD会在多个节点上存储,就和hdfs的分布式道理是一样的。hdfs文件被切分为多个block存储在各个节点上,而RDD是被切分为多个partition。不同的partition可能在不同的节点上。在spark读取hdfs的场景下,spark把hdfs的block读到内存就会抽象为spark的pa...转载 2019-05-16 08:14:33 · 1105 阅读 · 0 评论 -
spark初步理解和认识
了解spark前应学习hadoop体系和scala语言1. 概念Spark是一种快速、通用、可扩展的大数据分析引擎spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目**2.**Spark特点2.1****快与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬...原创 2019-05-23 10:27:30 · 279 阅读 · 0 评论 -
spark core试题
(第八题后续补上)spark任务程序,将任务提交集群运行。(参数指定)(10)spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \./examples/jars/spark-examples_2.11-2.1.1.jar \ 100...原创 2019-05-23 10:59:55 · 769 阅读 · 0 评论 -
RDD转换成DataFrame的两种方式(分别用Java和scala实现)
一:准备数据源 在项目下新建一个student.txt文件,里面的内容为:1,zhangsan,202,lisi,213,wanger,194,fangliu,18二:实现Java版:1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下:import java.io.Serializable; public cla...转载 2019-05-23 11:56:09 · 291 阅读 · 0 评论 -
streaing-kafka
Kafka-消费模型High Level Consumer API不需要自己管理offset默认实现最少一次消息传递语义(At least once)comsumer数量 大于 partiton数量, 浪费。comsumer数量 小于 partiton数量, 一个comsumer对应多个partiton最好partiton数目是consumer数目的整数倍Low Level Cons...原创 2019-05-28 19:37:33 · 272 阅读 · 0 评论