![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Jimi编程2016
不积跬步无以至千里!
展开
-
什么是RDD
全称是Resilient Distributed Datasets(弹性分布式数据集)RDD官方的定义:A Resilient Distributed Dataset:一个弹性分布式的数据集合;A list of partitions:它是一个partitions的集合(List)A function for computing each split:用于计算每个拆分的函数;RDD里面的数...原创 2019-03-14 11:34:28 · 225 阅读 · 0 评论 -
RDD的transformaction算子官网直译
map(func) -----> 映射(函数)使用方法:返回通过函数传递源的每个元素所形成的新的分布式数据集。函数.filter(func) -----> 过滤器(函数)使用方法:返回一个新的数据集,该数据集是通过选择其上的源元素而形成的。函数返回真。flatMap(func) -----> flatMap(函数)...原创 2019-03-14 12:08:30 · 147 阅读 · 0 评论 -
DataFrame的基本操作函数
Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList()返回值是一个java类型的数组,返回dataframe集合所有的行 3、 count()返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*)返回一个通过数学计算的类表值(count, mean...转载 2019-03-21 08:56:22 · 2611 阅读 · 0 评论 -
ActiveMQ ,RabbitMQ ,KafKa对比
ActiveMQ和 RabbitMq 以及Kafka在之前的项目中都有陆续使用过,当然对于三者没有进行过具体的对比,以下摘抄了一些网上关于这三者的对比情况,我自己看过之后感觉还是可以的,比较清晰的反馈了这三个的具体情况已经使用场景,具体的对比如下:1)TPS比较:Kafka最高,RabbitMq 次之, ActiveMq 最差。2)吞吐量对比:kafka具有高的吞吐量,内部采用消息的批量...转载 2019-03-29 12:41:05 · 298 阅读 · 0 评论 -
Apache Spark的三种分布式部署方式
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一...转载 2019-05-06 20:28:46 · 166 阅读 · 0 评论 -
spark比hadoop快的原因
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。其实,关键还是在于Spark 本身快。Spark为什么快?1、消除了冗余的HDFS读写Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用。如...转载 2019-05-07 19:30:02 · 1126 阅读 · 0 评论