pyspark
python_cat_d
这个作者很懒,什么都没留下…
展开
-
pyspark初步接触
Apache Spark Apache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。 Spark提供了一个接口,用于编程具有隐式数据并行和容错功能的集群。 下面是Apache Spark的一些特性,它比其它的大数据框架的优势在于: 1、速度:比传统的大型数据处理框架快100倍。 2、强大的缓存:简单的编程层提供了强大的缓存和磁盘持久性功能。...翻译 2019-07-01 16:13:48 · 109 阅读 · 0 评论 -
pyspark---RDD
简单介绍 谈到spark大家都可以想到RDD,它是spark必不可少的一部分,在我看来他是spark数据处理的基础之一给大家简单介绍一下吧。 RDD RDD又叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能...原创 2019-07-01 16:30:43 · 142 阅读 · 0 评论