![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
文章平均质量分 53
茶冻茶茶
这个作者很懒,什么都没留下…
展开
-
Spark期末复习--容易遗漏的知识点
Spark主要有以下3个特点:spark提供了高级API,开发者只需专注于应用计算本身即可,不用关注集群。spark计算速度快,支持交互式计算和复杂算法。spark是一个通用引擎,可用它来完成各种运算,包括SQL查询、文本处理、机器学习、实时流处理等。spark与hadoop的区别和联系(1)解决问题的方式不同。hadoop是一个分布式数据基础架构,它将巨大的数据集分派到一个集群中,由其中多个节点进行存储,用户不需要专门购买昂贵的服务器硬件,且hadoop还会对这些数据进行排序和跟踪。sp原创 2021-12-21 15:58:49 · 1087 阅读 · 0 评论 -
Spark期末复习--机器学习算法库
spark机器学习常用库原创 2021-12-21 09:00:30 · 2027 阅读 · 0 评论 -
Spark期末复习--SparkSQL
Spark SQL是由DataFrame派生出来的,通过三步创建使用创建DataFrame将DataFrame注册成临时表使用临时表进行查询统计使用RDD创建DataFramefrom pyspark.sql import SparkSessionsqlContext = SparkSession.builder.getOrCreate()定义DataFrame的每一个字段名和数据类型from pyspark.sql import RowsaleRows = salesRDD.map原创 2021-12-17 22:25:54 · 1724 阅读 · 0 评论 -
Spark 期末复习--RDD总结(包含经典练习题)
什么是RDD?spark处理数据时,会将一整块数据分割成多个分块数据块,这些分块数据块组成的集合,称为RDD(Resilient Distributed Datasets)。RDD是一种可扩展的弹性分布式数据集,是Spark最基本的数据抽象,表示一个只读、且分区不变的数据集合,是一种分布式的内存抽象,不具备schema的数据结构,可以基于任何数据结构创建。弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许原创 2021-12-14 10:12:29 · 4686 阅读 · 0 评论