spark
文章平均质量分 78
耀芽芽抱
"走过平湖烟雨,跨过岁月山河,我始终相信,那些历经劫数,尝遍百味的人,会更加生动而干净"
展开
-
Spark 练习测试题(答案仅供参考)
选择题1. spark 的四大组件下面哪个不是 (D)A.Spark Streaming B MLlib C Graph X D Spark R2. Hadoop框架的缺陷有 (ABC)A.表达能力有限,MR编程框架的限制B.过多的磁盘操作,缺乏对分布式内存的支持C.无法高效低支持迭代式计算D.海量的数据存储3. 与hadoop相比,Spark主要有以下哪些优点(ABCD)A. 提供多种数据集操作类型而不仅限于MapReduceB. 数据集中式计算而...原创 2021-07-05 23:51:57 · 18517 阅读 · 5 评论 -
pyspark:rdd.foreach(print)报错NameError
报错原因:应该是pyspark低里自带一个Python2版本,可以通升级pyspark自带的python版本来解决还有一个表现就是:当使用rdd.collect()时,会出现不正常的u字母[(u'DataStructure', 5), (u'Music', 1), (u'Algorithm', 5), (u'DataBase', 5)]如何查看是不是这个错误:在启动的时候可以看到你的python版本上图的python版本就是python 2.7.5解决方法:1.安装pytho原创 2021-05-04 22:11:32 · 3054 阅读 · 3 评论 -
Spark生态系统和运行架构
Spark是一个可应用于大规模数据处理的快速、通用引擎,spark提供了内存计算和基于DAG的任务调度机制。Spark最大的特点就是将计算数据、中间结果都存储在内存中,因此更适合于迭代运算。1.Spark 生态系统Spark 生态圈Spark设计遵循”一个软件栈满足不同应用场景“的理念,逐渐形成了一整套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即时查询(Spark SQL)、流计算(Spark Streaming)、机器学习(MLlib)和图计算(GraphX)等。Spark还可以.原创 2021-04-18 15:56:43 · 2476 阅读 · 0 评论 -
Spark本地模式搭建(local模式)
1.下载安装包官网:https://spark.apache.org/选择Download原创 2021-04-08 17:28:29 · 478 阅读 · 0 评论