- 博客(2)
- 收藏
- 关注
原创 2021-06-10
1、需求描述本次实验需要在linux下完成RDD编程并熟悉Spark的RDD基本操作,编写代码来完成下面的三个问题1.pyspark交互式编程本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……请根据给定的实验数据,在pyspark中通过编程来
2021-06-10 12:58:03
888
2
原创 期末大作业关于利用hadoop来统计单词数目
声明本次大作业的内容是分析10000英文单词上传到HDFS该次大作业需要在虚拟机利用Hadoop,MapReduce,Eclipse等1.安装hadoop检查hadoop是否安装成功启动Hadoop检验hadoop是否成功启动将下好的单词文本文件给放到hadoop demoword.txt创建MapReduce项目首先,点击File菜单,选择New——Project选择Map/Reduce Project填写项目名称,此处用本实验WordCount作为项目名。填写完后点击
2020-12-20 18:41:40
382
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人