- 博客(2)
- 收藏
- 关注
原创 基于Python语言的Spark数据处理分析——2020年美国新冠肺炎疫情数据分析
基于Python语言的Spark数据处理分析——2020年美国新冠肺炎疫情数据分析 目录基于Python语言的Spark数据处理分析——2020年美国新冠肺炎疫情数据分析一、实验环境二、数据集1.数据集下载来源2.转换文件格式3.上传文件至HDFS文件系统三、使用Spark进行数据分析1.读取文件并生成DataFrame2.采用python编程语言进行数据分析3.将HDFS上结果文件保存到本地文件系统四、数据可视化1.可视化工具2.数据可视化代码3.可视化结果五、总结六、参考材料 一、实验环境 (1)操作系
2021-06-06 23:58:22
4368
3
原创 基于Hadoop环境下调用MapReduce统计txt文件中各单词出现的次数
基于Hadoop环境下调用MapReduce统计txt文件中各单词出现的次数 目录 一、环境 二、安装Hadoop 三、搭建Hadoop 1.创建hadoop用户 2.更新apt 3.安装vim 4.安装并配置SSH 四、安装Java环境 1.手动安装JDK 2.设置环境变量 五 、安装并配置Hadoop 1.安装Hadoop 2.Hadoop伪分布式配置 六、调用MapReduce执行WordCount进行单词计数 1.前期准备工作 2.安装Eclipse 3.安装及配置Hadoop-Eclipse-Pl
2020-12-21 12:15:07
1161
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅