- 博客(2)
- 收藏
- 关注
原创 基于Python语言的Spark数据处理分析——2020年美国新冠肺炎疫情数据分析
基于Python语言的Spark数据处理分析——2020年美国新冠肺炎疫情数据分析目录基于Python语言的Spark数据处理分析——2020年美国新冠肺炎疫情数据分析一、实验环境二、数据集1.数据集下载来源2.转换文件格式3.上传文件至HDFS文件系统三、使用Spark进行数据分析1.读取文件并生成DataFrame2.采用python编程语言进行数据分析3.将HDFS上结果文件保存到本地文件系统四、数据可视化1.可视化工具2.数据可视化代码3.可视化结果五、总结六、参考材料一、实验环境(1)操作系
2021-06-06 23:58:22
3823
3
原创 基于Hadoop环境下调用MapReduce统计txt文件中各单词出现的次数
基于Hadoop环境下调用MapReduce统计txt文件中各单词出现的次数目录一、环境二、安装Hadoop三、搭建Hadoop1.创建hadoop用户2.更新apt3.安装vim4.安装并配置SSH四、安装Java环境1.手动安装JDK2.设置环境变量五 、安装并配置Hadoop1.安装Hadoop2.Hadoop伪分布式配置六、调用MapReduce执行WordCount进行单词计数1.前期准备工作2.安装Eclipse3.安装及配置Hadoop-Eclipse-Pl
2020-12-21 12:15:07
825
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人