大数据
文章平均质量分 96
广阔无垠
这个作者很懒,什么都没留下…
展开
-
调用MapReduce对文件中各个单词出现次数进行统计
调用MapReduce对文件中各个单词出现次数进行统计一、安装Linux二、准备工作2.1 创建Hadoop账户2.2 更新apt2.3 安装vim2.4 配置SSH三、安装Java3.1 安装JDK3.2 设置JAVA环境变量四、安装Hadoop4.1 配置环境变量和进行伪分布式操作4.2 格式化 NameNode4.3 开启NameNode和DataNode守护进程4.4 校验安装五、调用MapReduce执行WordCount对单词进行计数5.1 准备工作(确保安装好eclipse和下载好hadoop原创 2021-06-09 23:37:43 · 1889 阅读 · 3 评论 -
调用Spark对2020年美国新冠肺炎疫情数据分析
调用Spark对2020年美国新冠肺炎疫情数据分析一、实验环境1.Linux系统2.编程环境二、数据集2.1 数据集下载2.2 格式转换2.3 将文件上传至HDFS文件系统中三、使用Spark对数据进行分析3.1 完整代码3.2 读取文件生成DataFrame3.3 进行数据分析3.4 结果文件四、数据可视化4.1 可视化工具选择与代码4.2 结果图标展示五.总结六.参考资料(包含资源下载地址)本案例以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言,使用Spark对数据进行分析,并对原创 2021-06-09 23:35:55 · 1676 阅读 · 1 评论