基于大数据的MapReduce应用实践与网站用户行为分析

最新推荐文章于 2023-06-20 18:57:26 发布

小明爱學習

最新推荐文章于 2023-06-20 18:57:26 发布

阅读量355

点赞数 2

文章标签：大数据 mapreduce hadoop

本文链接：https://blog.csdn.net/weixin_48676558/article/details/130463263

版权

本文详细介绍了基于Hadoop的MapReduce实现WordCount的全过程，包括Python编写map和reduce函数，本地测试，上传到HDFS，设置环境变量，提交任务等步骤。同时，文章还涉及了网站用户行为分析，通过Hive进行数据预处理，数据导入导出，并在Hive、MySQL和HBase间进行数据交互，展示了MapReduce在大数据分析中的应用。

摘要由CSDN通过智能技术生成

基于大数据的MapReduce应用实践与网站用户行为分析

目录
一、MapReduce应用实践
二、网站用户行为分析
三、课程结论与心得

一、MapReduce应用实践
1、功能描述
在Hadoop上用Python实现WordCount
2、操作实践
1).步骤
A.步骤1：编写map函数，并增加可执行权限
B.步骤2：编写reduce函数，并增加可执行权限
C.步骤3：本地上测试运行map和reduce代码
D.步骤4：下载测试的文本文件并且上传到hdfs上
E.步骤5：设置环境变量
F.步骤6：提交任务
G.步骤7：查看结果

2).操作过程
A.步骤1:编写map函数，并增加可执行权限
1)步骤1
创建一个mapper.py脚本，从标准输入(stdin)读取数据，默认以空格分隔单词，然后按行输出单词机器词频到标准输出(stdout)，整个Map处理过程不会统计每个单词出现的总次数，而是直接输出“word 1”,以便作为Reduce的输入进行统计，确保该文件是可执行的（chmod +x /home/hadoop/wc/mapper.py)。
2)操作截图
在这里插入图片描述

B.步骤2:编写reduce函数，并增加可执行权限
1)步骤2
创建一个reducer.py脚本，从标准输入(stdin)读取mapper.py的结果，然后统计每个单词出现的总次数并输出到标准输出(stdout)，确保该文件是可执行的（chmod a+x /home/hadoop/wc/reducer.py)

3)操作截图
在这里插入图片描述

添加代码：
在这里插入图片描述

C.步骤3:本地上测试运行map和reduce代码
1)步骤3
在Hadoop平台运行之前在本地测试，校验mapper.py与reducer.py运行的结果是否正确。注意：测试reducer.py时需要对mapper.py的输出做排序(sort)操作，不过，Hadoop环境会自动实现排序。
#这里注意：利用管道符“|”将输出数据作为mapper.py这个脚本的输入数据，并将mapper.py的数据输入到reducer.py中，其中参数sort -k 1,1是将reducer的输出内容按照第一列的第一个字母的ASCII码值进行升序排序。

2)操作截图
在这里插入图片描述