基于大数据的MapReduce应用实践与网站用户行为分析

本文详细介绍了基于Hadoop的MapReduce实现WordCount的全过程,包括Python编写map和reduce函数,本地测试,上传到HDFS,设置环境变量,提交任务等步骤。同时,文章还涉及了网站用户行为分析,通过Hive进行数据预处理,数据导入导出,并在Hive、MySQL和HBase间进行数据交互,展示了MapReduce在大数据分析中的应用。
摘要由CSDN通过智能技术生成

基于大数据的MapReduce应用实践与网站用户行为分析

目录
一、MapReduce应用实践
二、网站用户行为分析
三、课程结论与心得

一、MapReduce应用实践
1、功能描述
在Hadoop上用Python实现WordCount
2、操作实践
1).步骤
A.步骤1:编写map函数,并增加可执行权限
B.步骤2:编写reduce函数,并增加可执行权限
C.步骤3:本地上测试运行map和reduce代码
D.步骤4:下载测试的文本文件并且上传到hdfs上
E.步骤5:设置环境变量
F.步骤6:提交任务
G.步骤7:查看结果

2).操作过程
A.步骤1:编写map函数,并增加可执行权限
1)步骤1
创建一个mapper.py脚本,从标准输入(stdin)读取数据,默认以空格分隔单词,然后按行输出单词机器词频到标准输出(stdout),整个Map处理过程不会统计每个单词出现的总次数,而是直接输出“word 1”,以便作为Reduce的输入进行统计,确保该文件是可执行的(chmod +x /home/hadoop/wc/mapper.py)。
2)操作截图
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

B.步骤2:编写reduce函数,并增加可执行权限
1)步骤2
创建一个reducer.py脚本,从标准输入(stdin)读取mapper.py的结果,然后统计每个单词出现的总次数并输出到标准输出(stdout),确保该文件是可执行的(chmod a+x /home/hadoop/wc/reducer.py)

3)操作截图
在这里插入图片描述

添加代码:
在这里插入图片描述

C.步骤3:本地上测试运行map和reduce代码
1)步骤3
在Hadoop平台运行之前在本地测试,校验mapper.py与reducer.py运行的结果是否正确。注意:测试reducer.py时需要对mapper.py的输出做排序(sort)操作,不过,Hadoop环境会自动实现排序。
#这里注意:利用管道符“|”将输出数据作为mapper.py这个脚本的输入数据,并将mapper.py的数据输入到reducer.py中,其中参数sort -k 1,1是将reducer的输出内容按照第一列的第一个字母的ASCII码值进行升序排序。

2)操作截图
在这里插入图片描述

D.步骤4:下载测试的文本文件并且上传到hdfs上
1)步骤4相关描述
mapper.py, reducer.py本地测试通过之后放到HDFS上运行,下载文本文件然后上传到hdfs上
2)操作截图
在这里插入图片描述
在这里插入图片描述
<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值