MapReduce
wlk_328909605
抱你于怀,寄你于心。跃然屏上,付我青春韶华,换你真情相待。
展开
-
茄子快传数据分析之原理分析及数据清洗
需求:联想集团有一款app产品叫茄子快传(有上亿的活跃用户,集中在第三世界国家) 现在需要开发一个数据分析系统,来对app的用户行为数据做各类分析;原理: 流程如下图: 流程简单介绍: 用户通过茄子的客户端产生数据, 将使用时间,手机号,ip地址,手机的序列号,app的版本,app的下载渠道等重要信息上传到联想的web日志服务器上,服务器的后台系统打印出日志文件,通过flume(...原创 2018-08-30 20:30:34 · 11901 阅读 · 0 评论 -
MapReduce实现求各个省份的上下行流量
需求:实现文件拼接,通过文件中的相同的字段,做成key,将整行数据做成value,通过新建的JavaBean实现。 代码:`package com.liuliang;import java.io.BufferedReader; import java.io.File; import java.io.IOException; import java.io.InputStreamReade...原创 2018-08-27 21:47:45 · 234 阅读 · 0 评论 -
MapReduce运行流程和Yarn处理流程
1.首先从代码说起,MapTask类中有四个方法可以被重写,cleanup,map,run,setup setup的主要作用是加载一些资源,或者是在map阶段只需要一次运行的东西。 map主要负责处理数据 cleanup负责清理资源,释放资源 run负责调度这三个方法。ReduceTask类中也类似。2.MapReduce运行流程 可能文件的内容比较大,所以先将文件切...原创 2018-08-25 19:42:18 · 1433 阅读 · 0 评论 -
MapReduce函数实现WordCount
简单介绍下词频分析,就是统计一个文件中的字段名的出现的次数。 实现过程: 1.创建maven工程 在pom.xml中加入配置信息 以下内容可以在maven 中心仓库中找到<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependency&gt...原创 2018-08-22 18:43:48 · 514 阅读 · 0 评论