大数据
CodeGuN
道阻且长
展开
-
MapReduce之间的嵌套应用
参考:https://blog.csdn.net/u010521842/article/details/75042771 感谢博主多个MapReduce之间的嵌套在Coding过程中发现,大多数时候需要使用到MapReduce的嵌套运行在网上搜了好久才找到详细合适的方案,记录下来。根据log日志计算log中不同的IP地址数量是多少字段使用Tab分割实现方法任务分为两个MR过程,...转载 2020-01-16 23:03:02 · 228 阅读 · 0 评论 -
MapReduce学习WordCount
MapReducewordcount原理wordcount类import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;![在...原创 2020-01-14 12:44:40 · 108 阅读 · 0 评论 -
深入理解MapReduce原理
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(...原创 2020-01-13 22:18:09 · 193 阅读 · 0 评论 -
HDFS分布式文件系统
为什么需要HDFS:一台计算机存储的容量有限,一旦数据量达到一定级别,就需要将数据存放在多台机器上,这就是分布式文件系统,称为DFS(DistributedFile System)什么是DFS分布式文件系统DFS是基于Master/Slave模式,一个系统能提供多个供用户访问的服务器,一般都会有容错和备份的功能。DFS结构物理结构: 由计算机集群中的多个节点构成节点分为两类:第一...原创 2019-11-03 10:49:06 · 186 阅读 · 1 评论 -
Centos上安装Hadoop集群遇到的坑
参考:https://blog.csdn.net/pucao_cug/article/details/71698903大体于参考的博客相同,有小部分区别:1、安装完成之后,启动过程报错:Starting namenodes on [hadoopm]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there i...原创 2019-10-24 13:55:31 · 532 阅读 · 0 评论