hadoop
yuejing987
这个作者很懒,什么都没留下…
展开
-
1.初始Hadoop
1.1大数据 大数据胜于好算法1.2数据的存储与分析 如果我们有100个数据集,每个硬盘存储1%的数据,并行读取,那么不到2分钟就可以读完所有数据。 存在的问题:硬件故障问题:通过复制来解决大多数分析任务需要以某种方式结合大部分数据来共同完成分析:MapReduce提出一种编程模型,转化为键值对来完成。1.3MapReduce 1)为只需要短短几分钟或几...原创 2018-08-11 17:51:09 · 118 阅读 · 0 评论 -
2.MapReduce
1.MapReduce是一种可用于数据处理的编程模型,优势在于处理大规模数据集。 2.在MapReduce中分为map和reduce阶段,我们选择文本格式作为输入格式,将数据集的每一行作为文本输入,键是某一行起始位置相对于文件起始位置的偏移量。这里是Mapper类是一个泛化类型,分别指定map的输入键,输入值,输出键和输出值。map(Longwritable key,Text value,Con...原创 2018-08-19 13:11:38 · 134 阅读 · 0 评论