学习课件
李寻欢-成都
这个作者很懒,什么都没留下…
展开
-
【学习课件】(私密)初识大数据
第一天初识大数据课前准备,什么是大数据大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产1Byte = 8 bit、1K=1024KByte、1MB = 1024K、1G = 1024MB1T = 1024G、1PB = 1024TB大...原创 2020-06-17 14:23:23 · 353 阅读 · 0 评论 -
【学习课件】(私密)大数据概论、安装hadoop
大数据技术之Hadoop(入门)一 大数据概论预科内容二 从Hadoop框架讨论大数据生态名字起源该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的项目起源Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到...原创 2020-06-17 14:24:20 · 152 阅读 · 0 评论 -
【学习课件】(私密)MapReduce工作流程&InputFormat数据输入
三 MapReduce框架原理3.1 MapReduce工作流程1)流程示意图2)流程详解上面的流程是整个mapreduce最全工作流程,但是shuffle过程只是从第7步开始到第15步结束,具体shuffle过程详解,如下:1)maptask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3)多个溢出文件会被合并成大...原创 2020-06-02 11:53:34 · 203 阅读 · 0 评论 -
【学习课件利用MapReduce进行日志清洗案例
7.7.1 简单解析版1)需求:去除日志中按照空格切分,字段长度小于等于11的日志属于不符合日志。2)输入数据3)实现代码:(1)编写LogMapperpackage com.itstar.mapreduce.weblog;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org....原创 2020-06-17 14:21:32 · 292 阅读 · 0 评论