![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
zz60708320
这个作者很懒,什么都没留下…
展开
-
hadoop(番外)——mongodb-hadoop(基础配置)
简介mongo-hadoop是用于Hadoop的MongoDB连接器是一个库,该库允许将MongoDB(或其数据格式的备份文件,BSON)用作Hadoop MapReduce任务的输入源或输出目标。它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分轻松集成。下载地址:https://github.com/mongodb/mongo-hadoop 跳转→特...原创 2019-10-24 18:05:49 · 1503 阅读 · 0 评论 -
Hadoop(三)——MapReduce③框架原理
一、InputFormat数据输入1.1 切片与MapTask并行度决定机制数据块:Block 是 HDFS 物理上把数据分成一块一块数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。1)一个 Job 的 Map 阶段并行度由客户端在提交Job时的切片数决定。2)每一个 Split 切片分配一个MapTask并行实例处理。3)默认情况下,切片大小=Bl...原创 2019-10-15 15:54:20 · 227 阅读 · 0 评论 -
Hadoop(三)——MapReduce②序列化
1、序列化概述序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者磁盘的持久化数据,转换为内存中的对象。Hadoop序列化的特点① 紧凑:高效实用存储空间② 快速:读写数据的额外开销小③ 可扩展:随着通信协议的升级而可升级④ 互操作:支持多语言的交互2、自定义bean对象实现序列化...原创 2019-10-15 15:08:00 · 125 阅读 · 0 评论 -
Hadoop(一)——环境准备
Hadoop(一)环境准备PS:linux版本:centos6;hadoop版本:2.X1、linux环境准备1)设置主机名设置 etc —> sysconfig —> network 文件下的 HOSTNAME 属性vim /etc/sysconfig/network2)将ip地址设为静态 ip①使用图形界面时配置网络的IP地址,子网掩码(255.255.255.0)...原创 2019-10-14 16:00:29 · 165 阅读 · 0 评论 -
Hadoop(三)——MapReduce①简介
一、Mapreduce简介Mapreduce是一个分布式的运算编程框架,核心功能是将用户编写的核心逻辑代码分布式地运行在一个集群的很多服务器上。框架逻辑:① map端输入:maptask按行读取hdfs数据,并对其进行分片(默认为128M),分发给各个maptask② map端输出:数据经过map端逻辑处理后,最终输出方式为<key,value>对③ shuffle:接收从m...原创 2019-10-15 10:43:44 · 172 阅读 · 0 评论 -
Hadoop(三)——MapReduce④Shuffle机制
reduce task一般来说,有多少个reduce task,就会产生多少个结果文件。默认情况下,shuffle分发的规则叫分区,其策略是调用Partition的实现类 hashpartitioner。则无论存在多少种数据,其最终结果均为0或1,并分别分发给task0或task1。要想修改reduce task数量,首先需要自定义一个partitioner的类,并继承Partitione...原创 2019-10-18 17:36:19 · 262 阅读 · 0 评论