2019年10月_像风一般

原创 Stream编程

一 Stram编程主要是回忆 jdk1.8提供的stream编程中一些方法，还有scala中类似流的操作，以及kafka中无状态操作算子的区分，老是区分不了，今天写一篇文章，加深自己的印象，首先介绍jdk1.8新特性stream所谓jdk1.8出现的Stream就是对一些集合功能的增强，他可以对集合中的元素做到细粒度的控制扫描，将其转换为类似一条流水线，并对其进行处理，stream的出...

2019-10-27 19:25:34 396

原创 Hbase 概述2

一、Hbase 环境搭建-单机1.1 环境HadoopZK1.2 下载安装[root@HadoopNode00 ~]# mkdir /home/hbase[root@HadoopNode00 ~]# tar -zxvf hbase-1.2.4-bin.tar.gz -C /home/hbase/[root@HadoopNode00 ~]# vi .bashrcexport HB...

2019-10-20 13:08:24 178

原创 Hbase概述

一、概述Hbase全称为Hadoop Database（基于HDFS的数据库），设计来源Google 的bigtable，Hbase 仿照 bigtable设计基于HDFS上的一款数据库。1.1 CAP原则CAP原则又称之为CAP原理，指的是在分布式系统当中，一致性、可用性、分区容错性，三者不可兼得HBase 是保证CP1.2 什么是基于列式存储？HBase 是基于列式存储的NoS...

2019-10-17 21:04:39 2747

原创 Hadoop的高可用

一、架构HadoopNode01HadoopNode02HadoopNode03nn1nn2journal nodejournal nodejournal nodezkfczkfcdatanodedatanodedatanodezk01zk02zk03rm1rm2nodemanagernodemanagern...

2019-10-15 08:42:31 243

原创 Zookeeper的使用

一、Zookeeper javaAPI1.1 依赖 <dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-framework</artifactId> <version...

2019-10-14 08:52:20 132

原创 MapReduce优化和Zookeeper简介

一 MapReduce 优化策略（1）干预切片计算逻辑CombineTextInputFormat（2）实现partition策略防止数据倾斜，实现reduce task 负载均衡（3）适当调整YarnChild的内存参数，需要查阅Yarn的参数配置手册，vcores cpu 内存参数（4）适当调整溢写参数的大小（5）适当调整合并文件的并行度<property> &lt...

2019-10-12 09:21:08 395

原创 MR过程和Shuffle详解

一 MR 过程MR框架是使用InputFormat为map所需的数据进行预处理，并为其提供数据。两个功能：切片，封装keyvalue因为InputSplit为逻辑切分而非物理拆分，所以说还需要RecoderReader根据InputSplit中的信息里处理InputSplit中的具体信息，加载数据并转换为合适的Map任务的keyvalue，输入给Map任务Map是自定义的逻辑，根据In...

2019-10-11 11:18:08 1837

一 MapReduce 组件解析（1）概述通过WC案例的编写，不难发现，其实我们是按照一定的规则进行程序的输入和输出，将作业放在本地运行或者提交到Hadoop集群中运行。Hadoop是将数据切分成了若干个输入切片（Input Split），并将每个切片交由一个MapTask的进程处理，MapTask不断从对应的Split中解析出来一个一个的 key、value，并交由map()函数进行处理。...

2019-10-10 09:11:58 423

原创 MapReduce 计算流程和job提交流程

一.MapReduce 计算流程1 首先是通过程序员所编写的MR程序通过命令行本地提交或者IDE远程提交2 一个MR程序就是一个Job，Job信息会给Resourcemanger，向Resourcemanger注册信息3 在注册通过后，Job会拷贝相关的资源信息（从HDFS中）4 紧接着会向Resourcemanger提交完整的Job信息（包括资源信息）5a Resourcema...

2019-10-09 22:06:31 327

原创 MR 入门程序

1.1 MR 入门程序需求：wangkai gjf zkf suns gzywangkai zkf suns gzyzkf suns gzy hxz leijunwangkai 2gjf 1zkf 3 suns 3gzy 3hxz 1leijun 1（1）依赖 <dependency> <groupId&...

2019-10-09 09:46:53 622

原创 MapReduce概念及yarn搭建

一、MapReduce1.1 概述MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组...

2019-10-08 08:46:51 142

原创 HDFS Architecture

一. HDFS ArchitectureHDFS为主从架构，HDFS中有一个主的NameNode，管理系统命名空间和管理客户端对文件的访问，其中还有DataNode负责和NameNode进行协调工作，DataNode负责数据的存储，在存储数据（文件）的过程中一个文件会被分成一个块或者多个块，在NameNode中存储了一些数据（存储的数据是块到DataNode的映射关系），datanode还根据N...

2019-10-07 22:14:48 233

原创大数据即hadoop相关

一、概述1.1 大数据概念大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。1.2 大数据面临的问题存储：单机存储有限，需要使用集群（多台机器）存储数据；硬件上必须有足够的存储容量，软件上有对应的容灾机制。分析：单机算力有限，也需要使用集群进行计算（需要在合理的时间内将数据变废为宝）1.3 大数据的特点4V Volume 数...

2019-10-06 10:08:54 225

weixin_44824330的博客