自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Hive

一、Hive概述:        Hive是一个基于Hadoop的数据仓库工具。可以将结构化的数据文件映射成一张表,并提供完整的sql查询功能,可以将sql语句转化成MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现MapReduce统计,不必开发专门的MapReduce应用,十分适合数...

2018-12-26 12:54:28 118

原创 Flume的基本概念

一、Flume概述:       Flume 是一个高可用,高可靠,健壮性,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据(source);同时,Flume提供对数据进行简单处理,并写到各种数据接收方的能力(sink)。二、Flume总体架构Flume是分布式的日志收集...

2018-12-20 20:59:43 211

原创 MapReduce(二)

一、MapReduce的组成:      JobTracker/ResourceManager:任务管理      TaskTracker/NodeManager:执行任务二、shuffle过程:MapTask1.获取到切片(FileSplit)信息2.每一个切片对应...

2018-12-20 19:08:24 98

原创 MapReduce

一、概述: MapReduce是Hadoop中的分布式计算框架,MapReduce意味着在计算过程中实际分为两大步:Map过程和Reduce过程。map任务:1.读取输入文件内容,解析成key、value对。对输入文件的每一行解析成key、value对。每一个键值对调用一次map函数。2.写自己的逻辑,对输入的key、value进行处理,转换成新的key、value输出。3....

2018-12-20 15:57:40 170

原创 HDFS

一、概念: 1.是Hadoop中用于数据存储的模块  2.在存储数据的时候会将数据进行切块,每一块是一个Block。 3.HDFS会对数据块进行备份,默认复本数量是3,但在伪分布式下必须设为1 4.复本的放置策略 – 机架感知策略二、Hadoop插件的使用: 1. 将hadoopbin_for_hadoop2.7.1.zip解...

2018-12-20 14:41:37 96

原创 Hadoop的简介及伪分布式安装

一、Hadoop简介是Apache的顶级项目,是一个可靠的、可扩展的、支持分布式计算的开源项目。起源创始人:Doug Cutting 和Mike2004 Doug和Mike创建了Nutch - 利用通用爬虫爬取了互联网上的所有数据,获取了10亿个网页数据 - 10亿个网页数据是非结构化数据,就意味着这些数据是无法存储到数据库中Doug发现了Google在2003年发表的一篇论文:《Go...

2018-12-10 18:31:56 174

原创 Zookeeper(2)

复习:1. Zookeeper:提供了分布式环境下的协调服务a. 分布式环境下的引发问题b. Zookeeper的单机安装 — 修改conf目录下的zoo.cfgc. Zookeeper的特点:Znode树;znode节点;每一个节点都必须存储数据;所有路径都是从根路径/开始计算;持久节点下一定可以有子节点;Znode是维系在内存中;不适合存储海量数据;每一次事务操作都会分配一个递增的全局...

2018-12-07 19:46:17 641

原创 Zookeeper:单机版和集群式

ZookeeperZookeeper是开源的分布式的协调服务框架,是Apache Hadoop的子件,适用于绝大部分分布式集群的管理分布式引发问题:1. 死锁:至少有一个线程占用了资源,但是不占用CPU2. 活锁:所有线程都没有把持资源,但是线程却是在不断地调度占用CPU3. 需要引入一个管理节点4. 为了防止入口的单点问题,需要引入管理节点的集群5. 需要在管理阶段中选举出一个主节...

2018-12-05 20:27:29 226

原创 Concurrent之_线程池

一、线程池线程池 - 如果每一个请求对应一个线程,那么会导致线程大量的创建和销毁。减少线程的创建和销毁,希望能够重复使用已有的线程,有了线程池 — 存储线程的队列特点:1. 线程池在创建的时候里面是没有线程的2. 当过来请求的时候,会在线程池中创建一个线程来处理这个请求。当请求处理完毕的时候,线程就会还回线程池,等待下一个请求3. 核心线程在线程池中需要限定数量4. 如果所有的核心线程...

2018-12-04 21:19:00 441

原创 Concurrent

Concurrent一、阻塞式队列 - BlockingQueue遵循先进先出(FIFO)的原则。阻塞式队列本身使用的时候是需要指定界限。1.ArrayBlockingQueue - 阻塞式顺序队列 - 底层是基于数组来进行存储,使用的时候需要指定一个容量, 容量在指定之后不可改变。— 生产-消费模型2.LinkedBlockingQueue - 阻塞式链式队列 - 底层是基于链表(节点...

2018-12-04 21:04:14 130

原创 NIO

一、简述是jdk1.4出现的新的流.BIO - Blocking IO - 同步式阻塞式IO — UDP/TCPNIO - New IO - 同步式非阻塞式IOAIO - AsynchronousIO - 异步式非阻塞式IO - jdk1.8二、BIO的缺点1. 会产生阻塞行为 — receive/accept/connect/read/write2. 一对一的连接:每连接一个客...

2018-12-03 20:44:20 86

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除