小布爱篮球-CSDN博客

原创 Hive

一、Hive概述：        Hive是一个基于Hadoop的数据仓库工具。可以将结构化的数据文件映射成一张表，并提供完整的sql查询功能，可以将sql语句转化成MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现MapReduce统计，不必开发专门的MapReduce应用，十分适合数...

2018-12-26 12:54:28 149

原创 Flume的基本概念

一、Flume概述：       Flume 是一个高可用，高可靠，健壮性，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据（source）；同时，Flume提供对数据进行简单处理，并写到各种数据接收方的能力（sink）。二、Flume总体架构Flume是分布式的日志收集...

2018-12-20 20:59:43 229

原创 MapReduce（二）

一、MapReduce的组成：      JobTracker/ResourceManager:任务管理      TaskTracker/NodeManager:执行任务二、shuffle过程：MapTask1.获取到切片（FileSplit）信息2.每一个切片对应...

2018-12-20 19:08:24 127

原创 MapReduce

一、概述： MapReduce是Hadoop中的分布式计算框架，MapReduce意味着在计算过程中实际分为两大步：Map过程和Reduce过程。map任务：1.读取输入文件内容，解析成key、value对。对输入文件的每一行解析成key、value对。每一个键值对调用一次map函数。2.写自己的逻辑，对输入的key、value进行处理，转换成新的key、value输出。3....

2018-12-20 15:57:40 203

原创 HDFS

一、概念： 1.是Hadoop中用于数据存储的模块  2.在存储数据的时候会将数据进行切块，每一块是一个Block。 3.HDFS会对数据块进行备份，默认复本数量是3，但在伪分布式下必须设为1 4.复本的放置策略 – 机架感知策略二、Hadoop插件的使用: 1. 将hadoopbin_for_hadoop2.7.1.zip解...

2018-12-20 14:41:37 103

原创 Hadoop的简介及伪分布式安装

一、Hadoop简介是Apache的顶级项目，是一个可靠的、可扩展的、支持分布式计算的开源项目。起源创始人：Doug Cutting 和Mike2004 Doug和Mike创建了Nutch - 利用通用爬虫爬取了互联网上的所有数据，获取了10亿个网页数据 - 10亿个网页数据是非结构化数据，就意味着这些数据是无法存储到数据库中Doug发现了Google在2003年发表的一篇论文:《Go...

2018-12-10 18:31:56 197

原创 Zookeeper（2）

复习：1. Zookeeper：提供了分布式环境下的协调服务a. 分布式环境下的引发问题b. Zookeeper的单机安装 — 修改conf目录下的zoo.cfgc. Zookeeper的特点：Znode树；znode节点；每一个节点都必须存储数据；所有路径都是从根路径/开始计算；持久节点下一定可以有子节点；Znode是维系在内存中；不适合存储海量数据；每一次事务操作都会分配一个递增的全局...

2018-12-07 19:46:17 709

原创 Zookeeper：单机版和集群式

ZookeeperZookeeper是开源的分布式的协调服务框架，是Apache Hadoop的子件，适用于绝大部分分布式集群的管理分布式引发问题：1. 死锁：至少有一个线程占用了资源，但是不占用CPU2. 活锁：所有线程都没有把持资源，但是线程却是在不断地调度占用CPU3. 需要引入一个管理节点4. 为了防止入口的单点问题，需要引入管理节点的集群5. 需要在管理阶段中选举出一个主节...

2018-12-05 20:27:29 239

原创 Concurrent之_线程池

一、线程池线程池 - 如果每一个请求对应一个线程，那么会导致线程大量的创建和销毁。减少线程的创建和销毁，希望能够重复使用已有的线程，有了线程池 — 存储线程的队列特点：1. 线程池在创建的时候里面是没有线程的2. 当过来请求的时候，会在线程池中创建一个线程来处理这个请求。当请求处理完毕的时候，线程就会还回线程池，等待下一个请求3. 核心线程在线程池中需要限定数量4. 如果所有的核心线程...

2018-12-04 21:19:00 459

原创 Concurrent

Concurrent一、阻塞式队列 - BlockingQueue遵循先进先出(FIFO)的原则。阻塞式队列本身使用的时候是需要指定界限。1.ArrayBlockingQueue - 阻塞式顺序队列 - 底层是基于数组来进行存储,使用的时候需要指定一个容量, 容量在指定之后不可改变。— 生产-消费模型2.LinkedBlockingQueue - 阻塞式链式队列 - 底层是基于链表(节点...

2018-12-04 21:04:14 138

原创 NIO

一、简述是jdk1.4出现的新的流.BIO - Blocking IO - 同步式阻塞式IO — UDP/TCPNIO - New IO - 同步式非阻塞式IOAIO - AsynchronousIO - 异步式非阻塞式IO - jdk1.8二、BIO的缺点1. 会产生阻塞行为 — receive/accept/connect/read/write2. 一对一的连接:每连接一个客...

2018-12-03 20:44:20 94

weixin_43854923的博客