大数据
小生浩浩
纸上得来终觉浅,绝知此事要躬行。
展开
-
大数据——kafka(分布式消息系统)
Kafka简介 Kafka是一个分布式,支持分区,多副本的分布式消息系统(MQ)。它提供了普通消息系统的功能,但具有自己独特的设计特性。 kafka使用ZooKeeper用于管理、协调代理。 Kafka只有一种模式——发布/订阅。 目前是大数据生产中最常用的MQ,也是社区最活跃的MQ。 Kafka的优缺点优点:高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group原创 2020-07-14 18:48:12 · 618 阅读 · 0 评论 -
大数据——Hive(数据仓库工具)
什么是Hive?Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表。Hive提供类似SQL的HiveQL的数据处理功能,Hive将HiveQL语句转换成MapReduce程序交给Hadoop集群处理。为什么要用Hive?MapReduce实现复杂查询逻辑开发难度太大,人员学习成本太高,项目周期要求短,引入Hive可以使用HiveQL这种类SQL语法,提供快速开发的能力,避免写MapReduce程序,降低学习成本。Hive的组成:用户接口;CLI、Hi.原创 2020-07-12 16:46:07 · 630 阅读 · 0 评论 -
大数据——Flume入门,基础,学习笔记
什么是Flume?Flume是一种分布式,可靠且可用的系统,用于有效地收集,聚合和移动大量日志数据.Flume组成Agent:Agent是Flume最重要的组成部分,Flume系统就是由一个一个的Agent组成的.Source:Agent的内部组件,用于接收日志数据,并将其封装成一个一个的event,然后传给Channel.event:Flume系统内部将日志数据封装成event进行传输,event的结构是json串.Channel:传输通道,被动的接收Source传来的数据,并进行原创 2020-07-08 12:00:17 · 259 阅读 · 0 评论 -
HDFS入门,基础,学习笔记(可能是最详细的HDFS入门基础了)
什么是HDFS?HDFS是分布式文件存储系统,用于大数据的存储.一个HDFS系统通常由一个NameNode,一个SecondaryNameNode和若干DataNode组成.NameNode负责管理整个文件系统元数据;DataNode负责管理具体文件数据块存储;Secondary NameNode协助NameNode进行元数据的备份.HDFS详解:NameNode:NameNode用来管理文件系统的元数据,是HDFS集群中的大管家,它不负责存储具体的数据.NameNode由两个核心...原创 2020-07-09 00:30:10 · 505 阅读 · 0 评论