![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 87
大数据
文晓武
专注搜索推荐问答推荐工程领域,涉及到的技术有:Java、ElasticSearch、SpringBoot、SpringCloud、Dubbo、Linux、Docker、Sql、Kafka、RabbitMQ、RocketMQ、MyBatis、XXl-Job、Zookeeper、Nginx、Redis、Tomcat、Git、SVN、Maven、K8S等,每周不定期更新精华文章!
展开
-
Spring Boot 整合 HBase
一、HBase 介绍HBase是一个分布式的、面向列的开源数据库,Hadoop 数据库。搭建基于 Hadoop 和 ZK 。历史是基于 Google 的 Bigtable 、Google 文件系统等论文。HBase 在Hadoop 之上提供了类似于 Bigtable 的能力。 HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase 特性:大:一个表可以有数十亿转载 2022-05-29 22:41:41 · 6047 阅读 · 4 评论 -
HBase:海量数据分布式存储系统详细介绍
1 HBase 浅析1.1 HBase 是啥HBase是一款面向列存储,用于存储处理海量数据的NoSQL数据库。它的理论原型是Google的BigTable论文。你可以认为HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase的存储是基于HDFS的,HDFS有着高容错性的特点,被设计用来部署在低廉的硬件上,基于Hadoop意味着HBase与生俱来的超强的扩展性和吞吐量。HBase采用的是key/value的存储方式,这意味着,即使随着数...转载 2022-05-29 22:26:57 · 4642 阅读 · 0 评论 -
Hadoop框架:MapReduce基本原理和入门案例
1 MapReduce概述1.1基本概念Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程模型,用于大规模数据集的并行运算,其中Map(映射)和Reduce(归约)。MapReduce既是一个编程模型,也是一个计算组件,处理的过程分为两个阶段,Map阶段:负责把任务分解为多个小任务,Reduce负责把多个小任务的处理结果进行汇总。其中Map阶段主要输入是一对Key-Value,经过map计算后输出一对Key-Value值;然后将相同Key合并,形成Key-Value集合;.转载 2022-05-29 15:43:47 · 140 阅读 · 0 评论 -
为什么 MapReduce 再次流行起来了?
时至 2021 年,估计很多人听到 MapReduce 都不为所动了。毕竟,MapReduce 问世已经十多年了,虽然在当时引起了轰动,但那已经是过去的事情了。但是 MapReduce 非常重要,而且即使是现在,它也能提供很大的价值。如果能给这个久经沙场的框架添加新功能,就能克服许多痛点,而且还能获益匪浅。1 MapReduce的过去与现状MapReduce 出现于 2004 年发表的一片论文,描述了 Google 采用的一种利用巨大的集群来实现大规模分析的方法。到 2007 年, 风靡一时转载 2022-05-29 15:11:13 · 236 阅读 · 0 评论 -
大数据Hadoop详细介绍(v2016)
一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一个不断成长的生态系统。这个和Linux非常类似,都是由一个核心和一个生态系统组成。现在Hadoop俨然已经成转载 2022-05-29 10:38:46 · 1059 阅读 · 0 评论 -
分布式文件系统HDFS及其简单使用
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFSHDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口。HDFS是根据谷歌的论文:《The Google File System》进行设计的转载 2022-05-29 09:44:50 · 515 阅读 · 0 评论 -
大数据 HDFS 分布式文件系统详细介绍
1 文件系统的基本概述 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。 文件名:在文件系统中,文件名是用于定位存储位置。 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等。 数据块(Block):存储文件的最小单元。对存储介质划分了固定的区域,使用时按这些区域分配使用。 2 HDFS的概述HDFS(Hadoop Distributed File System)基于Googl转载 2022-05-29 09:34:57 · 3115 阅读 · 0 评论 -
大数据之Flume搭建与使用
1 搭建1.1 解压tar-zxf/opt/software/apache-flume-1.9.0-bin.tar.gz-C/opt/module/mv/opt/module/apache-flume-1.9.0-bin /opt/module/flume1.2 删除不兼容包rm /opt/module/flume/lib/guava-11.0.2.jar1.3 测试1.3.1、安装ncyum install-ync1.3.2、创建agent配置文件...转载 2022-05-29 09:08:59 · 179 阅读 · 0 评论 -
数据传输高性能中间键Avro介绍及基本应用
Avro介绍Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。Avro 是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具,Avro可以做到将数据进行序列化,适用于远转载 2022-05-29 08:07:29 · 824 阅读 · 0 评论 -
Flume:开源的数据采集系统详细介绍
在大数据时代背景下,如何采集出有用的信息已经是大数据发展的关键因素之一,数据采集可以说是大数据产业的基石。Flume作为开源的数据采集系统,受到了业界的认可与广泛应用。本文将带你了解Flume的基本架构以及使用案例等。01 Flume简介1.1 Flume是什么?Flume是Apache Software Foundation的顶级项目。它是一个分布式,可靠且可用的系统,主要用于高效地收集,聚合大量日志数据并将其从不同的源移动到集中式数据存储中。Flume的使用不仅限于日志数据聚合。由于数据转载 2022-05-29 07:50:27 · 904 阅读 · 0 评论