![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据综述
文章平均质量分 92
githubcurry
githubcurry
展开
-
中间件(狂神说RabbitMQ)
所谓高可靠是指:系统可以无故障低持续运行,比如一个系统突然崩溃,报错,异常等等并不影响线上业务的正常运行,出错的几率极低,就称之为:高可靠在高并发的业务场景中,如果不能保证系统的高可靠,那造成的隐患和损失是非常严重的消息的传输:通过协议来保证系统间数据解析的正确性消息的存储区可靠:通过持久化来保证消息的可靠性中间件笔记。原创 2023-12-19 09:49:48 · 64 阅读 · 0 评论 -
Hadoop2.x集群搭建(centos7、VMware、finalshell)
我们需要通过配置若干配置文件,来实现Hadoop集群的配置信息(这里Hadoop2.x和3.x配置信息略有不同,本文主要以2.x为主)。需要配置的文件有:在Hadoop安装完成后,会在$HADOOP_HOME/share路径下,有若干个*-default.xml文件,这些文件中记录了默认的配置信息。同时,在代码中,我们也可以设置Hadoop的配置信息。原创 2023-04-23 09:30:00 · 2030 阅读 · 0 评论 -
Flume入门详解操作
Flume是一种分布式的,可靠的、高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应用程序。参考官网: http://flume.apache.org/flume 最开始是由 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。原创 2022-10-18 12:36:30 · 1266 阅读 · 0 评论 -
Hive入门详解操作
FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了hive这门技术,并继续发展成为一个成功的Apache项目。hive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。这套HIVE SQL 简称HQL。hive的执行引擎可以是MR、spark、tez。如果执行引擎是MapReduce的话,hive会将Hql翻译成MR进行数据的计算。 用户可原创 2022-10-18 12:31:58 · 3721 阅读 · 1 评论 -
Sqoop简介以及使用
1.2 Sqoop是什么 Sqoop是一个用于Hadoop和结构化数据存储(如关系型数据库)之间进行高效传输大批量数据的工具。它包括以下两个方面: 可以使用Sqoop将数据从关系型数据库管理系统(如MySQL)导入到Hadoop系统(如HDFS、Hive、HBase)中 将数据从Hadoop系统中抽取并导出到关系型数据库(如MySQL)常见数据库开源工具: Sqoop的核心设计思想是利用MapReduce加快数据传输速度。也就是说Sqoop的导入和导出功能是通原创 2022-10-18 12:21:29 · 3802 阅读 · 0 评论 -
Hadoop详细入门知识
现在的我们,生活在数据大爆炸的年代。2020年,全球的数据总量达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。扩展: 数据大小单位,从小到大分别是: byte、kb、mb、Gb、Tb、PB、EB、ZB、DB、NB...单位之间的转换都是满足1024一些数据集的大小更远远超过了1TB,也就是说,数据的存储是一个要解决的问题。同时,硬盘技术也面临一个技术瓶颈,就是硬盘的传输速度(读数据的速度)的提升远远低于硬盘容量的提升。原创 2022-10-17 22:56:02 · 5901 阅读 · 0 评论 -
大数据入门篇
我们有的时候给外行人讲解什么是数据库,就常常用Excel来举例子(因为大多数人认识什么是Excel)。在知乎有一个类似的题目《有excel了要数据库干啥?》,大家可以去看看:其实很大一部分原因就是:Excel能处理的数据量远远没有数据库得多。由于我们互联网产生的数据是非常非常多的,所以我们一般选择数据库来存储数据。Excel只有104w行,多了加载不进去的众所周知,我们能存多少数据,是取决于我们硬盘的大小的。...原创 2022-08-08 10:19:26 · 1794 阅读 · 0 评论