大数据相关技术
文章平均质量分 95
大数据一些理论知识介绍,上下游技术讲解等
问道飞鱼
长期从事服务后端开发,擅长微服务高并发架构设计, 熟悉云原技术栈,可以提供完整后端解决方案。 如有志同道合的朋友可以一起学习,共同进步, 如果商务合作意向也可联系。
展开
-
【大数据知识】HBase入门知识
HBase是一个分布式、可扩展、高性能的NoSQL数据库,它基于Google的BigTable模型构建。以下是HBase数据模型的详细说明:在HBase中,命名空间用于组织表。类似于关系型数据库中的数据库(Database)概念,每个命名空间下可以有多个表。HBase有两个自带的命名空间,分别是和。命名空间中存放的是HBase内置的表,而命名空间是用户默认使用的命名空间 。HBase中的表由多行数据组成。表中的每一行都有一个唯一的行键(Row Key),并且可以有不同的列。HBase的表是稀疏的,意味着表原创 2024-10-29 06:00:00 · 1183 阅读 · 0 评论 -
【大数据】Hive快速入门
创建数据库:如果数据库已存在,则不执行创建操作。:指定数据库在HDFS上的存储位置。:为数据库添加注释。修改数据库:修改数据库的存储位置。:修改数据库的属性。删除数据库:如果数据库存在,则执行删除操作。[CASCADE]:级联删除,如果数据库中有表,则连同表一起删除。创建表[EXTERNAL]:创建外部表,指定实际数据的路径。:如果表已存在,则不执行创建操作。:基于列进行分区。:基于列进行分桶。ROW FORMAT:设置行数据分割格式。STORED AS。原创 2024-10-11 20:30:00 · 1134 阅读 · 0 评论 -
【大数据】Spark弹性分布式数据集RDD详细说明
弹性分布式数据集RDD(Resilient Distributed Dataset)是Apache Spark中最基本的数据抽象,代表一个不可变、可分区、元素可以并行计算的数据集合。定义:RDD是Spark对数据集的抽象,用于存放数据,它表示一个只读的、可分区的、其中元素可进行并行计算的集合,并且是可跨越集群节点进行并行操作的有容错机制的集合。特性基于内存计算:RDD通过将数据加载到内存中,提高了数据处理的效率。相比于传统的磁盘存储,内存(RAM)的读写速度更快,因此RDD适用于需要快速迭代计算的任务。原创 2024-10-07 09:56:31 · 2185 阅读 · 0 评论 -
【大数据】数据采集工具sqoop介绍
Sqoop是一款开源的数据采集工具,专门设计用于在Hadoop生态系统和关系型数据库之间高效传输批量数据。简介:Sqoop(SQL to Hadoop)允许用户将结构化数据从关系型数据库导入到HDFS(Hadoop分布式文件系统)或Hive表中,或者将数据从HDFS导出到关系型数据库中。架构:提供命令行工具和API,用于与Sqoop Server进行通信,并提交数据导入和导出的任务。:负责接收来自客户端的请求,并协调和管理数据导入和导出的任务。原创 2024-10-07 07:34:40 · 2117 阅读 · 0 评论 -
【大数据】数据分析之Spark框架介绍
Spark是一种快速、通用、可扩展的大数据分析引擎,它基于内存计算的大数据并行计算框架,能够显著提高大数据环境下数据处理的实时性,同时保证高容错性和高可伸缩性。上面的示例代码展示了如何使用 Java 编写 Spark 应用程序来处理不同类型的数据和任务。然而,由于 Spark 的广泛功能和 Java 语言的限制,有些任务(如图处理)可能需要额外的库或更复杂的设置。在实际应用中,你可能需要根据你的具体需求和可用资源来调整这些示例代码。原创 2024-10-06 19:51:33 · 1976 阅读 · 0 评论 -
【大数据】一文教你看懂什么是Hadoop
Hadoop是一个由Apache基金会开发的开源分布式计算框架,主要用于处理海量数据集。HDFS(Hadoop Distributed File System)是Hadoop项目中的核心组件,是一个运行在通用硬件上、提供流式数据操作、能够处理超大数据的分布式文件系统。MapReduce是一种用于大规模数据集并行运算的编程模型、框架和平台,它极大地简化了大规模数据处理的过程。原创 2024-09-27 15:12:28 · 1819 阅读 · 0 评论 -
大数据技术栈简要介绍
大数据(Big Data)是IT行业中的一个重要术语,它指的是那些无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。这些数据集合具有海量的数据规模、快速的数据流转、多样的数据类型以及相对较低的价值密度等特征。大数据需要新的处理模式来增强其决策力、洞察发现力和流程优化能力,从而成为具有战略意义的信息资产。数据量角度:大数据首先体现在“大”上,即数据量巨大,通常达到数十TB甚至数百PB的规模,远远超出了传统数据处理软件的能力范围。数据处理角度。原创 2024-09-27 14:03:30 · 1599 阅读 · 0 评论
分享