大数据
文章平均质量分 91
三水写代码
你只管努力变得优秀······
展开
-
Spark(1)-- 一文看懂Spark
Spark是一个快速而通用的大数据处理框架,它提供了高效的分布式数据处理和分析能力。spark与Hadoop的关系:Spark虽然不是Hadoop的一部分,但与Hadoop生态系统紧密集成。Spark提供了更快的数据处理和分析能力,具备批处理、流处理、机器学习和图计算等功能,spark可以理解为Hadoop中MapReduce的升级后的计算模型。HadoopSpark类型完整的分布式基础平台,支持计算、存储、调度等分布式计算工具,可用于迭代计算, 交互式计算, 流计算生态系统。原创 2023-07-24 08:00:00 · 435 阅读 · 0 评论 -
hadoop -- Hbase
HBase是一个分布式、可扩展、面向列的数据存储(百万级别列)、可伸缩、高可靠性、实时读写的NoSQL 数据库。HBase利用 Hadoop的 HDFS作为其文件存储系统, 利用MapReduce 来处理HBase中的海量数据, 利用Zookeeper作为分布式协同服务。原创 2023-07-12 10:00:00 · 1099 阅读 · 0 评论 -
hadoop --- hive
..Hive 使用HiveQL的建表语句,DDL 来定义表结构。DDL可以用于创建、修改、删除Hive表的元数据,包括表名、列定义、分区定义、存储格式等。这里的发部分语法与标准的SQL建表语句还是相同的。EXTERNAL:可选项, 用于创建外表IF NOT EXISTS : 可选项,如果表已存在,就不创建。与标准SQL用法相同table_name :指定要创建的表名称column1, column2 : 表的列名,以及列的数据类型。原创 2023-07-11 09:00:00 · 794 阅读 · 0 评论 -
hadoop --- MapReduce
MapReduce可以分解为Map (映射) + Reduce (规约) , 具体过程:Map : 输入数据集被切分成多个小块,并分配给不同的计算节点进行处理Shuffle and Sort:洗牌和排序,在 Map 阶段结束后,将每个 Mapper 生成的键值对按照键进行排序,并将相同键的值归并在一起,并将相同的键发送给后续的reduceReduce: 规约计算,每个计算节点独立处理它们的键值对,并生成最终的输出结果。原创 2023-07-05 20:00:00 · 1646 阅读 · 0 评论 -
Hadoop --- HDFS配置与操作
hadoop的配置文件存放目录在 {HADOOP_HOME}/etc/hadoop 下, 与 hdfs相关的配置:新增属性信息: fs.defaultFSfs.defaultFS表示指定集群的文件系统类型是分布式文件系统(HDFS),datanode心跳发送到nameNode的地址。原创 2023-06-25 11:56:22 · 1896 阅读 · 0 评论 -
Hadoop --- HDFS介绍
HDFS 文件存储系统。适合一次写入,多次读出的场景。HDFS不需要单独安装,安装Hadoop的时候带了HDFS系统。原创 2023-06-21 17:33:56 · 2412 阅读 · 0 评论 -
大数据hadoop生态技术简介
大数据生态知识体系原创 2023-06-15 15:46:23 · 3666 阅读 · 0 评论