大数据
文章平均质量分 78
大数据
wmh1024
阿里云社区专家博主。鸟要高飞先振翅,人求上进先读书。
展开
-
【大数据】Apache Hive数仓(学习笔记)
Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。原创 2023-10-15 10:15:00 · 160 阅读 · 0 评论 -
【大数据】Hadoop MapReduce与Hadoop YARN(学习笔记)
Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)特点:易于编程、良好的扩展性、高容错性、适合海量数据的离线处理局限性:实时计算性能差、不能进行流式计算(数据不能是动态的)在MapReduce中,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。原创 2023-10-14 05:30:00 · 486 阅读 · 0 评论 -
【大数据】Hive SQL语言(学习笔记)
默认的数据库叫做default,存储于HDFS的:/user/hive/warehouse用户自己创建的数据库存储位置:/user/hive/warehouse/database_name.db。原创 2023-10-16 06:00:00 · 483 阅读 · 0 评论 -
【大数据】大数据导论(学习笔记)
数据是什么:指对客观事件进行记录并可以鉴别的符号怎么产生数据:对客观事物计量和记录产生数据分析数据的作用:把隐藏在数据背后的信息集中提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策数据分析的三大方向:现状分析(当下),原因分析(过去),预测分析(未来)离线分析:面向历史,在时间维度成批次性变化,也叫批处理实时分析:分析实时的数据,秒级毫秒级分析,也叫流式计算机器学习:侧重数学算法的运用,预测未来发生的事情。原创 2023-10-09 06:15:00 · 231 阅读 · 0 评论 -
【大数据】HDFS的使用与集群角色(学习笔记)
命令行界面(CLI)是指用户通过键盘输入指令,计算机接收到指令后,予以执行一种人际交互方式。Hadoop提供了文件系统的shell命令行客户端。原创 2023-10-13 08:15:00 · 186 阅读 · 0 评论 -
【大数据】HDFS概述(学习笔记)
HDFS:Hadoop分布式文件系统。HDFS作为大数据生态圈最底层的分布式存储服务而存在。大数据首先要解决的问题就是海量数据的存储问题。分布式说明HDFS是横跨在多台计算机上的存储系统。HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的。HDFS使用多台计算机存储文件,并且提供统一的访问接口。原创 2023-10-12 21:45:00 · 360 阅读 · 0 评论 -
【大数据】hadoop安装部署(学习笔记)
Hadoop集群包括两个集群:HDFS集群、YARN集群两个集群两个集群都是标准的集群MapReduce是计算框架、代码层面的组件。原创 2023-10-11 17:00:00 · 260 阅读 · 0 评论 -
【大数据】hadoop概述(学习笔记)
Hadoop是Apache软件基金会的开源软件广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。原创 2023-10-10 14:30:00 · 96 阅读 · 0 评论