大数据
文章平均质量分 95
New One
这个作者很懒,什么都没留下…
展开
-
初学大数据_day5_Hive HQL
Hive中的数据类型指的是Hive表中的列字段类型。原生数据类型(primitive data type)和==复杂数据类型数值类型、时间类型、字符串类型、杂项数据类型;array数组、map映射、struct结构、union联合体。关于Hive的数据类型,需要注意:英文字母大小写不敏感;除SQL数据类型外,还支持Java数据类型,比如:string;int和string是使用最多的,大多数函数都支持;复杂数据类型的使用通常需要和分隔符指定语法配合使用。。原创 2024-04-08 23:50:07 · 932 阅读 · 0 评论 -
初学大数据_day5_Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件为一张数据库表,并提供类功能。本质是将程序。主要用途:用来做离线数据分析,比直接用MapReduce开发效率更高。早期开发MapReduce只能通过Java语言,语法比较复杂,学习成本高。大数据专家汇总在一起,开发了一个软件叫做Hive(Facebook) => Hive => 把类似SQL语言(HiveSQL)=> 编译成Hadoop中的MapReduce。原创 2024-04-08 15:20:48 · 1004 阅读 · 0 评论 -
初识数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建==面向分析的集成化数据环境,为企业提供决策支持它出于分析性报告和决策支持目的而创建。MySQL数据库 => 面向事务的集成化数据环境;但是DW则是面向分析的集成化数据环境,主要实现数据的写入与数据分析,很少有数据的修改操作!数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。原创 2024-04-01 23:43:41 · 902 阅读 · 0 评论 -
初学大数据_day4_Yarn
(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。。ResourceManager负责所有资源的监控、分配和管理;ApplicationMaster负责每一个具体应用程序的调度和协调;NodeManager负责每一个节点的维护。原创 2024-04-01 12:52:20 · 908 阅读 · 0 评论 -
初学大数据_day3_MapReduce
MapReduce的核心思想是“Map:分,把大问题拆解为若干个小问题Reduce:合,把小问题的结果进行合并,得到最终问题的答案所谓“分而治之”就是把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分,然后逐个解决,分别找出各部分的解,再把把各部分的解组成整个问题的解。这种朴素的思想来源于人们生活与工作的经验,也完全适合于技术领域。诸如软件的体系结构设计、模块化设计都是分而治之的具体表现。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”原创 2024-03-28 17:45:43 · 1003 阅读 · 0 评论 -
初学大数据_day2_hdfs
HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。==分布式文件系统解决的问题就是大数据存储。==它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。原创 2024-03-28 16:48:35 · 578 阅读 · 0 评论