![](https://img-blog.csdnimg.cn/20190918140012416.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 62
分享大数据相关知识
H.S.T不想卷
这个作者很懒,什么都没留下…
展开
-
大数据——数仓分层
首先需要理解数仓分层的概念并不是客观存在的,它是多数人的主观的臆断;所谓存在即合理,之所以要怎么分层就是很多人一开始就这么分,然后一致使用下来发现也跟预想的一样。于是,就有了数仓的层次概念。清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解原创 2022-05-17 12:08:53 · 1271 阅读 · 1 评论 -
mysql建表语句转hive sql
mysql建表语句转hive sql案例教学。原创 2022-09-06 15:24:25 · 1574 阅读 · 0 评论 -
大数据-常用端口说明
大数据-常用端口说明。原创 2022-08-25 20:20:13 · 524 阅读 · 0 评论 -
Hive-框架讲解
Hive是一款建立在Hadoop之上的开源数据仓库系统。Hive可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。原创 2022-08-23 18:02:33 · 652 阅读 · 2 评论 -
OLAP与OLTP的区别
联机事务处理过程(OLTP)与联机分析处理过程(OLAP)区别原创 2022-08-12 16:37:27 · 672 阅读 · 3 评论 -
Hadoop-YARN
YARN是一个资源管理系统,管理集群的硬件资源比如内存、CPU等;是一个调度平台,可以同时为多个程序计算资源如何分配,当然,YARN不仅仅支持MapReduce程序,理论上支持各种计算程序。本质上YARN不关心你的程序是干什么,只关心你要多少资源,统筹大局,在有的情况下给你,用完之后还我。...原创 2022-08-11 17:31:42 · 307 阅读 · 0 评论 -
Hive与HBase之间的区别和联系
Hive与Hbase的区别详解原创 2022-08-11 14:50:38 · 1962 阅读 · 4 评论 -
Hadoop-NativeCodeLoader问题
在日志内取消该方面的警告【推荐】原创 2022-08-10 15:46:14 · 593 阅读 · 0 评论 -
Hadoop-MapReduce机制原理
Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集);一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以;其中用户负责map、reduce两个阶段的业务问题,Hadoop负责底层所有的技术问题;...原创 2022-08-09 16:28:11 · 632 阅读 · 0 评论 -
hadoop集群搭建教程【实用版本】
hadoop集群搭建教程原创 2022-08-03 17:17:20 · 970 阅读 · 3 评论 -
Hadoop-HDFS角色工作机制
1、HDFS,分布式文件系统)HDFS是Hadoop应用程序使用分布式存储,HDFS集群主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。2、两个核心概念:三副本存储和Pipeline管道;3、上传流程详解;...原创 2022-07-30 17:12:15 · 1173 阅读 · 0 评论 -
Hadoop-文件配置说明
Hadoop-文件配置说明。原创 2022-07-29 15:28:48 · 653 阅读 · 0 评论