- 博客(3)
- 收藏
- 关注
原创 数据仓库学习笔记三
外部表的真实数据不被Hive管理,即当删除一-张内部表时,元数据以及HDFS上的真实数据均被删除,而删除外部表则只会删除元数据而不会删除真实数据。RCFILE遵循“先水平划分,再垂直划分-的设计理念:首先把Hive表水平切分成多个行组,保证同一行的数据位于同一节点, 其次在行组内按照“列”垂直切分,实现列与列的数据在磁盘上呈现为连续的存储块。Hive中的数据分为真实数据与元数据,一般来说Hive存储格式是指真实数据的存储格式。分区的作用是提高查询的效率,其在HDFS中表现为表目录下的子目录。
2024-03-28 15:59:16 566
原创 入门及库表操作
数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。云数据仓库不仅具有本地数据仓库的杰出特性,同时又有云计算的强大优势,例如出色的灵活性、可扩展性、敏捷性和安全性,以及更低的成本。数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。任何数据仓库设计都必须解决以下问题: 具体的数据内容、各数据组内部及相互之间的关系、 支撑数据仓库的系统环境、数据转换类型、数据刷新频率。
2024-03-14 16:01:08 642
原创 Hive环境配置
Docker Desktop for Windows 使用 Windows 原生 Hyper-V 虚拟化和网络,是在 Windows 上开发Docker 应用程序的最快、最可靠的方式。Docker Desktop是适用于Windows的Docker桌面,是Docker设计用于在Windows 10上运行。下载地址:https://desktop.docker.com/win/stable/amd64/Docker%20Desktop%20Installer.e xe。1. 打开“控制面板”,选择“程序”。
2024-03-14 16:00:31 600
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人