大数据
生产队的驴儿
一个人必须不停地写作,才能不被茫茫人海湮灭。
展开
-
Hive的基本概念101(接100)
Hive的基本概念 定义: 数仓工具 功能: 将结构化的数据文件映射为一张数据库表,提供sql查询。 本质: 将sql转为 mapreduce任务,底层由hdfs进行数据存储。 关键知识总结: 1。 hive 可以将 结构化的数据文件映射为一张表 2。hive可以使用类sql指令对结构化数据文件查询 create table t(id, name, date) select name,count(*) from t group by id; Hive元数据: 1记录 表 和文件之间的对应关系 2 记录表字段原创 2021-09-11 12:29:20 · 120 阅读 · 0 评论 -
数据仓库(100)
数据仓库 数据仓库:各种数据的中央存储系统,提供数据的存储,管理和分析功能。 功能:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),用于做数据分析。 通俗讲: 为数据挖掘,多维分析,决策支持,报表系统提供易用数据。 数据仓库 比较流行语言的有:AWS Redshift, Greenplum, Hive等 主要模块 1数据采集平台(数据仓库数据来源) 使用语言技术 2数据仓库 对数据分层建模,保证数据的准确性 使用语言技术 3数据可视化 使用语言技原创 2021-08-10 17:27:04 · 269 阅读 · 0 评论 -
Linux系统01(接大数据00)
Linux系统01 1. 计算机原理 1.1 原理 和 五大组件 原理: 基于冯诺依曼结构 五大组件: 运算器 储存器 控制器 输入设备 输出设备。 输入设备: 键盘 鼠标 U盘 等 存储器: 内存 硬盘。存储数据 运算器:负责运算。 控制器:负责什么时候存储数据,什么时候计算数据。 运算器+控制器 ===> CPU 输出设备:显示器,打印机。 1.1 软硬件 硬件:CPU 存储设备 输入输出设备。 软件:操作系统:linux unix window 系统软件:驱动程序 图形包 开发环境 数据库原创 2021-08-25 21:25:07 · 68 阅读 · 0 评论 -
大数据00
大数据 基本单位: 1T = 1024G 1P = 1024T 1E = 1024P 1Z = 1024E 1Y = 1024Z 1B = 1024Y 1N = 1024B 1D = 1024N 1. 定义 无法在一定时间范围内使用 常规软件工具进行捕捉,管理 和处理的数据集合。 存储问题: 海量数据存储----分布式存储 计算问题:海量数据计算----Hadoop Spark 廉价计算机组成集群,分散存储数据。 特点 大 多 值 快 信 大:数量体积大 目前 5EB 企业都达到E级了 多:种类多原创 2021-08-24 23:27:53 · 107 阅读 · 0 评论