大数据入门学习全过程知识记录

0 前言:

自2月25起,实训20天,选择的大数据方向,最终团队需要给出一个大数据项目。0基础。

从2.18起,先一步入门学习预习大数据内容

以下记录所有的预习内容


1.体系:

MapReduce

hive    Hadoop扩展工具,使用sql转换为Hadoop任务

HBASE  关系型数据库,但是去除了事务这个特性,实现随机读取和实时访问。表数据读写

zookeeper   管理,监控Hadoop集群的状态并维护


2.安装流程:

linux环境

jdk环境及变量

Hadoop环境及变量

修改四个配置文件

格式化

启动


3.HDFS 分布式文件系统

3.1 基础

NameNode类似于  mysql里面的 索引机制,用于二次查询。

DataNode 则是实际存储管理数据块的单元,下图有5个DataNode。

3.2 数据管理

数据副本

心跳检测

DataNode定义向NameNode发送心跳消息

 

3.3 文件读写

 

3.4 特点

不支持修改,只能删除,不同于数据库

 

3.5 Hadoop命令操作

 


4.MapReduce

4.1 原理


5.单词计数的例子


------------------------------------------------------------------

..................................2.19 .....................................


HBase 学习   分布式数据库

1 基础 

 

2.表结构模型

允许 再一次分列    列簇。

 

----------------------------2.20  记录------------------------------------

Hive  学习   数据仓库

1.基础

数据是不会更新的,无更新删除操作,只有查询操作。

2.数据类型

类似与  mysql  也有对应的基本数据类型。  可以创建表。有远程连接的方式,类似于mysql。

char  varchar

 

3.数据模型

3.1 数据存储

3.2 内部表

 

3.3 分区表

3.4 外部表

3.5 桶表

hash操作

3.6 视图

同mysql  视图概念一样

 

 

 

 

------------------------------------------------------------------------------------------------------------------------

2月24日记录

1、python基础教学

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值