大数据生态系统:
-
存储:hadoop hdfs
-
计算引擎:
-
map/reduce v1
-
map/reduce/v2(map/reduce on yarn)
-
Tez
-
spark
- Impala Pesto Drill 直接跑在hdfs上
-
pig(脚本方式)hive(SQL语言)跑在map/reduce上
-
hive on lez/sparkSQL
-
流式计算-storm
-
Kv store|
cassandra mongodb hbase -
Tensorflow Mahout
-
Zookeeper Protobuf
-
sqoop kafka flume…
虚拟机常用的软件:
- VMWare
- VirtualBox
需要5个软件(百度即可下载):
- VirtualBox(虚拟机软件)
- centos(linux系统)
- hadoop(linux版)
- jdk(linux版)
- xshell(远程登录软件附带xftp上传文件的)
- 将软件下载好后,首先将VirtualBox安装好,
- 点击新建:
-
设置内存大小,默认就可以
-
创建虚拟硬盘,默认的即可,
#选择动态分配
#文件位置和大小:默认即可,后期8G不够用,在扩就行 -
安装光驱:
- 启动:
- 启动过程中会自动检查磁盘,按Esc跳过即可 。jk
- 从windos往liunx点鼠标的时候会弹一框, 框的意思是捕获鼠标,意思就是,这个时候你鼠标的操作是在liunx中进行的,这个时候鼠标是出不来的,要出来按Ctrl键就能出来了。
- 安装界面:
- 选中文(自行决 定)
- 在安装位置图标上有一个感叹号,点进去在点完成即可。
- 有一个软件选择按钮,点进1去,在做服务器模拟的时候,最小安装时不够的,所以我们选择:基础设施服务器,点完成。
- 点开始安装:
- 安装的同时设置一下root密码(如果密码简单需要点击两次完成)
- 等待,安装完成之后需要重启机器,点击重启