服务器集群
N个主机— 协作(虚拟机协作的主体) — 实现多主机协作的方式:hadoop 安装在所有的主机上的(前提需要安装jdk的)— 1master + n slave
大数据的服务器集群的搭建:
分布式服务器集群:多台主机 + linux + 1master+n slave
伪分布式服务器集群:在一台主机上模拟最终效果 hadoop
安装过程:jdk
hadoop:参数配置
多台主机==共同工作:如何分配谁干活、谁存储
mycat :将动作(管理)进行分工
要对数据进行分工的 = 存储 + 管理
DBMS :database manager system = 存储+管理
HBase:将数据(存储:存+备份)进行分工
大数据
大数据是如何管理数据的:BigData 侧重的是数据的分析
1、首先有数据:爬虫、需求方提供(大量的)–如何存储起来
存储基础的原始的数据(HBase分布式的数据库)
2、清洗数据(去除无效数据、对有效数据进行处理筛选)
更为精炼的、统一的数据
3、分析:数据分析、各种算法(不同语言处理算法方式不同)
计算后的结果性数据(需求)(Mysql+NoSql(mongoDB))
4、可视化:JavaScript(ECharts百度写的;N3.js) R语言
如何实现存储的分工:
mysql+hive : 偏向于后期分析处理结果
列族:无法一次性定义到具体列、字段;将同类型分成一个列族
列族定义的时候,完全不清楚具体有什么子列的