文章目录
1 大数据
1.1大数据的由来
大数据 谁着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快 随着互联网 物联网建设的加快,信息更是爆炸是增长 ,收集.检索.统计这些信息越发困难 必须使用新的技术来解决这些问题
/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre//usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre/
1.2 什么是大数据
大数据的定义
大数据指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量 . 高增长率和多样化的信息资产/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre/
是指从各种各样类型的数据中,快速获得有价值的信息.
大数据能做什么
1.3大数据特性
1.4大数据的特性
大数据的5V特性是什么?
Volume (大体量)
可以数百TB到数十到数百PB 甚至EB的规模
Variety (多样性)
大数据包括各种各样格式和形态的数据
Velocity(时效性)
很多大数据需要在一定的时间限度下得到及时处理
Veracity(准确性)
处理的结果要保证一定的准确性
value (大价值)
大数据包含很多深度的价值 大数据分析挖掘和利用将带来巨大的商业价值
2Hadoop
2.1hadoop 常用组件
2.2Hadoop 核心组件
2.3 hadoop 生态系统
2.4HDFS 结构
2.5 HDFS角色及概念
Hadoop 体系中数据存储管理的基础,是一个高度容错的系统,用于在低成本的通用硬件上运行
3 hadoop 安装与配置
3.1 Hadoop的部署模式有三种
- 单机
- 伪分布式
- 完全分布式
java 安装路径 rpm -ql java-1.8.0-openjdk
hadoop 配置文件 /usr/local/hadoop/etc/hadoo
3.2 hadoop 验证
3.3伪分布式
伪分布式的安装和完全分布式类似,区别是所有角色安装在一台机器上.使用本地磁盘,一般生产环境都会使用完全分布式.伪分布式一般是用来学习和测试
hadoop的功能
伪分布式的配置和完全分布式配置类似
Hadoop 配置文件及格式
4 HDFS 分布式文件系统
4.1 完全分布式
系统规划
4.2 搭建完全分布式
配置ssh 信任关系
不能出现要求输入yes的情况 每台机器都要能登录成功,包括本机
/etc/ssh/ssh_config
StrictHostKeyChecking no
ssh-keygen
ssh-copy-id nodeX; hadoop
HDFS 完全分布式系统配置
- 环境配置文件: hadoop -env.sh
- 核心配置文件: core-site.xml
- HDFS配置文件: hdfs-site.xml
- 节点配置文件: slaves
环境配置文件 参考单机分布式
核心配置文件 core-site.xml
- fs.defaultFS : 文件系统配置参数
- hadoop.tmp.dir: 数据目录配置参数
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://nn01:9000</value>
<description>default file system</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop</value>
</property>
</configuration>
HDFS 配置文件hdfs-site.xml
-Namenode : 地址声明
dfs.namenode.http-address
Secondarynamenode : 地址声明
dfs.namenode.secondary.http-address
文件冗余份数(备份)
dfs.replication
<property>
<name>dfs.namenode.http-address</name>
<value>nn01:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>nn01:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
节点配置文件slaves
只写DateNode 节点的主机名称
node1
node2
node3
同步配置
hadoop 所有节点的配置参数完全一样,在一台配置好后,把配置文件同步到其他所有主机上
[root@nn01 hadoop] cd /usr/local/hadoop/
[root@nn01 hadoop] ./bin/hdfs namenode -format //格式化 namenode
[root@nn01 hadoop] ./sbin/start-dfs.sh //启动
[root@nn01 hadoop] jps //验证角色
23408 NameNode
23700 Jps
23591 SecondaryNameNode
[root@nn01 hadoop] ./bin/hdfs dfsadmin -report //查看集群是否组建成功
Live datanodes (3): //有三个角色成功