大数据与Hadoop

1 大数据

1.1大数据的由来

大数据 谁着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快 随着互联网 物联网建设的加快,信息更是爆炸是增长 ,收集.检索.统计这些信息越发困难 必须使用新的技术来解决这些问题

/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre//usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre/

1.2 什么是大数据

大数据的定义
大数据指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量 . 高增长率和多样化的信息资产/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre/
是指从各种各样类型的数据中,快速获得有价值的信息.

大数据能做什么
在这里插入图片描述

1.3大数据特性

在这里插入图片描述

1.4大数据的特性

大数据的5V特性是什么?
Volume (大体量)
可以数百TB到数十到数百PB 甚至EB的规模
Variety (多样性)
大数据包括各种各样格式和形态的数据
Velocity(时效性)
很多大数据需要在一定的时间限度下得到及时处理
Veracity(准确性)
处理的结果要保证一定的准确性
value (大价值)
大数据包含很多深度的价值 大数据分析挖掘和利用将带来巨大的商业价值

2Hadoop

2.1hadoop 常用组件

在这里插入图片描述

2.2Hadoop 核心组件

在这里插入图片描述

2.3 hadoop 生态系统

在这里插入图片描述

2.4HDFS 结构

在这里插入图片描述

2.5 HDFS角色及概念

Hadoop 体系中数据存储管理的基础,是一个高度容错的系统,用于在低成本的通用硬件上运行

3 hadoop 安装与配置

3.1 Hadoop的部署模式有三种

  • 单机
  • 伪分布式
  • 完全分布式

在这里插入图片描述
java 安装路径 rpm -ql java-1.8.0-openjdk
hadoop 配置文件 /usr/local/hadoop/etc/hadoo

3.2 hadoop 验证

在这里插入图片描述

3.3伪分布式

伪分布式的安装和完全分布式类似,区别是所有角色安装在一台机器上.使用本地磁盘,一般生产环境都会使用完全分布式.伪分布式一般是用来学习和测试
hadoop的功能
伪分布式的配置和完全分布式配置类似
Hadoop 配置文件及格式
在这里插入图片描述

4 HDFS 分布式文件系统

4.1 完全分布式

系统规划
在这里插入图片描述

4.2 搭建完全分布式

在这里插入图片描述
在这里插入图片描述

配置ssh 信任关系  
不能出现要求输入yes的情况 每台机器都要能登录成功,包括本机
/etc/ssh/ssh_config
StrictHostKeyChecking no
ssh-keygen
ssh-copy-id nodeX; hadoop 

HDFS 完全分布式系统配置

  • 环境配置文件: hadoop -env.sh
  • 核心配置文件: core-site.xml
  • HDFS配置文件: hdfs-site.xml
  • 节点配置文件: slaves

环境配置文件 参考单机分布式
核心配置文件 core-site.xml

  • fs.defaultFS : 文件系统配置参数
  • hadoop.tmp.dir: 数据目录配置参数
<configuration>
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://nn01:9000</value>
        <description>default file system</description>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/hadoop</value>
    </property>
</configuration>

HDFS 配置文件hdfs-site.xml
-Namenode : 地址声明
dfs.namenode.http-address
Secondarynamenode : 地址声明
dfs.namenode.secondary.http-address
文件冗余份数(备份)
dfs.replication

 <property>
        <name>dfs.namenode.http-address</name>
        <value>nn01:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>nn01:50090</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

节点配置文件slaves
只写DateNode 节点的主机名称
node1
node2
node3

同步配置
hadoop 所有节点的配置参数完全一样,在一台配置好后,把配置文件同步到其他所有主机上

    [root@nn01 hadoop]  cd /usr/local/hadoop/
    [root@nn01 hadoop] ./bin/hdfs namenode -format         //格式化 namenode
    [root@nn01 hadoop] ./sbin/start-dfs.sh        //启动
    [root@nn01 hadoop] jps        //验证角色
    23408 NameNode
    23700 Jps
    23591 SecondaryNameNode
    [root@nn01 hadoop] ./bin/hdfs dfsadmin -report        //查看集群是否组建成功
    Live datanodes (3):        //有三个角色成功


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值