大数据与Hadoop

最新推荐文章于 2021-12-06 18:38:35 发布

ycchuan1

最新推荐文章于 2021-12-06 18:38:35 发布

阅读量98

点赞数

分类专栏： ARCHITECTURE

本文链接：https://blog.csdn.net/ycchuan1/article/details/103967491

版权

ARCHITECTURE 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1 大数据
2Hadoop
3 hadoop 安装与配置
4 HDFS 分布式文件系统
- 4.1 完全分布式
- 4.2 搭建完全分布式

1 大数据

1.1大数据的由来

大数据谁着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快随着互联网物联网建设的加快,信息更是爆炸是增长 ,收集.检索.统计这些信息越发困难必须使用新的技术来解决这些问题

/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre//usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre/

1.2 什么是大数据

大数据的定义
大数据指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量 . 高增长率和多样化的信息资产/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre/
是指从各种各样类型的数据中,快速获得有价值的信息.

大数据能做什么
在这里插入图片描述

1.3大数据特性

在这里插入图片描述

1.4大数据的特性

大数据的5V特性是什么?
Volume (大体量)
可以数百TB到数十到数百PB 甚至EB的规模
Variety (多样性)
大数据包括各种各样格式和形态的数据
Velocity(时效性)
很多大数据需要在一定的时间限度下得到及时处理
Veracity(准确性)
处理的结果要保证一定的准确性
value (大价值)
大数据包含很多深度的价值大数据分析挖掘和利用将带来巨大的商业价值

2Hadoop

2.1hadoop 常用组件

在这里插入图片描述

2.2Hadoop 核心组件

在这里插入图片描述

2.3 hadoop 生态系统

在这里插入图片描述

2.4HDFS 结构

在这里插入图片描述

2.5 HDFS角色及概念

Hadoop 体系中数据存储管理的基础,是一个高度容错的系统,用于在低成本的通用硬件上运行

3 hadoop 安装与配置

3.1 Hadoop的部署模式有三种

单机
伪分布式
完全分布式

在这里插入图片描述
java 安装路径 rpm -ql java-1.8.0-openjdk
hadoop 配置文件 /usr/local/hadoop/etc/hadoo

3.2 hadoop 验证

在这里插入图片描述

3.3伪分布式

伪分布式的安装和完全分布式类似,区别是所有角色安装在一台机器上.使用本地磁盘,一般生产环境都会使用完全分布式.伪分布式一般是用来学习和测试
hadoop的功能
伪分布式的配置和完全分布式配置类似
Hadoop 配置文件及格式
在这里插入图片描述

4 HDFS 分布式文件系统

4.1 完全分布式

系统规划
在这里插入图片描述

4.2 搭建完全分布式

在这里插入图片描述

配置ssh 信任关系  
不能出现要求输入yes的情况 每台机器都要能登录成功,包括本机
/etc/ssh/ssh_config
StrictHostKeyChecking no
ssh-keygen
ssh-copy-id nodeX; hadoop

HDFS 完全分布式系统配置

环境配置文件: hadoop -env.sh
核心配置文件: core-site.xml
HDFS配置文件: hdfs-site.xml
节点配置文件: slaves

环境配置文件参考单机分布式
核心配置文件 core-site.xml

fs.defaultFS : 文件系统配置参数
hadoop.tmp.dir: 数据目录配置参数

<configuration>
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://nn01:9000</value>
        <description>default file system</description>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/hadoop</value>
    </property>
</configuration>

HDFS 配置文件hdfs-site.xml
-Namenode : 地址声明
dfs.namenode.http-address
Secondarynamenode : 地址声明
dfs.namenode.secondary.http-address
文件冗余份数(备份)
dfs.replication

 <property>
        <name>dfs.namenode.http-address</name>
        <value>nn01:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>nn01:50090</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

节点配置文件slaves
只写DateNode 节点的主机名称
node1
node2
node3

同步配置
hadoop 所有节点的配置参数完全一样,在一台配置好后,把配置文件同步到其他所有主机上

    [root@nn01 hadoop]  cd /usr/local/hadoop/
    [root@nn01 hadoop] ./bin/hdfs namenode -format         //格式化 namenode
    [root@nn01 hadoop] ./sbin/start-dfs.sh        //启动
    [root@nn01 hadoop] jps        //验证角色
    23408 NameNode
    23700 Jps
    23591 SecondaryNameNode
    [root@nn01 hadoop] ./bin/hdfs dfsadmin -report        //查看集群是否组建成功
    Live datanodes (3):        //有三个角色成功

ycchuan1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据与Hadoop

文章目录1 大数据1.1大数据的由来1.2 什么是大数据1.3大数据特性1.4大数据的特性2Hadoop2.1hadoop 常用组件2.2Hadoop 核心组件2.3 hadoop 生态系统2.4HDFS 结构2.5 HDFS角色及概念1 大数据1.1大数据的由来大数据谁着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快随着互联网物联...
复制链接

扫一扫