Hadoop基础(一) --- 大数据4V特征、Hadoop 简介、模块、安装、配置独立模式,伪分布模式和完全分布式


[大数据4V特征]
-----------------------------------------------------
    1.Volum : 体量大
    
    2.velocity: 速度快
    
    3.variaty: 样式多
    
    4.value: 价值密度低
    
    
[分布式]
-------------------------------------------------------
    1.由分布在多台主机上的进程,协同在一起,才能构成整个应用
    
    2.browser/web server : 瘦客户端程序
    
    
[Hadoop 简介]
------------------------------------------------------
    1.可靠,可伸缩,分布式计算的开源软件
    
    2.是一个框架,允许跨越计算机集群的大数据分布式化处理,使用简单的编程模型(MapReduce)
    
    3.可从单个服务器扩展到几千台主机。每台节点都提供了计算和存储
    
    4.不依赖硬件,在应用层面上实现

    
[Hadoop 模块]
--------------------------------------------------------
    1.hadoop common
    
    2.HDFS: hadoop distributed file system hadoop 分布式文件系统
    
    3.Hadoop YARN: 作业调度和资源管理的框架
    
    4.Hadoop MapReduce : 基于YARN系统的大数据集并行处理技术    
    

[Hadoop 安装]
----------------------------------------------------------    
    1.下载hadoop.2.7.2.tar.gz
        
    2.tar开,复制到/soft文件夹下
        
    3.创建符号链接 hadoop
        
    4.配置环境变量
        Ubuntu: /etc/environment
        Centos: /etc/profile
            
    5.测试运行
        $> source /etc/environment
        $> source hadoop version
        

[配置:独立模式standalone]
-------------------------------------------------------
    解压配置好环境变量即可,不需要额外做配置工作        
    没有守护进程,所有程序运行在同一个jvm中,利于test和debug


[配置:伪分布模式pseudo distributed Mode]
------------------------------------------------------------------------
    1.配置文件路径 ${HADOOP_HOME}/etc/hadoop/ *-site.xml
        
    2.配置core-site.xml            //配置核心文件:使用hdfs文件系统协议
            <?xml version="1.0"?>
            <configuration>
                <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://localhost/</value>
                </property>
            </configuration>
            
    3.配置hdfs-site.xml            //配置hdfs文件系统: 副本数 1
            <?xml version="1.0"?>
            <configuration>
                <property>
                    <name>dfs.replication</name>
                    <value>1</value>
                </property>
            </configuration>
            
    4.配置mapred-site.xml        //配置计算框架 : yarn
            <?xml version="1.0"?>
            <configuration>
                <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
                </property>
            </configuration>
            
    5.配置yarn-site.xml        //配置yarn框架: 资源管理器主机和辅助服务:localhost ,mapreduce_shuffle
            <configuration>
                <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>localhost</value>
                </property>
                <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                </property>
            </configuration>
                    
    6.配置SSH:登陆远程主机,无口令提示
            $>sudo apt-get install ssh        //安装服务端sshd和客户端ssh
            //(安装之前要修改163或者阿里源,并且更新和升级)
            $>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa        //生成秘钥对:公钥和私钥
            $>cat id_rsa.pub >> ~/.ssh/authorized_keys        //将公钥发给对方,并添加到对方的认证库中
            $>ssh localhost    //连接,yes
            $>exit
            
    7.格式化hdfs文件系统
            a.$> hdfs namenode -format
            b.报错:java.net.UnknownHostException: 主机名: 主机名
            修改/etc/hosts文件
            127.0.0.1 主机名 localhost.localdomain localhost
            或是再添加一条 
            127.0.0.1 主机名 
            主机名是新加的,原来没有,保存,问题解决。
            
    8.启动 hdfs 和 yarn守护进程
            $> start-dfs.sh            //启动hadoop分布式文件系统    
            $> start-yarn.sh        //启动yarn资源管理框架
            $> jps                     //查看进程
            
    9.停止 hdfs 和 yarn
            $> stop-dfs.sh            //停止hadoop分布式文件系统
            $> stop-yarn.sh            //停止yarn资源管理框架
            $> jps                     //查看进程
            
    10.创建hdfs目录
            a. $> hadoop fs -mkdir -p /user/ubuntu         //创建目录 -p 多级目录
            a. $> hadoop fs -ls /                          //显示根目录
            a. $> hadoop fs -ls -R /                     //递归显示根目录 hadoop fs -lsr /

11.查看帮助
    $> hadoop fs                //直接回车,查看fs:文件系统的帮助
    $> hadoop fs -help put        //查看文件系统下的具体命令的帮助(help)

12.查看namenode 和 datanode 在本地系统的表现方式
    $> cd /tmp/ubuntu-hadoop/dfs/name/...
    $> cd /tmp/ubuntu-hadoop/dfs/data/...

13.查看日志log
    a.$> ${HADOOP_HOME}/logs
    b.通过webui查看
    http://localhost:50070/        //查看namenode的信息
    http://localhost:8088/        //查看resourceManager集群信息,只有在本机访问才可以
    http://localhost:19888/        //查看历史服务器hsitory的日志

14.通过netstat 查看端口占用情况
    $> netstat -lupt


【配置:完全分布模式】
------------------------------------------------------------------------------------------
    1.主机安装java

    2主机安装hadoop

    3.克隆主机

    4.配置每台机器的ssh,方便scp
        首先要重新生成克隆机的keygen,因为现在是克隆主机的秘钥
        $>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa        //生成秘钥对:公钥和私钥

        将主机的keygen 发送到每个克隆机
                $>cat id_rsa.pub >> ~/.ssh/authorized_keys        //将公钥发给对方,并添加到对方的认证库中
        因为是克隆的,所以,每个机器的authorized_keys,都已经有了id_rsa.pub ,故可省略

    5.更改每台主机的用户
        更改用户名   --/etc/hostname   
        -- s100 s200 s300 s400 s500
        更改ip映射    --/etc/hosts
        -- 更改ip 和主机名对应,并且远程拷贝(scp)到各个主机
        -- $> scp hosts root@s200:/etc/

    6.配置slaves(一行一个ip 或者主机名,对应DataNode)[ /soft/hadoop/etc/hadoop/slaves ]
        //注意没有s100和s500,这个是配置三个数据节点的DataNode的
        //s100 是名称节点 NameNode
        //s500 是第二名称节点 Sec Name Node
        s200
        s300
        s400

    7.修改配置文件,并远程拷贝到每个节点(我用的s100作为名称节点)
        进入/soft/hadoop/etc 下,拷贝文件夹 
        cp  -r hadoop_pesudo  hadoop_cluster

    修改文件夹hadoop_cluster下的配置文件
        a.-- 配置core-site.xml            //配置核心文件:使用hdfs文件系统协议        
                    <?xml version="1.0"?>
                    <configuration>
                        <property>
                            <name>fs.defaultFS</name>
                            <value>hdfs://s100/</value>        //名称节点的主机名或者ip
                        </property>
                    </configuration>
                    
        b.-- 配置hdfs-site.xml            //配置hdfs文件系统: 副本数3
                    <?xml version="1.0"?>
                    <configuration>
                        <property>
                            <name>dfs.replication</name>
                            <value>3</value>        //最小副本数
                        </property>
                    </configuration>
                    
        c.-- 配置mapred-site.xml        //配置计算框架 : yarn
                    <?xml version="1.0"?>
                    <configuration>
                        <property>
                            <name>mapreduce.framework.name</name>
                            <value>yarn</value>
                        </property>
                    </configuration>
                    
        d.-- 配置yarn-site.xml        //配置yarn框架: 资源管理器主机和辅助服务:localhost ,mapreduce_shuffle
                    <configuration>
                        <property>
                            <name>yarn.resourcemanager.hostname</name>
                            <value>s100</value>    //名称节点的主机名或者ip
                        </property>
                        <property>
                            <name>yarn.nodemanager.aux-services</name>
                            <value>mapreduce_shuffle</value>
                        </property>
                    </configuration>

        e.-- 远程拷贝到每个节点
            $> scp hadoop_cluster ubuntu@s200:/soft/hadoop/etc/
            $> scp hadoop_cluster ubuntu@s300:/soft/hadoop/etc/
            $> scp hadoop_cluster ubuntu@s400:/soft/hadoop/etc/
            $> scp hadoop_cluster ubuntu@s500:/soft/hadoop/etc/

    6.格式化s100名称节点的磁盘
        //1.使用 --config dir 指定命令运行目录
        $> hdfs --config /soft/hadoop/etc/hadoop_cluster/ namenode -format

        //2.进入目录检查一下
        $> cat /tmp/hadoop-ubuntu/dfs/name/current/VERSION

        7.在s100上启动集群
        //1.$> start-dfs.sh

        //2.s100,jps显示应该开启两个进程 NameNode  和  Sec NameNode
            s200 s300 s400 上jps只有DataNode

        //3.start-dfs.sh:通过配置文件,启动Hadoop集群

    8.在s100上启动yarn框架
        //1.$> start-yarn.sh
        //此命令会启动s100的ResoucesManager
        s200 s300 s400 的NodeManager

 

9.在s500上配置Sec NameNode

-- 配置hdfs-site.xml //配置hdfs文件系统: 副本数3

<?xml version="1.0"?>

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value> //最小副本数

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<values500:50090</value> //最小副本数

</property>

</configuration>

 

10.修改Ubuntu缓存文件夹(默认是 /tmp/hadoop-ubuntu下)

-- 【core-site.xml】

-- 修改: hadoop.tmp.dir=/home/ubuntu/hadoop

 

11.修改hdfs默认块大小(默认是128M)

-- 【hdfs-site.xml 】

-- 添加一组属性

dfs.blocksize=8m //64k , 64m, 1g

-- 测试

put 文件 > 8m ,通过webui 查看块大小

 


【Hadoop 端口】
---------------------------------------------------------------------------------------
    1.http://localhost:50070/            //查看namenode的信息
    2.http://localhost:8088/            //查看resourceManager集群信息,只有在本机访问才可以
    3.http://localhost:19888/            //查看历史服务器hsitory的日志
    4.hdfs://namenode:8020/        //name rpc(remote procedure call 远程调用端口)

    
  

【配置Ubuntu文本模式启动】

-----------------------------------------------------------------------------

1.$> sudo nano /etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT="text" //改成文本模式

GRUB_TERMINAL=console //原来是注释掉的,要打开注释

 

2.$> sudo update-grub

 

3.$> sudo reboot

 

4.$> sudo startx //在文本模式下启用图形界面

 

【客户机关机命令】

-----------------------------------------------------------------

1.$> sudo pwoeroff

2.$> sudo shut down -h 0

1.$> sudo halt

 

    
    

    
    
    

    
    
    
    
    
    
    

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是Hadoop安装教程-单机-分布式配置-Hadoop2.6.0-Ubuntu14.04详细教程教学: 1. 安装Java Hadoop是基于Java开发的,因此需要先安装Java。可以在终端中输入以下命令进行安装: ```bash sudo apt-get update sudo apt-get install default-jdk ``` 2. 下载Hadoop 可以在Hadoop官网下载Hadoop压缩包,也可以在终端中输入以下命令进行下载: ```bash wget https://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz ``` 3. 解压Hadoop 在终端中输入以下命令解压Hadoop压缩包: ```bash tar -xzvf hadoop-2.6.0.tar.gz ``` 4. 配置Hadoop环境变量 打开终端中的/etc/environment文件,并在其中添加以下内容: ```bash export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin ``` 其中,/path/to/hadoopHadoop所在的路径。保存文件后,输入以下命令使配置生效: ```bash source /etc/environment ``` 5. 配置Hadoop 进入Hadoop目录,编辑etc/hadoop/hadoop-env.sh文件。找到以下行: ```bash export JAVA_HOME=${JAVA_HOME} ``` 将其修改为: ```bash export JAVA_HOME=/usr/lib/jvm/default-java ``` 保存文件并关闭。 6. 配置HDFS 进入etc/hadoop目录,编辑hdfs-site.xml文件。添加以下内容: ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/path/to/hadoop/data/dfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/path/to/hadoop/data/dfs/datanode</value> </property> </configuration> ``` 其中,/path/to/hadoop/data为Hadoop数据存储路径。 7. 配置YARN 进入etc/hadoop目录,编辑yarn-site.xml文件。添加以下内容: ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration> ``` 8. 配置MapReduce 进入etc/hadoop目录,编辑mapred-site.xml文件。添加以下内容: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 9. 格式化HDFS 在终端中输入以下命令格式化HDFS: ```bash hdfs namenode -format ``` 10. 启动Hadoop 在终端中输入以下命令启动Hadoop: ```bash start-all.sh ``` 11. 验证Hadoop 在浏览器中输入http://localhost:50070,即可访问Hadoop Web UI。在该页面中可以查看HDFS的状态、数据块、节点等信息。 以上就是Hadoop安装教程-单机-分布式配置-Hadoop2.6.0-Ubuntu14.04详细教程教学。希望对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值