Hadoop
一·
简介:是一个开源的分布式计算和存储框架,为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。并且Hadoop使用Java开发所以可爱在多种不同硬件上部署和使用。作用就是在多计算机集群环境中营造一个统一而稳定的存储和计算环境,并能为其他分布式应用服务提供平台支持。
二·
-
1相关运行环境:由于 Hadoop 是为集群设计的软件,所以我们在学习它的使用时难免会遇到在多台计算机上配置 Hadoop 的情况。所以我在这里采用Docker(Docker 是一个容器管理系统,它可以向虚拟机一样运行多个"虚拟机"(容器),并构成一个集群。因为虚拟机会完整的虚拟出一个计算机来,所以会消耗大量的硬件资源且效率低下,而 Docker 仅提供一个独立的、可复制的运行环境,实际上容器中所有进程依然在主机上的内核中被执行,因此它的效率几乎和主机上的进程一样)
-
2Docker相关部署:在这里采用linux操作系统,安装过程就省略了。**因为Hadoop 支持在单个设备上运行,主要有两种模式:单机模式和伪集群模式。**这里就先采用单机模式,先创建一个容器,名为:"wkpJavaContainer"用于配置一个包含 Java 和 SSH 的环境:
docker run -d --name=wkpJavaContainer --privileged centos:8 /usr/sbin/init
之后我们进入容器docker exec -it java_ssh_proto bash
后我们配置镜像(网上有相关配置),再安装 OpenJDK 8 和 SSH 服务:yum install -y java-1.8.0-openjdk-devel openssh-clients openssh-server
之后我们启动SSH服务systemctl enable sshd && systemctl start sshd
3创建 Hadoop 单机容器:
docker run -d --name=hadoop_single --privileged java_ssh /usr/sbin/init
将下载好的 hadoop 压缩包拷贝到容器中的 /root 目录下:
docker cp <你存放hadoop压缩包的路径> hadoop_single:/root/
进入容器:
docker exec -it hadoop_single bash
进入 /root 目录并且这里应该存放着刚刚拷贝过来的 hadoop-x.x.x.tar.gz 文件,现在解压它:
tar -zxf hadoop-3.1.4.tar.gz
解压后将得到一个文件夹 hadoop-3.1.4,现在把它拷贝到一个常用的地方:
mv hadoop-3.1.4 /usr/local/hadoop
然后配置环境变量:
echo "export HADOOP_HOME=/usr/local/hadoop" >> /etc/bashrc
echo "export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin" >> /etc/bashrc
然后退出 docker 容器并重新进入。这时,echo $HADOOP_HOME 的结果应该是 /usr/local/hadoop
echo "export JAVA_HOME=/usr" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh
echo "export HADOOP_HOME=/usr/local/hadoop" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh
使用hadoop version
以下命令判断是否成功
三·算了不想写了,就这样吧,下次再说。