本文将大数据学习门槛降到了地平线

最新推荐文章于 2023-12-23 14:33:38 发布

xllntld

最新推荐文章于 2023-12-23 14:33:38 发布

阅读量194

点赞数

文章标签： hadoop hdfs mapreduce

本文链接：https://blog.csdn.net/xllntld/article/details/109370141

版权

本文详细介绍了如何降低学习Hadoop的门槛，通过单机版Hadoop的安装、启动和运行示例，阐述了HDFS和MapReduce的基本原理。利用Docker简化配置，快速体验Hadoop大数据处理流程，并提供了管理系统访问方法和常见问题解答。

摘要由CSDN通过智能技术生成

Hadoop介绍

Hadoop-大数据开源世界的亚当夏娃。
核心是HDFS数据存储系统，和MapReduce分布式计算框架。

HDFS

原理是把大块数据切碎，

每个碎块复制三份，分开放在三个廉价机上，一直保持有三块可用的数据互为备份。使用的时候只从其中一个备份读出来，这个碎块数据就有了。

存数据的叫datenode（格子间），管理datenode的叫namenode（执伞人）。

MapReduce

原理是大任务先分堆处理-Map，再汇总处理结果-Reduce。分和汇是多台服务器并行进行，才能体现集群的威力。难度在于如何把任务拆解成符合MapReduce模型的分和汇，以及中间过程的输入输出都是什么。
,v>

单机版Hadoop介绍

对于学习hadoop原理和hadoop开发的人来说，搭建一套hadoop系统是必须的。但

配置该系统是非常头疼的，很多人配置过程就放弃了。
没有服务器供你使用

这里介绍一种免配置的单机版hadoop安装使用方法，可以简单快速的跑一跑hadoop例子辅助学习、开发和测试。
要求笔记本上装了Linux虚拟机，虚拟机上装了docker。

安装

使用docker下载sequenceiq/hadoop-docker:2.7.0镜像并运行。

[root@bogon ~]# docker pull sequenceiq/hadoop-docker:2.7.0  
2.7.0: Pulling from sequenceiq/hadoop-docker860d0823bcab: Pulling fs layer e592c61b2522: Pulling fs layer

下载成功输出

Digest: sha256:a40761746eca036fee6aafdf9fdbd6878ac3dd9a7cd83c0f3f5d8a0e6350c76a
Status: Downloaded newer image for sequenceiq/hadoop-docker:2.7.0

启动

[root@bogon ~]# docker run -it sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash --privileged=true
Starting sshd:                                             [  OK  ]
Starting namenodes on [b7a42f79339c]
b7a42f79339c: starting namenode, logging to /usr/local/hadoop/logs/hadoop-root-namenode-b7a42f79339c.out
localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-root-datanode-b7a42f79339c.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-root-secondarynamenode-b7a42f79339c.out
starting yarn daemons
starting resourcemanager, logging to /usr/local/hadoop/logs/yarn--resourcemanager-b7a42f79339c.out
localhost: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-root-nodemanager-b7a42f79339c.out

启动成功后命令行shell会自动进入Hadoop的容器环境，不需要执行docker exec。在容器环境进入/usr/local/hadoop/sbin，执行./start-all.sh和./mr-jobhistory-daemon.sh start historyserver，如下

bash-4.1# cd /usr/local/hadoop/sbin
bash-4.1# ./start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh

Starting namenodes on [b7a42f79339c]
b7a42f79339c: namenode running as process 128. Stop it first.

localhost: datanode running as process 219. Stop it first.
Starting secondary namenodes [0.0.0.0]
0.0.0.0: secondarynamenode running as process 402. Stop it first.

starting yarn daemons
resourcemanager running as process 547. Stop it first.
localhost: nodemanager running as process 641. Stop it first.  

bash-4.1# ./mr-jobhistory-daemon.sh start historyserver
chown: missing operand after `/usr/local/hadoop/logs'
Try `chown --help' for more information.
starting historyserver, logging to /usr/local/hadoop/logs/mapred--historyserver-b7a42f79339c.out

Hadoop启动完成，如此简单。

要问分布式部署有多麻烦，数数光配置文件就有多少个吧！我亲眼见过一个hadoop老鸟，因为新换的服务器hostname主机名带横线“-”，配了一上午，环境硬是没起来。

运行自带的例子

回到Hadoop主目录,运行示例程序

bash-4.1# cd /usr/local/hadoop
bash-4.1# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'
20/07/05 22:34:41 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
20/07/05 22:34:43 INFO input.FileInputFormat: Total input paths to process : 31
20/07/05 22:34:43 INFO mapreduce.JobSubmitter: number of splits:31
20/07/05 22:34:44 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1594002714328_0001
20/07/05 22:34:44 INFO impl.YarnClientImpl: Submitted application application_1594002714328_0001
20/07/05 22:34:45 INFO mapreduce.Job: The url to track the job: http://b7a42f79339c:8088/proxy/application_1594002714328_0001/
20/07/05 22:34:45 INFO mapreduce.Job: Running job: job_1594002714328_0001
20/07/05 22:35:04 INFO mapreduce.Job: Job job_1594002714328_0001 running in uber mode : false
20/07/05 22:35:04 INFO mapreduce.Job:  map 0% reduce 0%
20/07/05 22:37:59 INFO mapreduce.Job:  map 11% reduce 0%
20/07/05 22:38:05 INFO mapreduce.Job:  map 12% reduce 0%

mapreduce计算完成，有如下输出

20/07/05 22:55:26 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=291
                FILE: Number of bytes written=230541
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=569
                HDFS: Number of bytes written=197
                HDFS: Number of read operations=7
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=5929
                Total time spent by all reduces in occupied slots (ms)=8545
                Total time spent by all map tasks (ms)=5929
                Total time spent by all reduce tasks (ms)=8545
                Total vcore-seconds taken by all map tasks=5929
                Total vcore-seconds taken by all reduce tasks=8545
                Total megabyte-seconds taken by all map tasks=6071296
                Total megabyte-seconds taken by all reduce tasks=8750080
        Map-Reduce Framework
                Map input records=11
                Map output records=11
                Map output bytes=263
                Map output materialized bytes=291
                Input split bytes=132
                Combine input records=0
                Combine

最低0.47元/天解锁文章

xllntld

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
本文将大数据学习门槛降到了地平线

Hadoop介绍Hadoop-大数据开源世界的亚当夏娃。核心是HDFS数据存储系统，和MapReduce分布式计算框架。HDFS原理是把大块数据切碎，每个碎块复制三份，分开放在三个廉价机上，一直保持有三块可用的数据互为备份。使用的时候只从其中一个备份读出来，这个碎块数据就有了。存数据的叫datenode（格子间），管理datenode的叫namenode（执伞人）。MapReduce原理是大任务先分堆处理-Map，再汇总处理结果-Reduce。分和汇是多台服务器并行进行，才能体现.
复制链接

扫一扫