![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
画龙点睛之笔
搞程序 变光光头
展开
-
3.3MapReduce实战
3.3.1 利用MRJob编写和运行MapReduce代码mrjob 简介使用python开发在Hadoop上运行的程序, mrjob是最简单的方式mrjob程序可以在本地测试运行也可以部署到Hadoop集群上运行如果不想成为hadoop专家, 但是需要利用Hadoop写MapReduce代码,mrJob是很好的选择mrjob 安装使用pip安装pip install mrjobmrjob实现WordCountfrom mrjob.job import MRJobclass原创 2020-06-29 11:34:26 · 300 阅读 · 0 评论 -
3.2分布式处理框架 MapReduce
3.2.1 什么是MapReduce源于Google的MapReduce论文(2004年12月)Hadoop的MapReduce是Google论文的开源实现MapReduce优点: 海量数据离线处理&易开发MapReduce缺点: 实时流式计算3.2.2 MapReduce编程模型MapReduce分而治之的思想数钱实例:一堆钞票,各种面值分别是多少单点策略一个人数所有的钞票,数出各种面值有多少张分治策略每个人分得一堆钞票,数出各种面值有多少张汇总,每个人负原创 2020-06-29 11:12:35 · 192 阅读 · 0 评论 -
3.1.1 什么是YARN
资源调度框架 YARN前面我们在分享Hadoop的核心组件的时候说过Yarn就是他的核心组件之一3.1.1什么是YARN- Yet Another Resource Negotiator, 另一种资源协调者- 通用资源管理系统- 为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处3.1.2 YARN产生背景通用资源管理系统Hadoop数据分布式存储(数据分块,冗余存储)当多个MapReduce任务要用到相同的hdfs数据, 需要进行资源调度管原创 2020-06-20 11:31:59 · 240 阅读 · 0 评论 -
2.4 HDFS环境搭建
下载jdk 和 hadoop 放到 ~/software目录下 然后解压到 ~/app目录下tar -zxvf 压缩包名字 -C ~/app/配置环境变量vi ~/.bash_profileexport JAVA_HOME=/root/bigdata/jdkexport PATH=JAVAHOME/bin:JAVA_HOME/bin:JAVAHOME/bin:PATHexport HADOOP_HOME=/root/bigdata/hadoopexport PATH=HADOOPHO..原创 2020-06-17 12:17:13 · 107 阅读 · 0 评论 -
2.2 HDFS shell操作
2.2 HDFS shell操作调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式ls使用方法:hadoop fs -ls 如果是文件,则按照如下格式返回文件信息:文件名 <副本数> 文件大小 修改日期 修改时间 权限 用户ID 组ID如果是目录,则返回它直接子文件的一个列表,就像在Unix中一样。目录返回列表的信息如下:目录名 修改日期 修改时间 权限 用户ID 组ID示例:hadoop fs -ls /user/hadoop/file1 /u原创 2020-06-13 01:03:47 · 220 阅读 · 0 评论 -
2.1 分布式文件系统HDFS-使用
启动HDFS来到$HADOOP_HOME/sbin目录下执行start-dfs.sh[hadoop@hadoop00 sbin]$ ./start-dfs.sh可以看到 namenode和 datanode启动的日志信息 Starting namenodes on [hadoop00] hadoop00: starting namenode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-na.原创 2020-06-13 00:49:36 · 241 阅读 · 0 评论 -
1.3 Hadoop优势
高可靠数据存储: 数据块多副本数据计算: 某个节点崩溃, 会自动重新调度作业计算高扩展性存储/计算资源不够时,可以横向的线性扩展机器一个集群中可以包含数以千计的节点集群可以使用廉价机器,成本低Hadoop生态系统成熟总结:Hodoop是开源的而且生态系统成熟,所有很多公司都会使用他,安全性高,成本低,是分布式的存储和计算的系统,是大数据开发的首选...原创 2020-06-13 00:34:48 · 171 阅读 · 0 评论 -
1.2 Hadoop核心组件
1.2 Hadoop核心组件Hadoop是所有搜索引擎的共性问题的廉价解决方案如何存储持续增长的海量网页: 单节点 V.S. 分布式存储如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算HDFS 解决分布式存储问题MapReduce 解决分布式计算问题Hadoop Common: The common utilities that support the other Hadoop modules.(hadoop的核心组件)Hadoop Distributed File S原创 2020-06-13 00:28:07 · 318 阅读 · 0 评论 -
1.1什么是Hadoop
Hadoop名字的由来 - Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Hadoop的概念:**Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架允许使用简单的编程模型跨计算机集群分布式处理大型数据集可扩展: 从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储可靠的: 不依靠硬件来提供高可用性(high-availability),而是在应用层检测和处理故障,从而在计算机集群原创 2020-06-13 00:14:08 · 210 阅读 · 0 评论