hadoop学习

最新推荐文章于 2024-08-29 08:36:17 发布

xiaomagezuishuai

最新推荐文章于 2024-08-29 08:36:17 发布

阅读量82

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/xiaomagezuishuai/article/details/115353257

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

hadoop安装

1.下载jdk
2.如果使用了阿里云服务器可通过scp 文件名用户名@IP地址:目录地址，上传jdk
3.vim /etc/profile 配置环境变量
4.下载hadoop.tar.gz
5.修改配置文件，主要有4个
core-site.xml
hadoop-env.sh
hdfs-site.xml
mapred-site.xml

http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html

a.hadoop-env.sh修改JAVA_HOME
JAVA_HOME=/java/jdk1.8.0_281
b.修改core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->
<configuration>
        <!-- 如果开启了namenode HA，那么就用fs.defaultFS，在单一namenode的情况下，就用 fs.default.name-->
        <property>
                <name>fs.default.name</name>
                <value>hdfs://localhost:9000</value>
        </property>
        <!-- hadoop工作目录-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/hadoop/workdir</value>
        </property>
         <!--元数据节点-->
        <property>
                <name>dfs.name.dir</name>
                <value>/hadoop/yuandir</value>
        </property>
</configuration>

NameNode和DataNode

NameNode负责存储文件和块之间的映射和块和DataNode之间的映射。
DataNode负责存储文件块，块的大小默认64M。
客户端与DataNode交互式，都要通过NameNode节点先定位DataNode，上传文件（NameNode负责分块（猜测）），查询文件。

MapReduce

运行远离，一个job分为maptask（数据节点）和reducetask。
maptask负责统计文件没小部分的计算统计。比如统计ip地址，会统计每个文件块，每个ip出现的次数。
reducetask，负责聚合多个maptask的结果，一个reducetask聚合一部分ip出现的次数。最终得到数据ip次数的结果，比大小排序，就能找到ip出现醉倒次数。

xiaomagezuishuai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习

hadoop安装1.下载jdk2.如果使用了阿里云服务器可通过scp 文件名用户名@IP地址:目录地址，上传jdk3.vim /etc/profile 配置环境变量4.下载hadoop.tar.gz5.修改配置文件，主要有4个core-site.xmlhadoop-env.shhdfs-site.xmlmapred-site.xmlhttp://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.htmla.hadoop-env.sh修改
复制链接

扫一扫

专栏目录