Hadoop单节点安装整理

1、用户创建(免登陆)

# 创建指定好GID和UID的用户
groupadd -g 900 hadoop  
useradd -g 900 -u 900 hadoop
su hadoop && cd ~
ssh-keygen -t rsa # 一直回车,创建免密公钥
cd ~/.ssh && cat id_rsa.pub >> authorized_keys # 创建并设置公钥到认证文件
chmod 600 authorized_keys # 检查认证文件权限
ssh hadoop@localhost # 验证免密登陆

2、下载Hadoop包并设置好相关目录

解压到/data目录,并创建好namenode和datanode文件夹

mkdir -p /data/hadoop/data/{datanode,namenode}

3、设置环境变量

hadoop-env.sh

# 指定Java程序
export JAVA_HOME=/usr/local/java/ 
# 如果修改默认SSH端口,设置SSH远程端口
export HADOOP_SSH_OPTS="-p 22220"

4、修改相关配置文件(/data/hadoop/etc/hadoop)

core-site.xml

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

hdfs-site.xml

<configuration>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/data/hadoop/data/namenode/</value>
  </property>
  <property>
    <name>dfs.datanode.name.dir</name>
    <value>file:/data/hadoop/data/datanode/</value>
  </property>
</configuration>

mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

5、启动

 /data/hadoop-2.8.5/bin/hadoop namenode -format
 /data/hadoop-2.8.5/sbin/start-all.sh 

6、进入 http://localhost:8088查看相关信息

7、hadoop自带wordcount测试

测试Hadoop包下的LICENSE文档

# 创建一个input文件夹
/data/hadoop/bin/hadoop dfs -mkdir /input

# 上传LICENSE文档
/data/hadoop/bin/hadoop dfs -put LICENSE /input

# 运行MapReduce
cd /data/hadoop/share/hadoop/mapreduce
/data/hadoop/bin/hadoop jar hadoop-mapreduce-examples.jar wordcount /input /output

# 查看output下的结果。ls 查看文件夹, cat 查看文件内容
/data/hadoop/bin/hadoop dfs -ls /output
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop和Spark是大数据处理领域中最流行的两个框架。以下是它们的知识点整理汇总: Hadoop: 1. Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。 2. Hadoop包括两个核心组件:HDFS(Hadoop分布式文件系统)和MapReduce(分布式计算框架)。 3. HDFS是一个分布式文件系统,用于存储大规模数据集。它将数据分成块并存储在不同的节点上,以实现数据的高可靠性和可扩展性。 4. MapReduce是一种分布式计算框架,用于处理大规模数据集。它将数据分成小块并在不同的节点上并行处理,以实现高效的数据处理。 5. Hadoop还包括其他组件,如YARN(资源管理器)和HBase(分布式NoSQL数据库)。 Spark: 1. Spark是一个快速、通用、可扩展的分布式计算框架,用于处理大规模数据集。 2. Spark的核心组件是Spark Core,它提供了分布式任务调度、内存计算和数据处理功能。 3. Spark还包括其他组件,如Spark SQL(用于结构化数据处理)、Spark Streaming(用于实时数据处理)和MLlib(用于机器学习)。 4. Spark使用RDD(弹性分布式数据集)作为其基本数据结构,它是一个可分区、可并行计算和可恢复的数据集合。 5. Spark支持多种编程语言,如Scala、Java、Python和R。 总结: Hadoop和Spark都是用于处理大规模数据集的分布式计算框架,它们有不同的核心组件和特点。Hadoop主要用于存储和处理大规模数据集,而Spark则更加注重数据处理的速度和效率。在实际应用中,可以根据具体需求选择合适的框架。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值