hadoop是一个分布式系统基础架构,最擅长做海量日志分析,用于解决的问题是:
HDFS:海量数据存储
MapReduce:海量数据的分析
YARN:资源管理调度
hdfs的存储方式
往服务器上写数据时,不是直接把数据放到机子上,而是把整块数据切成很多个小块,每台机器上可以存相同的数据块,这就保证了集群存储和副本保存。客户端访问时,多个服务器还可以并发的为一个客户端服务。
学习状态下的hadoop配置:
修改主机名:vi /etc/sysconfig/network
配置域名解析器:vi /etc/hosts
关闭防火墙:service iptables stop
关闭防火墙自启动服务:chkconfig iptables off
ssh 密钥登录机制:
core-site.xml:最少有两个配置项
分别为fs.defaultFS、hadoop.tmp.dir
fs.defaultfs表示默认hadoop的文件系统,一般为hdfs://主机名:端口
hadoop.tmp.dir表示hadoop的工作目录
示例:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://h1:9000</value>
</property><!-- 指定 hadoop 运行时产生文件的存储路径 --><property>
<name>hadoop.tmp.dir</name>
<value>/root/tmp</value>
</property>
</configuration>
hdfs-site:必须配置的默认值是,dfs.replication,表示HDFS 的数据块的副本存储个数
示例:
<property>
<name>dfs.replication</name>
<value>2</value>
<description>HDFS 的数据块的副本存储个数</description>
</property>
mapred-site.xml的配置信息,mapreduce.framework.name,表示mapreduce程序到哪个集群上面跑,如果不指定为yarn,就只能在本地上跑
mapreduce.framework.name yarn
yarn-site.xml的配置信息,
yarn.resourcemanager.hostname,表示yarn集群的主节点
yarn.nodemanager