实战大数据的第一件事,那就是安装软件,安装hadoop了,
下面就是在安装前要对目录进行规划:
安装目录 数据存储目录 中间结果目录 pid目录 其他目录 安装目录 |
一般我们安装hadoop或者别的软件,框架本身占不了多大空间,所以一般安装在好一些的SAS硬盘就可,普通情况下,我们安装的目录通常是~/app/下面
数据存储目录
一般数据存储目录,因为要存储大量的数据,所以需求的磁盘空间比较大,所以我们不会把数据存储目录与软件的安装目录,比如不会和hadoop的安装目录放在一起,而是通常挂多个大的硬盘在上面,这样就会在多个硬盘上新建几个目录,比如d1,d2...
这样我们在读写时就会压力均衡
中间结果目录
这个因为要存储数据,与数据存储目录要求一样
pid目录
通常当我们在启动hadoop后,会有NameNode,DataNode等java进程启动,那么进程号就是pid,这个pid不是每次去生成,而是第一次生成后会保存在一个目录文件里,当我们jps或者ps -ef时,是从这个目录文件里读取出来的,如果我们不配置,那么默认就会在/tmp下新建了,这样在/tmp目录是规范的
其他目录
其实用到的一些目录
所以目录规划是很重要的,在生产上我们一定是提前规划好的