Hadoop平台测试

如果按照教程做,步骤:

(1)对Hadoop进行格式化处理,代码:

Hadoop Namenode –format
      易错:版本问题可能导致:Hadoop 未知命令,或者没有Namenode的问题

解决:

hadoop namenode -format

(2)启动整个集群,代码:

start-all.sh

(3)运行jps查看结果,代码:

jsp

易错:运行jps之后发现没有JobTracker和TaskTracker进程

原因:Hdoop2.0.0之后已经取消了jobtracker和tasktracker,而且这两个进程已经封装到了container里面。使用YARN替代了原来的map/reduce。YARN号称是第二代map/reduce,速度比一代更快,且支持集群服务器数量更大。Hadoop 0.20.x和由其发展过来的1.0.x支持集群数量建议在3000台左右,最大支持到4000台。而hadoop 2.0和YARN宣称支持6000-10000台,CPU核心数支持200000颗。从集群数量和运算能力上说,似乎还是提高了不少的。并且加入了namenode的HA,也就是高可用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop 平台是一个用于处理大数据的开源软件框架,它提供了分布式存储和分布式计算的能力,为用户提供了一个高效、可靠、可扩展的平台来管理和处理海量数据。 Hadoop 平台的需求主要包括以下几个方面: 1. 大规模数据处理能力:Hadoop 平台需要具备处理海量数据的能力,因为在当今的数据驱动时代,数据量呈指数级增长。因此,Hadoop 平台需要提供高效的分布式文件系统来存储和管理大规模数据,并且能够支持并行处理数据的能力。 2. 可靠性和容错性:Hadoop 平台需要保证数据的可靠性和容错性。在分布式环境下,由于硬件故障或网络问题导致节点失效是非常常见的情况,因此 Hadoop 平台需要具备自动检测和恢复节点故障的能力,以保证整个系统的可靠性。 3. 高性能计算能力:Hadoop 平台需要具备高性能的计算能力,以便能够快速处理和分析海量数据。为了提高计算性能,Hadoop 平台采用了分布式计算的架构,充分利用集群的计算资源。 4. 统一的数据管理:Hadoop 平台需要提供统一的数据管理能力,将不同格式和类型的数据整合在一起进行管理和处理。这样可以方便用户在海量数据中进行数据挖掘、分析和查询,从而获得更多的业务洞察。 5. 开放性和可扩展性:Hadoop 平台需要具备开放的架构和接口,以便支持用户自定义的应用程序和工具的集成。同时,Hadoop 平台还需要具备良好的可扩展性,可以随着数据量的增加而动态扩展集群规模,以满足不断增长的数据处理需求。 总之,Hadoop 平台需要具备大规模数据处理、可靠性、高性能计算、统一的数据管理、开放性和可扩展性等一系列需求,以满足用户对海量数据的存储、管理和分析的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值