大数据技术之Hadoop简介与概述和安装后练习

本文介绍了Hadoop的起源、特点和核心组件,包括分布式文件系统HDFS和MapReduce。Hadoop是一个可靠的、高效的、可扩展的开源分布式计算平台,适合处理海量数据。文中还详细说明了如何在Hadoop上进行文件操作,如创建目录、复制文件、运行MapReduce任务等。
摘要由CSDN通过智能技术生成

一、HADOOP简介

Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库,源自始于02年的Apache Nutch项目(一个开源的网络搜索引擎并且也是Lucene项目的一部分)。 在2004年,Nutch项目模仿GFS开发了自己的分布式文件系统NDFS,也就是HDFS的前身,04年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想,05年,Nutch开源实现了谷歌的MapReduce。到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop。
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce

二、Hadoop特点

Hadoop是对海量数据集进行分布式并行处理的高效、可靠、可伸缩的 软件框架,其特点如下:
高可靠性:多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务
高效性:成百上千台机器一起计算
高扩展性:可以不断往集群中添加机器
高容错性:
  • 26
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小嘤嘤怪学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值