大数据技术——处理架构Hadoop

2.1 概述

2.1.1  Hadoop简介

Hadoop Apache 软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
Hadoop 是基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
Hadoop 的核心是分布式文件系统 HDFS Hadoop Distributed File System )和 MapReduce
Hadoop 被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
几乎所有主流厂商都围绕 Hadoop 提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持 Hadoop

2.1.2  Hadoop发展简史

 

2.1.3  Hadoop的特性

    

Hadoop 的主要特性包括:

  1. 分布式存储:Hadoop 使用 Hadoop 分布式文件系统(HDFS)来存储数据,将数据分散存储在多台计算机上,提高了数据的可靠性和容错性。

  2. 分布式计算:Hadoop 使用 MapReduce 编程模型,可以在大规模的数据集上执行并行计算任务。MapReduce 将计算任务分为映射(Map)和归约(Reduce)两个阶段,使大规模数据的处理变得更容易。

  3. 扩展性:Hadoop 具有高度的可扩展性,可以轻松地增加计算节点以应对不断增长的数据量。

  4. 容错性:Hadoop 具有内置的容错机制,可以处理硬件故障,确保计算不会因节点故障而中断。

  5. 生态系统:Hadoop 生态系统包括许多附加组件,如 Apache Hive、Apache Pig、Apache HBase 等,这些组件扩展了 Hadoop 的功能,使其更适合各种大数据处理需求。

Hadoop 已经成为处理大数据的重要工具,广泛用于企业和研究机构,用于存储、处理和分析大规模数据集。它在云计算、商业智能、日志分析等领域都有广泛的应用。

2.1.4  Hadoop的应用现状

Hadoop 凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地
2007 年,雅虎在 Sunnyvale 总部建立了 M45—— 一个包含了 4000 个处理器和 1.5PB 容量的 Hadoop 集群系统
Facebook 作为全球知名的社交网站, Hadoop 是非常理想的选择, Facebook 主要将 Hadoop 平台用于日志处理、推荐系统和数据仓库等方面
国内采用 Hadoop 的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的 Hadoop 集群比较大

2.2 Hadoop项目结构

 

2.3 Hadoop的安装与使用

2.3.1 Hadoop安装之前的预备知识

1)选择哪个Linux发行版?

Linux 系统各个发行版中, CentOS 系统和 Ubuntu 系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以建议使用 CentOS Ubuntu
在学习 Hadoop 方面,虽然两个系统没有多大区别,但是推荐使用 Ubuntu 操作系统

2)选择32位还是64位?

如果电脑比较老或者内存小于 2G ,那么建议选择 32 位系统版本的 Linux
如果内存大于 4G ,那么建议选择 64 位系统版本的 Linux
建议电脑比较新或者配置内存 4G 以上的电脑可以选择虚拟机安装
电脑较旧或配置内存小于等于 4G 的电脑强烈建议选择双系统安装,否则,在配置较低的计算机上运行 LInux 虚拟机,系统运行速度会非常慢
鉴于目前教师和学生的计算机硬件配置一般不高,建议在实践教学中采用双系统安装,确保系统运行速度

关于Linux的一些基础知识

Shell
是指“提供使用者使用界面”的软件(命令解析器),类似于 DOS 下的 command 和后来的 cmd.exe 。它接收用户命令,然后调用相应的应用程序
sudo 命令
sudo ubuntu 中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要 root 权限执行的操作。当使用 sudo 命令时,就需要输入您当前用户的密码
输入密码
Linux 的终端中输入密码,终端是不会显示任何你当前输入的密码,也不会提示你已经输入了多少字符密码,读者不要误以为键盘没有响应
输入法中英文切换
linux 中英文的切换方式是使用键盘“ shift” 键来切换,也可以点击顶部菜单的输入法按钮进行切换。 Ubuntu 自带的 Sunpinyin 中文输入法已经足够读者使用
Ubuntu 终端复制粘贴快捷键
Ubuntu 终端窗口中,复制粘贴的快捷键需要加上 shift, 即粘贴是 ctrl+shift+v

Hadoop安装方式

安装 Hadoop 时,你可以选择不同的模式,包括单机模式、伪分布式模式和分布式模式。以下是这三种模式的详细说明和安装步骤:

  1. 单机模式:

    • 单机模式是最简单的 Hadoop 部署模式,通常用于开发和测试目的。它在一台机器上运行 Hadoop,不使用分布式文件系统(HDFS)。
    • 下面是在单机模式下安装和配置 Hadoop 的一般步骤:
      • 下载 Hadoop 安装包,并解压到本地文件夹。
      • 配置 Hadoop 环境变量,如 HADOOP_HOMEJAVA_HOME
      • 配置 Hadoop 的核心配置文件,如 core-site.xmlhdfs-site.xml,以指定本地文件系统路径。
      • 创建 HDFS 数据存储目录。
      • 启动 Hadoop 服务并运行 MapReduce 任务。
  2. 伪分布式模式:

    • 伪分布式模式允许在一台机器上模拟分布式环境,使用 HDFS 存储数据,但是 HDFS 的名称节点和数据节点都在同一台机器上。
    • 安装伪分布式模式的一般步骤如下:
      • 下载 Hadoop 安装包,并解压到本地文件夹。
      • 配置 Hadoop 环境变量,如 HADOOP_HOMEJAVA_HOME
      • 配置 Hadoop 的核心配置文件,如 core-site.xmlhdfs-site.xml,以指定 HDFS 的数据存储路径。
      • 启动 HDFS 和 YARN(资源管理器)守护进程。
      • 创建 HDFS 数据存储目录。
      • 启动 Hadoop 服务,并运行 MapReduce 任务。
  3. 分布式模式:

    • 分布式模式是用于生产环境的 Hadoop 部署,它使用真正的分布式文件系统(HDFS),并将 HDFS 的名称节点和数据节点分布在不同的机器上。
    • 安装分布式模式需要更多的硬件和网络配置,以确保节点之间的通信和容错性。
    • 安装分布式模式的一般步骤如下:
      • 配置多台计算机,为每台计算机分配特定的角色,如名称节点、数据节点、资源管理器、任务跟踪器等。
      • 安装 Hadoop 安装包并在所有节点上配置 Hadoop 环境变量和配置文件。
      • 启动 HDFS 和 YARN 守护进程。
      • 创建 HDFS 数据存储目录。
      • 启动 Hadoop 服务,确保节点之间的通信正常。

2.3.2 安装Linux虚拟机

1、下载VirtualBox虚拟机软件

https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe

2. 下载Ubuntu LTS 16.04(或18.04 ISO映像文件

Ubuntu LTS 16.04下载:https://www.ubuntu.org.cn/download/ubuntu-kylin

Ubuntu LTS 18.04下载:https://ubuntu.com/download/desktop

 

2.3.3 安装双操作系统

2.3.4 详解Hadoop的安装与使用

 

  • 16
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Imrea

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值