初识大数据Hadoop生态圈：搭建Hadoop伪分布式环境

东汉时

已于 2023-05-30 16:39:12 修改

阅读量740

点赞数 1

文章标签：大数据 hadoop 分布式 hdfs yarn

于 2023-05-28 19:20:32 首次发布

本文链接：https://blog.csdn.net/weixin_73609140/article/details/130889417

版权

前言

本系列文章会把精力放在项目流程构建、工具的使用、业务逻辑分析上，以项目形式贯穿大数据全流程，让大家对企业中的大数据项目整体流程有清晰的认知，后续的环境配置均使用单个主机形式，弱化环境可配置，使大家快速上手。

上一篇我搭建完成了Linux系统以及配置，本篇文章进行我的项目回顾和Hadoop环境准备

一、日志分析项目概述

1.概述

什么是网站日志？网站，或者说web服务器在运行过程中如果有用户访问了我们的服务器，它会把信息以文本形式自动记录下来，这个文件通常以.log结尾，一般称为服务器日志。

通过对网站日志的信息的统计分析，可以帮我们了解整个网站的运行情况，为公司后续的优化升级、公司营销策略等等提供依据。通常来说这个日志记录都会非常的大，特别是一些超大型的网站，有一个用户进行访问它就会记录下来，想象一下这个数据集会有多大？

1.1 日志组成

整个日志的组成会有一个标准的格式，一般来说日志里会包含用户的IP地址，比如什么时候访问的（请求日期），访问了哪个页面地址，状态码，获取到的字节数以及客户端的一些信息等等都会被记录下来。这些数据可能写入在一个文件中，也可能被分割成不同的日志，如访问日志、错误日志等等。

我们把日志通过大数据平台将它进行处理分析可视化，显示到网页上，以一个动态的图表来进行展现。如下图所示：

1.2 数据分析流程

再来看一下企业中大数据领域进行数据分析的整体流程，这是一个比较通用的流程，首先大数据领域会先进入到数据搜集阶段，这就是最初的阶段，进行采集数据，数据从哪来呢？有很多种地方，比如从数据库里去加载，从日志里去加载，或者说通过一些网络爬虫从其他的网站去采集，这些都是数据收集的方式，我们这门课主要是采集服务端的日志。

拿到数据以后肯定有些数据不符合要求。一般来说需要进行额外的处理。把一些杂乱的信息抛弃掉，最终处理完毕后我们会得到一个清洁的数据集，我们这里数据处理的方式会采用一个企业中比较常见的使用SQL的方式，也就是通过数据仓库的方式来进行处理。

得到清洁的数据集以后可以通过一些已有的模型和算法对它进行一些分析，最终分析出来的结果需要呈现出来，呈现分两种方式：第一种，可视化报告，因为企业对数据分析的最终目的是帮助企业更好的发展、更好的了解企业自身的运转情况，最终的目的是帮助决策者实施决策；第二种，应用到数据产品上，比如说你做了一个App，可以把分析出来的结果应用到你的软件上，这样最终又回归到了互联网上。本系列文章将会贯穿整体的流程。

二、项目架构

在这个项目的技术架构里我们会采用Flume去采集Nginx这样的日志，Nginx就是一个典型的Web服务器，采集过来以后我们会存储到Hadoop平台，本篇文章就会去搭建Hadoop的基本环境，数据集最终会存储到HDFS上，处理和分析我们会采用Hive的方式，Hive对这个结果处理分析完以后我们会将这个结果利用Sqoop导出到MySQL，最终利用一个JavaWeb的程序进行展现

我们将利用以上工具将整体流程走完。

1.使用技术

以下是我们将要使用到的技术，这里的重点是Hadoop、Hive、Sqoop以及Flume。数据可视化以及后端服务估计大家都会，不作为我们的重点。

下面我们来看一下Hadoop的基本概念：

2.Hadoop简介

想要先了解Hadoop是什么的各位请参考这篇文章：

深入浅出大数据：到底什么是Hadoop？ - 知乎

Hadoop是大数据领域里面非常经典的一个框架，我们一般学习大数据最先学习的可能就是Hadoop，Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。

什么叫分布式呢？当数据量很多的时候，单个机器是没有办法处理、也没有办法存储的。那么我们就需要用到多台机器去做这件事情，比方说现在有1T的文件，我们将其分散在十台电脑去存，计算的时候每台电脑分别去计算，最终把结果汇总一起，这种就叫分布式的计算平台。目前大数据领域都是采用这种思想。

同时Hadoop为用户提供了底层细节透明的分布式基础架构，什么叫“透明”？我们不需要去关心底层有多少台电脑，以及他们是怎么运转的等复杂情况，我们只需要在平台上直接编写程序就可以处理大批的数据，这会让初学者上手的时候比较简单。这也是为什么我们一般说学习大数据先学习Hadoop。Hadoop会帮我们写的应用程序部署在廉价的计算机集群当中，我们不需要用一些性能很好的机器，只需要大量的廉价的计算机帮我们做这件事情就可以了。Hadoop的核心有两部分，一个是分布式文件系统HDFS（Hadoop Distributed File System），HDFS一般来负责文件存储。另一个是MapReduce，MapReduce用来解决计算问题以及后续的处理和分析。接下来我们来了解一下Hadoop内部的核心组件的基本原理，大家简单了解一下就可以：