作业7.17

最新推荐文章于 2024-09-23 17:00:37 发布

X_rourou

最新推荐文章于 2024-09-23 17:00:37 发布

阅读量557

点赞数

文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/x_rourou/article/details/75267987

版权

本文介绍了大数据的基本概念，如结构化与非结构化数据的区别，大数据的4V特性，以及数据仓库的定义。接着，深入讲解了CAP理论，探讨分布式系统的权衡。最后，详细描述了在Ubuntu环境下安装Hadoop的过程，包括JDK的离线安装、环境变量配置及Hadoop的启动测试。

摘要由CSDN通过智能技术生成

1.结构化与非结构化区别

结构化数据：即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

非结构化数据：包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等。

2.大数据是什么，有什么特点？

大数据指一般的软件工具难以捕捉、管理和分析的大容量数据。

大数据有4V特征：Volume(大量)、Velocity(实时)、Variety(多样)、Value(价值)。

大数据(big data)，或称海量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

3.数据仓库

数据仓库英文名称为Data Warehouse，可简写为DW或DWH，是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据库：传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。

数据仓库：数据仓库系统的主要应用主要是OLAP（On-Line Analytical Processing），支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

4.cap理论

CAP理论指出：一个分布式系统不可能同时满足一致性（Consistency），可用性（Availibility）和分区容忍性（Partition Tolerance）这三个需求。最多只能同时满足其中的两个。

安装hadoop

环境：VM10+ubuntu64作为实验环境

为操作系统添加hadoop用户并设置密码
之后对Hadoop的操作均由hadoop用户完成

创建hadoop用户
执行命令 # adduser  hadoop
    #  adduser  hadoop --add_extra_groups sudo

后续步骤安装软件目录 /home/hadoop/安装包

连接新建的 hadoop 用户
确认 sudo su 命令可用

1.安装JDK
我们可以使用两种方法安装JDK,一种是在线安装。另一种是先下载JDK安装包然后再离线安装。

离线安装：
把离线包拷入到ubuntu的当前用户hadoop的software文件夹下,然后执行命令安装。

$mkdir   ~/software
$tar  -zxvf   jdk-7u80-linux-x64.tar.gz   
$mv  jdk1.7.0_80/  ../jdk1.7

安装完jdk后，需要配置环境变量，把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

执行命令
# sudo   gedit  /etc/profile.d/java.sh

打开/etc/profile文件在文件中添加如下配置
export   JAVA_HOME=/home/ hadoop/ jdk1.7
export   CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export   PATH=$JAVA_HOME/bin:$PATH

使profile文件修改配置生效
执行命令
$ source /etc/profile   
$ java -version

2.安装hadoop

拷贝到hadoop用户目录中,执行命令进行安装 
执行命令
tar   xvf   hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 ~

修改hadoop环境变量配置

执行命令　　
$sudo   gedit   /etc/profile.d/hadoop.sh

export HADOOP_HOME=/home/hadoop/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

注意写配置值时，不要换行

使hadoop命令配置生效

执行命令
source  /etc/profile 

或注销再登录当前用户

启动Hadoop

进入到 /home/hadoop/hadoop-2.6.0/etc/hadoop目录
执行命令
$ cd hadoop-2.6.0/etc/hadoop/
$ ls

编辑hadoop-env.sh文件，修改参数信息

执行命令$cd  hadoop-2.6.0/ etc/hadoop$sudo gedit hadoop-env.sh 
export JAVA_HOME=/home/hadoop/jdk1.7

使hadoop命令配置生效

执行命令
source  /etc/profile

测试Hadoop环境可用性

执行命令
$ hadoop

X_rourou

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫