1.结构化与非结构化区别
结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
非结构化数据:包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等。
2.大数据是什么,有什么特点?
大数据指一般的软件工具难以捕捉、管理和分析的大容量数据。
大数据有4V特征:Volume(大量)、Velocity(实时)、Variety(多样)、Value(价值)。
大数据(big data),或称海量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
3.数据仓库
数据仓库英文名称为Data Warehouse,可简写为DW或DWH,是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
4.cap理论
CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility) 和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。
安装hadoop
环境:VM10+ubuntu64作为实验环境
为操作系统添加hadoop用户并设置密码
之后对Hadoop的操作均由hadoop用户完成
创建hadoop用户
执行命令 # adduser hadoop
# adduser hadoop --add_extra_groups sudo
后续步骤安装软件目录 /home/hadoop/安装包
连接新建的 hadoop 用户
确认 sudo su 命令可用
1.安装JDK
我们可以使用两种方法安装JDK,一种是在线安装。另一种是先下载JDK安装包然后再离线安装。
离线安装:
把离线包拷入到ubuntu的当前用户hadoop的software文件夹下,然后执行命令安装。
$mkdir ~/software
$tar -zxvf jdk-7u80-linux-x64.tar.gz
$mv jdk1.7.0_80/ ../jdk1.7
安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。
执行命令
# sudo gedit /etc/profile.d/java.sh
打开/etc/profile文件在文件中添加如下配置
export JAVA_HOME=/home/ hadoop/ jdk1.7
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
使profile文件修改配置生效
执行命令
$ source /etc/profile
$ java -version
2.安装hadoop
拷贝到hadoop用户目录中,执行命令进行安装
执行命令
tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 ~
修改hadoop环境变量配置
执行命令
$sudo gedit /etc/profile.d/hadoop.sh
export HADOOP_HOME=/home/hadoop/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
注意写配置值时,不要换行
使hadoop命令配置生效
执行命令
source /etc/profile
或注销再登录当前用户
启动Hadoop
进入到 /home/hadoop/hadoop-2.6.0/etc/hadoop目录
执行命令
$ cd hadoop-2.6.0/etc/hadoop/
$ ls
编辑hadoop-env.sh文件,修改参数信息
执行命令$cd hadoop-2.6.0/ etc/hadoop$sudo gedit hadoop-env.sh
export JAVA_HOME=/home/hadoop/jdk1.7
使hadoop命令配置生效
执行命令
source /etc/profile
测试Hadoop环境可用性
执行命令
$ hadoop