《Hadoop 1》--大数据概述，以及它与云计算、物联网间的联系； Hadoop 概述、Hadoop的安装、

最新推荐文章于 2024-02-02 14:22:19 发布

yk_3215123

最新推荐文章于 2024-02-02 14:22:19 发布

阅读量221

点赞数

本文链接：https://blog.csdn.net/yk_3215123/article/details/88752616

版权

一、大数据时代
1、三次信息化浪潮
第一次：1980左右，个人计算机的普及。社会生产力得到大大的提高
第二次：1995左右，互联网的流行。门户网站的产生，信息量急剧增加
第三次：2010之后，物联网，云计算，大数据的产生，数据爆发
2、大数据时代来临的原因
阶段1：运营式系统阶段
阶段2：用户原创内容阶段
阶段3: 感知式系统阶段
二、大数据的概念
从大数据的特点来看(4V特点)
1、数据量大(Volume)
产生的数据多，数据集大
2、数据种类多(Variety)
结构化数据，半结构化数据，非结构化数据
3、处理速度快(Velocity)
产生的数据特别快,要快速处理大数据集，(为了数据价值的即时性)
4、价值密度低(Value)
庞大的数据中，只有极少部分数据有价值。
   举例说明：
   小区监控，1个月的数据中只有发生事件的几分钟的数据有价值
三、大数据的影响
1、对科学研究有影响
实验-->理论-->算法-->数据
2、对人类思维方式的影响
全样而非抽样
效率而非精确
相关而非因果
3、对社会发展的影响
4、对就业市场的影响
5、对人才培养的影响
四、大数据的应用

餐饮行业
汽车行业
金融行业
医疗行业
交通行业
.......

1024进位
Byte->KB->MB->GB->TB->PB->EB->ZB

云计算：
云计算是以虚拟技术为核心，进行统计管理硬件设施，平台，软件等。以低成本进行出租。类似于国家统一
管理水，电，煤气等等。
云服务分三类：
基础设施即服务(IaaS)(I as a Service)
平台即服务(PaaS)
软件即服务(SaaS)
物联网：
就是物物相连的互联网，是互联网的扩展。物与物，人与物。

大数据与云计算、物联网的关系
大数据：侧重于数据的存储、处理和分析
云计算：整合和优化IT资源，统计管理，以廉价出租给用户
物联网：实现物与物相连。应用创新是物联网发展的核心

==============================================================
Hadoop的简介
Apache Hadoop项目为可靠的、可伸缩的分布式计算开发开源软件，用java语言编写的，可以在任何一个
有JVM的机器上运行。

提供了两个核心技术：
HDFS:hadoop分布式文件系统
MapReduce：并行计算框架
除了两个核心模块还有其他几个模块：
Hadoop Common：最基本的模块
Hadoop YARN：资源调度和管理系统
Hadoop Ozone:对象存储技术
Hadoop Submarine: Hadoop机器学习引擎
Hadoop2.x版本四个模块：common、HDFS、MapReduce、Yarn
Hadoop3.x版本以上六个模块都有

学习版本：Hadoop2.7.3版本

Hadoop的生态系统
围绕Hadoop为基础的其他技术
Ambari：一个基于web的工具，用于配置、管理和监视Apache Hadoop集群
Avro：一个用于数据序列化的系统工具
HBase：一个可伸缩的分布式数据库，支持大表的结构化数据存储
Hive：一种数据仓库基础设施，提供数据摘要和特殊查询。
Hadoop的发展史
HDFS的起源来自于2003年谷歌的一篇论文：关于分布式文件系统GFS
MapReduce起源于2004年谷歌的另外一篇论文：Mapreduce系统

2006年2月份将NDFS和Mapreduce从Nutch项目抽出行程一个子项目Hadoop.
2008年Hadoop项目成为了apache旗下的顶级项目之一。
Hadoop的特点
高可靠性:处理数据的能力比较稳定
高效性:处理数据的速度快，针对于TB级别以上的数据集
高可扩展性:集群节点可以扩展到千以上的数量
高容错性:以多副本的形式存储数据，可以为失败的任务重启另外的节点
成本低:可以运行在廉价的硬件上

====================================================
Hadoop的安装
三种模式：
   1、独立模式（本地模式：Standalone/local）
   使用的文件系统：本地文件系统，运行在单个jvm上，一般用来进行开发测试MapReduce程序
   2、伪分布式 (Pseudo-Distributed )
   3、完全分布式 (Fully-Distributed)
安装条件：
平台：Linux
软件：jdk1.8 hadoop2.7.3 ssh

如何克隆一台虚拟机？

1、右键点击要克隆的机制
2、选择完整克隆
3、起名
4、开启机器后，配置static网络
5、修改网卡文件
   vim /etc/udev/rules.d/70-persistent-net.rules 

   注释掉 eth0

   将eth1改成eth0,记住MAC码
6、修改ifcfg-eth0文件
   修改mac码为 上面需要记住的mac
   再修改相应的网络模式下的静态ip
7、重启网络服务

8、修改主机名
   vim /etc/sysconfig/network
   hostname=主机名

================================
绑定主机名和ip地址
vim /etc/hosts

   ip hostname

课外小知识：
在window平台下，解压hadoop-2.7.3.tar.gz，(解压的位置路径不要有中文)将jar包和源码分离出来，
以备以后方便查看。
新建文件夹_jars,搜索hadoop-2.7.3下的所有jar包，copy一份到_jars里
新建文件夹_sources,搜索_jars里的所有source.jar,剪切到_sources里
新建文件夹_test,搜索_sources里的所有test，剪切到_test里
新建文件夹_confs,搜索default.xml，将前四个copy到_confs里

1、安装jdk
(1)在用户的主目录下新建目录apps.
(2)上传jdk-8u172-linux-x64.tar.gz
(3)检查一下是否已经安装过
rpm -qa | grep java
   如果安装过，请卸载(切换root用户:rpm -e --nodeps xxxx，卸载后，切换成普通用户)

(4)解压：
   tar -zvxf jdk-8u172-linux-x64.tar.gz
(5)创建软连接
ln -s jdk1.8.0_172 jdk
(6)配置环境变量
vim ~/.bash_profile

JAVA_HOME=/主目录/apps/jdk
PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

export JAVA_HOME PATH

(7)重新加载配置文件
source ~/.bash_profile 配置后，因为不管是login shell还是non-login shell，都不会再加载配置文件，
如果想重新加载配置文件，需要重新启动机器。如果不想重启，需要使用source或.
(8)检查是否配置成功
java -version
javac
2、Hadoop2.7.3的安装
(1)上传hadoop-2.7.3.tar.gz到apps
(2)解压hadoop压缩包
(3)配置etc/hadoop/hadoop-env.sh
JAVA_HOME=/主目录/apps/jdk
(4)配置环境变量
vim ~/.bash_profile

   HADOOP_HOME=/home/hyxy/apps/hadoop
   PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
   export PATH HADOOP_HOME
(5)重新加载配置文件
source ~/.bash_profile
(6)检查是否配置成功
hadoop
(7)执行官网上的独立模式的案例

PS: UnknowHostname:master 域名解析错误。
请修改/etc/hosts 追加【ip hostname】重启机器生效

yk_3215123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Hadoop 1》--大数据概述，以及它与云计算、物联网间的联系； Hadoop 概述、Hadoop的安装、

一、大数据时代 1、三次信息化浪潮第一次：1980左右，个人计算机的普及。社会生产力得到大大的提高第二次：1995左右，互联网的流行。门户网站的产生，信息量急剧增加第三次：2010之后，物联网，云计算，大数据的产生，数据爆发 2、大数据时代来临的原因阶段1：运营式系统阶段阶段2：用户原创内容阶段阶...
复制链接

扫一扫