《Hadoop 1》--大数据概述,以及它与云计算、物联网间的联系; Hadoop 概述、Hadoop的安装、

一、大数据时代
   1、三次信息化浪潮
      第一次:1980左右,个人计算机的普及。社会生产力得到大大的提高
      第二次:1995左右,互联网的流行。门户网站的产生,信息量急剧增加
      第三次:2010之后,物联网,云计算,大数据的产生,数据爆发
   2、大数据时代来临的原因
       阶段1:运营式系统阶段
       阶段2:用户原创内容阶段
       阶段3: 感知式系统阶段
二、大数据的概念
    从大数据的特点来看(4V特点)
    1、数据量大(Volume)
              产生的数据多,数据集大
    2、数据种类多(Variety)
              结构化数据,半结构化数据,非结构化数据
    3、处理速度快(Velocity)
               产生的数据特别快,要快速处理大数据集,(为了数据价值的即时性)
    4、价值密度低(Value)
               庞大的数据中,只有极少部分数据有价值。
           举例说明:
           小区监控,1个月的数据中只有发生事件的几分钟的数据有价值
三、大数据的影响
    1、对科学研究有影响
       实验-->理论-->算法-->数据
    2、对人类思维方式的影响
             全样而非抽样
             效率而非精确
             相关而非因果
    3、对社会发展的影响
    4、对就业市场的影响
    5、对人才培养的影响
四、大数据的应用
    
    餐饮行业
    汽车行业
    金融行业
    医疗行业
    交通行业
    ....... 

   1024进位
   Byte->KB->MB->GB->TB->PB->EB->ZB


云计算:
    云计算是以虚拟技术为核心,进行统计管理硬件设施,平台,软件等。以低成本进行出租。类似于国家统一
    管理水,电,煤气等等。
    云服务分三类:
      基础设施即服务(IaaS)(I as  a  Service)
      平台即服务(PaaS)
      软件即服务(SaaS)
物联网:
    就是物物相连的互联网,是互联网的扩展。物与物,人与物。


大数据与云计算、物联网的关系
    大数据:侧重于数据的存储、处理和分析
    云计算:整合和优化IT资源,统计管理,以廉价出租给用户
    物联网:实现物与物相连。应用创新是物联网发展的核心

==============================================================
Hadoop的简介
   Apache Hadoop项目为可靠的、可伸缩的分布式计算开发开源软件,用java语言编写的,可以在任何一个
   有JVM的机器上运行。

   提供了两个核心技术:
   HDFS:hadoop分布式文件系统
   MapReduce:并行计算框架
   除了两个核心模块还有其他几个模块:
   Hadoop Common:最基本的模块
   Hadoop YARN:资源调度和管理系统
   Hadoop Ozone:对象存储技术
   Hadoop Submarine: Hadoop机器学习引擎
   Hadoop2.x版本 四个模块:common、HDFS、MapReduce、Yarn
   Hadoop3.x版本 以上六个模块都有

   学习版本:Hadoop2.7.3版本

Hadoop的生态系统
     围绕Hadoop为基础的其他技术
     Ambari:一个基于web的工具,用于配置、管理和监视Apache Hadoop集群
     Avro:一个用于数据序列化的系统工具
     HBase:一个可伸缩的分布式数据库,支持大表的结构化数据存储
     Hive:一种数据仓库基础设施,提供数据摘要和特殊查询。
Hadoop的发展史
    HDFS的起源来自于2003年谷歌的一篇论文:关于分布式文件系统GFS
    MapReduce起源于2004年谷歌的另外一篇论文:Mapreduce系统

    2006年2月份将NDFS和Mapreduce从Nutch项目抽出 行程一个子项目Hadoop.
    2008年Hadoop项目成为了apache旗下的顶级项目之一。
Hadoop的特点
    高可靠性:处理数据的能力比较稳定
    高效性:处理数据的速度快,针对于TB级别以上的数据集
    高可扩展性:集群节点可以扩展到千以上的数量
    高容错性:以多副本的形式存储数据,可以为失败的任务重启另外的节点
    成本低:可以运行在廉价的硬件上

====================================================
Hadoop的安装
  三种模式:
    1、独立模式(本地模式:Standalone/local)
         使用的文件系统:本地文件系统,运行在单个jvm上,一般用来进行开发测试MapReduce程序
    2、伪分布式 (Pseudo-Distributed )
    3、完全分布式 (Fully-Distributed)
安装条件:
   平台:Linux
   软件:jdk1.8 hadoop2.7.3 ssh

如何克隆一台虚拟机?

1、右键点击要克隆的机制
2、选择完整克隆
3、起名
4、开启机器后,配置static网络
5、修改网卡文件
   vim /etc/udev/rules.d/70-persistent-net.rules 

   注释掉 eth0

   将eth1改成eth0,记住MAC码
6、修改ifcfg-eth0文件
   修改mac码为 上面需要记住的mac
   再修改相应的网络模式下的静态ip
7、重启网络服务

8、修改主机名
   vim /etc/sysconfig/network
   hostname=主机名

================================
绑定主机名和ip地址
vim /etc/hosts

   ip hostname


   课外小知识:
         在window平台下,解压hadoop-2.7.3.tar.gz,(解压的位置路径不要有中文)将jar包和源码分离出来,
   以备以后方便查看。
       新建文件夹_jars,搜索hadoop-2.7.3下的所有jar包,copy一份到_jars里
       新建文件夹_sources,搜索_jars里的所有source.jar,剪切到_sources里
       新建文件夹_test,搜索_sources里的所有test,剪切到_test里
       新建文件夹_confs,搜索default.xml,将前四个copy到_confs里


   1、安装jdk
      (1)在用户的主目录下新建目录apps.
      (2)上传jdk-8u172-linux-x64.tar.gz
      (3)检查一下是否已经安装过
         rpm -qa | grep java
     如果安装过,请卸载(切换root用户:rpm -e --nodeps xxxx,卸载后,切换成普通用户)
     
      (4)解压:
     tar -zvxf jdk-8u172-linux-x64.tar.gz
      (5)创建软连接
         ln -s jdk1.8.0_172 jdk
      (6)配置环境变量
         vim ~/.bash_profile

     JAVA_HOME=/主目录/apps/jdk
     PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

     export JAVA_HOME PATH

      (7)重新加载配置文件
         source ~/.bash_profile     配置后,因为不管是login shell还是non-login shell,都不会再加载配置文件,
                                如果想重新加载配置文件,需要重新启动机器。如果不想重启,需要使用source或.
      (8)检查是否配置成功
         java -version
     javac
   2、Hadoop2.7.3的安装
      (1)上传hadoop-2.7.3.tar.gz到apps
      (2)解压hadoop压缩包
      (3)配置etc/hadoop/hadoop-env.sh
         JAVA_HOME=/主目录/apps/jdk
      (4)配置环境变量
         vim ~/.bash_profile

    HADOOP_HOME=/home/hyxy/apps/hadoop
    PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
    export PATH HADOOP_HOME
      (5)重新加载配置文件
         source ~/.bash_profile
      (6)检查是否配置成功
         hadoop
      (7)执行官网上的独立模式的案例


      PS:  UnknowHostname:master  域名解析错误。
           请修改/etc/hosts  追加 【ip   hostname】   重启机器生效

     
       


  

             
               

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值