初识大数据——20180608_分布式集群资源管理框架,管理者集群的资源(memory,cpu core) 合理调度分配给各个-CSDN博客

本文链接：https://blog.csdn.net/zq771793683/article/details/80627474

一、学习大数据需要的基础

   java SE，EE(SSM)。 90%的大数据框架都是java写的
     MySQL：   SQL on Hadoop
     Linux：大数据的框架安装在Linux操作系统上

二、需要学什么

    第一方面：大数据离线分析
                  一般处理T+1数据
Hadoop 2.X：（common、HDFS、MapReduce、YARN）
                            环境搭建，处理数据的思想
Hive：大数据数据仓库，通过写SQL对数据进行操作，类似于mysql数据库中的sql
HBase：基于HDFS的NOSQL数据库，面向列的存储
协作框架： sqoop（桥梁：HDFS 《==》RDBMS）， flume:收集日志文件中信息
调度框架anzkaban,了解：crotab（Linux自带）、zeus(Alibaba)、Oozie(cloudera)

扩展前沿框架： kylin、impala、ElasticSearch（ES）
    第二方面：大数据实时分析
                       以spark框架为主
                       Scala：OOP + FP
                       sparkCore:类比MapReduce
                       sparkSQL:类比hive
                       sparkStreaming：实时数据处理
                       kafka:消息队列
   前沿框架扩展：flink
                       阿里巴巴 blink
    第三方面：大数据机器学习（扩展）
                       spark MLlib:机器学习库
                       pyspark编程：Python和spark的结合
                       推荐系统
                       python数据分析
                       Python机器学习

--------------------------------------------------------------------------------------------------------------------------------

环境搭建

    虚拟化软件：
                      虚拟出一台计算机(memory，CPU core，硬盘)
                      Linux centos 6.4
                      Apple i7 + 512SSD + 16G + 2G AMD
                      VMware 12.X

    安装虚拟机过程
                      1、导入虚拟机
                                           =》解压
                                           =》英文目录下
                                           =》导入VMware中
                                            【已移动】
                                           =》超级管理员用户
                      2、修改VMware Vmnt8的适配器网段地址192.168.66.100（随意地址）
                      3、虚拟机配置约束-->职业化
                                           使用普通用户：putong/putong
                                           主机名：bigdata-hpsk01.putong.com
                      4、基本操作(root用户来操作)

   创建普通用户
                                            #useradd putong
                                            #passwd putong
                                           修改主机名
                                            #vi /etc/syconfig/network
   配置ip和主机名映射
   配置ip
   UI界面

                                 主机名映射
注意：window也改一下
                    5、远程连接
                    6、配置普通用户huadian具有sudo权限
                                       visudo
7、关闭防火墙
                                       当前关闭
   sudo service iptables stop
                                       开机不启动
   sudo chkconfig iptables off
   检查设置是否成功
   chkconfig iptables --list
                                       关闭selinux
   vi /etc/selinux/config
   vi /etc/sysconfig/selinux
   设置SELINUX=disabled 该设置必须重启才能生效
   8、关闭虚拟机
                                       init 0 / halt
                                       虚拟机快照
   9、OK，开机工作

    大数据框架安装功能来划分
                     海量数据存储：
                                          HDFS、Hive（本质存储数据还是hdfs）、HBASE、ES
                     海量数据分析：
                                          MapReduce、Spark、SQL

最原始的Hadoop框架
数据存储：HDFS（Hadoop Distributed File System）
数据分析：MapReduce

    Hadoop的起源
                     Google的三篇论文
                     虽然Google没有公布这三个产品的源码，但是他发布了这三个产品的详细设计论文，奠定了风靡全球的大数据算
   法的基础！
                                        Google FS    HDFS
                                        MapReduce MapReduce
                                        BigTable                              HBase
                     将任务分解然后在多台处理能力较弱的计算节点中同时处理，然后将结果合并从而完成大数据处理。
                     google:android,搜索，大数据框架，人工智能框架
                     pagerank
    Hadoop介绍
                    大数据绝大多数框架，都属于Apache顶级项目
                     http://apache.org/
                     hadoop官网：
                     http://hadoop.apache.org/

    分布式                 相对于【集中式】,需要多台机器，进行协助完成。
                     元数据：记录数据的数据
                                         架构：
                                                  主节点Master 老大，管理者, 管理
                                                  从节点Slave 从属，奴隶，被管理者，干活

    Hadoop也是分布式架构
                     HDFS:
                                  主节点：NameNode         决定着数据存储到那个DataNode上
                                  从节点：DataNode 存储数据
                     MapReduce：分而治之思想
   将海量的数据划分为多个部分，每部分数据进行单独的处理，最后将所有结果进行合并
                           map task：单独处理每一部分的数据
                                             reduce task：合并map task的输出
                     YARN：分布式集群资源管理框架，管理者集群的资源（Memory,cpu core）
                                  合理调度分配给各个程序（MapReduce）使用
                                  主节点：resourceManager         掌管集群中的资源
                                  从节点：nodeManager         管理每台集群资源
                     总结：Hadoop的安装部署
                                  都属于java进程，就是启动了JVM进程，运行服务。
                                  HDFS：存储数据，提供分析的数据
NameNode/DataNode
                                  YARN:提供程序运行的资源
ResourceManager/NodeManager

安装前的准备

    伪分布式安装部署
        在一台机器上安装部署HDFS和YARN服务，相关服务都属于java进程，就是启动JVM服务，这些进程运行在一台机器上。
        规划Linux系统的目录结构。

        以系统/opt目录为主安装软件包
                          /opt
                                       /datas    测试数据
                                       /softwares 软件，上传的软件包
                                       /mudules                         软件安装目录
                                       /tools 开发的IDE及工具
                          将上述目录所属者和所属组改成putong
                                       chown putong:putong/datas /softwares /mudules /tools

卸载jdk
卸载系统自带的openjdk
查看：sudo rpm -qa |grep java
卸载步骤：
                                    sudo rpm -e --nodeps
java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 \
                                    tzdata-java-2012j-1.el6.noarch \
java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64

                      linux系统自带上传和下载软件
                                   sudo yum install -y lrzsz
                                                rz：上传文件，上传到当前执行rz命令的路径
                                                sz：下载文件

    安装jdk
                       注意：Linux安装jdk类似于Windows安装一个绿色版本软件直接解压，然后配置环境变量即可
                               （1）使用rz将jdk上传到/opt/softwares
                               （2）解压：   tar -zxf jdk-8u91-linux-x64.tar.gz -C /opt/modules/
                               （3）配置环境变量
                                                 sudo vi /etc/profile
                                                                 #JAVA_HOME
                                                                 export JAVA_HOME=/opt/modules/jdk1.8.0_91
                                                                 export PATH=${PATH}:${JAVA_HOME}/bin
                                                使其生效： source /etc/profile
                                                验证：   java -version