初识大数据——20180608

一、学习大数据需要的基础

     java SE,EE(SSM)。 90%的大数据框架都是java写的
     MySQL:   SQL on Hadoop
     Linux: 大数据的框架安装在Linux操作系统上

二、需要学什么疑问

    第一方面:大数据离线分析
                  一般处理T+1数据
                  Hadoop 2.X:(common、HDFS、MapReduce、YARN)
                                              环境搭建,处理数据的思想
                  Hive: 大数据数据仓库,通过写SQL对数据进行操作,类似于mysql数据库中的sql
                  HBase: 基于HDFS的NOSQL数据库,面向列的存储
                  协作框架:  sqoop(桥梁:HDFS 《==》RDBMS)flume:收集日志文件中信息
                                    调度框架anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
                  扩展前沿框架:  kylin、impala、ElasticSearch(ES)
    第二方面:大数据实时分析
                       以spark框架为主
                       Scala:OOP + FP
                       sparkCore:类比MapReduce
                       sparkSQL:类比hive
                       sparkStreaming:实时数据处理
                       kafka:消息队列
                       前沿框架扩展:flink 
                       阿里巴巴 blink
    第三方面:大数据机器学习(扩展)
                       spark MLlib:机器学习库
                       pyspark编程:Python和spark的结合
                       推荐系统
                       python数据分析
                       Python机器学习


--------------------------------------------------------------------------------------------------------------------------------

环境搭建

    虚拟化软件:
                      虚拟出一台计算机(memory,CPU core,硬盘)
                      Linux centos 6.4
                      Apple i7 + 512SSD + 16G + 2G AMD
                      VMware 12.X
    安装虚拟机过程
                      1、导入虚拟机
                                           =》解压
                                           =》英文目录下
                                           =》导入VMware中
                                            【已移动】
                                           =》超级管理员用户
                      2、 修改VMware Vmnt8的适配器网段地址192.168.66.100(随意地址)
                      3、虚拟机配置约束-->职业化
                                           使用普通用户:putong/putong
                                           主机名:bigdata-hpsk01.putong.com
                      4、基本操作(root用户来操作)
                                           创建普通用户
                                            #useradd putong
                                            #passwd putong
                                           修改主机名
                                            #vi /etc/syconfig/network
                                           配置ip和主机名映射
                                           配置ip
                                           UI界面

                                           主机名映射
                                            注意:window也改一下
                    5、远程连接
                    6、配置普通用户huadian具有sudo权限
                                       visudo
                    7、关闭防火墙
                                       当前关闭
                                       sudo service iptables stop
                                       开机不启动
                                       sudo chkconfig iptables off
                                       检查设置是否成功
                                       chkconfig iptables --list
                                       关闭selinux
                                       vi /etc/selinux/config
                                       vi /etc/sysconfig/selinux
                                       设置SELINUX=disabled  该设置必须重启才能生效
                     8、关闭虚拟机
                                       init 0 / halt
                                       虚拟机快照
                     9、OK,开机工作
    大数据框架安装功能来划分
                     海量数据存储:
                                          HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES
                     海量数据分析:
                                          MapReduce、Spark、SQL
    最原始的Hadoop框架
                      数据存储:HDFS(Hadoop Distributed File System)
                      数据分析:MapReduce
    Hadoop的起源
                     Google的三篇论文
                     虽然Google没有公布这三个产品的源码, 但是他发布了这三个产品的详细设计论文, 奠定了风靡全球的大数据算
                     法的基础!

                                        Google FS                            HDFS
                                        MapReduce                         MapReduce
                                        BigTable                              HBase
                     将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。
                     google:android,搜索,大数据框架,人工智能框架
                     pagerank
    Hadoop介绍
                    大数据绝大多数框架,都属于Apache顶级项目
                     http://apache.org/
                     hadoop官网:
                     http://hadoop.apache.org/
    分布式                  相对于【集中式】,需要多台机器,进行协助完成。
                     元数据:记录数据的数据
                                         架构:
                                                  主节点Master 老大,管理者, 管理
                                                  从节点Slave 从属,奴隶,被管理者,干活
    Hadoop也是分布式架构
                     HDFS:
                                  主节点:NameNode         决定着数据存储到那个DataNode上
                                  从节点:DataNode           存储数据
                     MapReduce: 分而治之思想
                                             将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结果进行合并
                                             map task: 单独处理每一部分的数据
                                             reduce task: 合并map task的输出 
                     YARN: 分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)
                                  合理调度分配给各个程序(MapReduce)使用
                                  主节点:resourceManager         掌管集群中的资源
                                  从节点:nodeManager         管理每台集群资源
                     总结:Hadoop的安装部署
                                  都属于java进程,就是启动了JVM进程,运行服务。
                                  HDFS:存储数据,提供分析的数据
                                  NameNode/DataNode
                                  YARN:提供程序运行的资源
                                  ResourceManager/NodeManager

安装前的准备

    伪分布式安装部署
        在一台机器上安装部署HDFS和YARN服务, 相关服务都属于java进程,就是启动JVM服务,这些进程运行在一台机器上。
        规划Linux系统的目录结构。
        以系统/opt目录为主安装软件包
                          /opt
                                       /datas                              测试数据
                                       /softwares                       软件,上传的软件包
                                       /mudules                         软件安装目录
                                       /tools                               开发的IDE及工具
                          将上述目录所属者和所属组改成putong
                                       chown putong:putong/datas /softwares /mudules /tools
    卸载jdk
                      卸载系统自带的openjdk
                      查看:sudo rpm -qa |grep java
                      卸载步骤:
                                    sudo rpm -e --nodeps
                                    java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 \
                                    tzdata-java-2012j-1.el6.noarch \
                                    java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64
  
                      linux系统自带上传和下载软件
                                   sudo yum install -y lrzsz
                                                rz:上传文件, 上传到当前执行rz命令的路径
                                                sz:下载文件
    安装jdk
                       注意:Linux安装jdk类似于Windows安装一个绿色版本软件直接解压,然后配置环境变量即可
                               (1)使用rz将jdk上传到/opt/softwares
                               (2)解压:   tar -zxf jdk-8u91-linux-x64.tar.gz -C /opt/modules/
                               (3)配置环境变量
                                                 sudo vi /etc/profile
                                                                 #JAVA_HOME
                                                                 export JAVA_HOME=/opt/modules/jdk1.8.0_91
                                                                 export PATH=${PATH}:${JAVA_HOME}/bin
                                                使其生效: source /etc/profile
                                                验证:   java -version

最后别忘了快照

以下这是针对 selinux配错会出现开不了机的情况,以下链接地址可以解决

鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视鄙视

https://blog.csdn.net/longyinyushi/article/details/51000115
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值