Hadoop入门和基础概念1

0. 导学

课程

大数据:数据量非常大,数据的背后意味着的是价值

存在的两个重要问题?

  • 海量数据如何存储?分布式存储 Hadoop hdfs(分布式文件系统)
  • 海量数据如何计算?分布式计算 Hadoop mapreduce(分布式运算编程框架)
  • 集群资源任务调度?yarn (作业调度和集群资源管理的框架)

分布式:多台机器一起做一件事情

大数据是一个发展的趋势
学习之旅必须从Hadoop开始,将为后续工作打下坚实基础

主要是对Hadoop的核心 三大框架进行学习

在这里插入图片描述

如何学?

更多的是动手,写程序,梳理流程图


1. 大数据概念

目前数据存储单位已经进化到非常快的节奏
计量单位已经非常多,常规软件无法再一定时间进行记录和计算处理
根据分析大数据得到数据的价值和规律

CCTTV《大数据时代纪录片》


2. 大数据的特点

5V特征
  • volume体积大
  • variety种类来源多样化
  • value低价值密度
  • velocity速度快
  • Veracity数据的质量

半结构化数据:JSON,HTML,xml数据
不同于结构化数据


3. 大数据的应用场景

  • 电商
  • 传媒
  • 金融
  • 医疗

4. 大数据业务分析基本步骤

围绕着核心:数据
数据从哪里来,数据到哪里去
大数据应该干什么

数据收集-数据处理-数据分析-数据展现


5. 分布式技术

  • 一个硬件或者软件组件分布在不同的网络计算机上
  • 彼此之间通过消协传递进行通信
  • 一群相互独立计算机集合共同对外提供服务
  • 对于系统用户来说,就像是一台计算机在提供服务

6. 分布式和集群

  1. 分布式distributed
  • 多台机器
  • 每台机器上部署不同的组件
  1. 集群cluster
  • 多台机器
  • 每台机器上部署相同的组件

集群的时候要进行负载均衡,明确要使用哪个服务器
搭建分布式的Hadoop集群

评估指标

  • 伸缩性
  • 负载均衡(多个一起处理)
  • 故障处理

7. Hadoop概述

是Apache开发的Java的开源软件,与其说是软件,不如说是框架和平台

- HDFS:Hadoop的分布式文件系统 大数据存储
- YARN:解决资源任务调度 
- MAPREDUCE:解决大数据的计算问题

广义来说,它更是一个大数据生态圈
创作之父Doug Cutthing

Hadoop特性优点

  • 扩容能力
  • 成本低
  • 效率高
  • 可靠性高

Hadoop发行版本

  • 开源社区版本
  • 商业发行版本
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王摇摆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值