大数据笔记 3(hadoop入门基础)
第1章 大数据概论
1.1 大数据概念
大数据(Big Data)︰指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(来源于百度百科)
主要解决,海量数据的存储和海量数据的分析计算问题。
按顺序给出数据存储单位: bit、Byte、KB、MB、(GB、TB、PB、EB、ZB、YB、BB、NB、DB。
1 Byte = 8 bit
1 K= 1024 Byte
1 MB =1024 K
1 G = 1024 M
1 T = 1024 G
1 P = 1024 T
1.2大数据特点(4V)
1、Volume(大量 )
2、Velocity(高速)
3、Variety (多样)
4、Value(低价值密度)
1.3 大数据应用场景
1、物流仓储 :大数据分析系统助于商家精细化运营、提升销量、节约成本
2、销售 :分析用户消费习惯,为用户提供方便,从而提升商品销售。如经典案例,尿不湿+啤酒
3、旅游:深度结合大数据能力与旅游业需求,共建旅游产业智慧管理、智能服务和智慧销售未来。
4、广告:结合用户所看、所购买的账单等信息推送用户可能喜欢商品。
5、还有保险、金融、房产、人工只能等领域。
第2章 从Hadoop框架讨论大数据生态
1、hadoop是什么?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。(来源于百度百科)
2、hadoop发展史(可以了解一下,参考百度)
3、hadoop三大版本
hadoop三大发行版本:
APpache、Cloudera、Hortonworks
Apache Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
4、hadoop优势
5、hadoop组成
6、hadoop生态体系
续更
下期我会更新hadoop运行环境搭建(也是开发重点!!!)