正式从数据库往大数据,冲冲冲!!!
先把整体框架以及整体思路建立,好理解
Hadoop的思想之源:Google
Google搜索引擎,Gmail,安卓,AppspotGoogle Maps,Google earth,Google 学术,Google翻译,Google+,
下一步Google what??
不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务
全世界多个数据中心,有些附带发电厂
运营商向Google倒付费
Google面对的数据和计算难题
大量的网页怎么存储?
搜索算法
Page-Rank计算问题
倒排索引
Page Rank :
这是Google最核心的算法,用于给每个网页价值评分,是Google“在垃圾中找黄金 ”的关键算法,这个算法成就了今天的Google
Map-reduce思想:计算PR
Google带给我们的关键技术和思想
GFS
Map-Reduce
Bigtable
Hadoop的源起——Lucene
Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能 ,它提供了全文检索引擎的架构,包括完整的查询引
擎和索引引擎
早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的 一个子项目
Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中 实现全文检索的功能,或者是以此为基础建立起完整
的全文检索引擎
对于大数量的场景,Lucene面对与Google同样的困难。迫使Doug Cutting学习和模 仿Google解决这些问题的办法
一个微缩版:Nutch
目前Hadoop达到的高度
实现云计算的事实标 准开源软件
包含数十个具有强大 生命力的子项目
已经能在数千节点上 运行,处理数据量和 排序时间不断打破世界纪录
Hadoop组件
Hadoop的架构
Namenode 名称节点
Secondary Namenode 辅助名称节点
DataNode 数据节点
JobTracker 作业跟踪
程序和数据在同一物理节点上
TaskTracker 任务跟踪
Master与Slave
数据分析者面临的问题
数据日趋庞大,无论是入库和查询,都出现性能瓶颈
用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高
使用的模型越来越复杂,计算量指数级上升
Hadoop的思想
用更多的小型组件来代替大型组件,并且开源
Hadoop体系下的分析手段
主流:Java程序
轻量级的脚本语言:Pig
SQL技巧平稳过渡:Hive
NoSQL:HBase