HBase概述
1.HBase介绍
HBase是一种数据库:hadoop分布式数据库。
是一个随机访问存储和检索数据的平台。
HBase不做用于处理实时数据,适合处理海量数据
2.HBase背景
关系型数据库(RDBMS) :mysql ,oracle ,db2 , sqlserver
联机式事务处理(OLTP)系统使用RDBMS,来实时记录交易信息。
OLAP系统用来分析查询存储数据(大学主要要使用) 按天,按周,按月,按季度,按年 从不同角度分析信息。
NoSql :Not only sql。大数据的发展催生
HBase是BIGtable 上的开源java版本 建立在HDFS基础之上。
3.使用场景和部分成功案例
BigTable发明的原因 :早期互联网的搜索问题
互联网(1)——>爬虫(2)——>HBase(会建立很多的索引文件)——>HBase的web搜索(3)
通过MapReduce 程序拿索引文件,HBase返回数据给搜索栏最后返回给用户
用户 (5)<——>浏览器的搜索栏等<——索引文件(4)(HBase可以拿到)
搜索互联网
用户法欺网络搜索请求,网络搜索应用查询和建立好的索引直接从HBase得到匹配的数据,搜索的数据结果提交给用户。
为什么要建立互联网索引?
1.爬虫持续不断的从互联网爬取新页面,这些页面每页一行存储到HBase里面。
2.通过MapReduce计算运行到整张表上,生成索引,用户查询可以速度更快。
示例图