![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
文章平均质量分 76
BigSun0
积累一点,再积累一点。
展开
-
数据存储(大数据):Hbase概述、特点、应用场景、基本操作
概述:HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表 。特点及局限: 特点:(1)大:一个表可以有数十亿行,上百万列;(2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可...原创 2018-03-16 15:43:56 · 5397 阅读 · 0 评论 -
资源管理(大数据):Zookeeper、 Yarn简介、原理
ZookeeperZookeeper是一个分布式协调服务,一个leader,多个follower组成的集群,就是为用户的分布式应用程序提供协调服务。Zookeeper是为别的分布式程序服务的。Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。YarnYarn目标:YARN的目标就是实现“一个集群多个框架”,即在一个集群上部署一个统一的资...原创 2018-03-16 17:23:26 · 5479 阅读 · 0 评论 -
分析挖掘(大数据):hive、impala、 Spark MLlib概述、原理
hiveHive是一个构建于Hadoop顶层的数据仓库工具,支持大规模数据存储、分析,具有良好的可扩展性。某种程度上可以看作是用户编程接口,本身不存储和处理数据。依赖分布式文件系统HDFS存储数据,依赖分布式并行计算模型MapReduce处理数据。定义了简单的类似SQL 的查询语言——HiveQL,用户可以通过编写的HiveQL语句运行MapReduce任务,可以很容易把原来构建在关系数据库上的数...原创 2018-03-16 17:52:35 · 3278 阅读 · 0 评论 -
平台管理(大数据):Hue、Ooize、Ambari概述
HueHue是一个开源的Apache Hadoop UI系统,通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。(1) 基于文件浏览器(File Browser)访问HDFS(2) 基于Hive编辑器来开发和运行Hive查询(3) 支持基于Impala的应用进行交互式查询(4) 支持Spark编...原创 2018-03-17 20:31:37 · 4173 阅读 · 1 评论 -
Zookeeper深度解析(概念、原理机制、应用场景)
1、Zookeeper是什么?分布、开源的应用程序协调服务,它是集群的管理者,监视着集群中各个节点的状态,根据节点的反馈进行下一步合理操作。主要解决分布式应用经常遇到的数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。(Zookeeper 作为 Hadoop 项目中的一个子项目,是 Hadoop 集群管理的一个必不可少的模块,它主要用来控制集群中的数据,如它管理 H...原创 2018-03-27 00:36:42 · 22030 阅读 · 1 评论