归纳
刘李�
这个作者很懒,什么都没留下…
展开
-
Hbase知识、shell、api
产生背景标题最早以前各大公司都使用hadoop作为大数据存储,并使用MapReduce做存储,它擅长存储各种庞大的数据,任意结构的数据都能存储。Hadoop的限制hadoop只能批量处理数据,且只能顺序访问数据。即搜索一个庞大的数据集需要从头搜到尾。hadoop的特点对于任意格式的数据,hadoop可以做到安全存储,但对于庞大数据单条的增删改查是做不到的。Hive的特点可以使用Hq...原创 2019-11-30 17:45:15 · 240 阅读 · 0 评论 -
Hbase相关知识及操作!
# 产生背景最早以前各大公司都使用hadoop作为大数据存储,并使用MapReduce做存储,它擅长存储各种庞大的数据,任意结构的数据都能存储。##Hadoop的限制hadoop只能批量处理数据,且只能顺序访问数据。即搜索一个庞大的数据集需要从头搜到尾。##hadoop的特点对于任意格式的数据,hadoop可以做到安全存储,但对于庞大数据单条的增删改查是做不到的。##Hive的特点可...原创 2019-11-30 10:19:28 · 145 阅读 · 0 评论 -
ElasticSearch API操作随笔
连接到集群的方式就不写了CRUD操作GetResponse response = client.prepareGet(" "," "," ").setFields(" "," ").execute().actionGet();该构造器对象是GetRequestBuilder的一个实例,可以附加以下附加信息setFields(String):这个方法指定需要返回哪些文档字段。默认情况...原创 2019-05-23 11:21:24 · 125 阅读 · 0 评论 -
yarn
YARN(Yet Another Resource Negotiator)yarn是一个资源调度平台,负责为运算程序提供服务器运算,相当于一个分布式操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序yarn是Hadoop2.x版本的一个新特性。YARN主管角色叫ResourceManagerResourceManager 是基于应用程序对集群资源的需求进行调度...原创 2019-02-20 17:36:40 · 137 阅读 · 0 评论 -
HDFS
架构:主从架构,一主多从主节点:namenode(负责处理客户端的读写请求,客户端读写先去找namenode)1)存储元数据信息元数据:管理datanode数据的数据包括3部分:1)抽象目录树对于hdfs来说 目录树不代表任何一个节点存储目录结构2)数据和块对应关系一个数据会被切分成多块 blockid会顺序递增,文件存储的时候是按照块为单位进行存储的一个块为128M 超过12...原创 2019-02-20 16:44:33 · 178 阅读 · 0 评论 -
MapReduce知识点梳理
1. MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。2.MapReduce的优缺点优点:易于编程简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价...原创 2018-12-18 17:19:59 · 349 阅读 · 0 评论 -
hive常用命令大全
1、建库create database mydb;create database if no exists mydb;create database if no exists mydb location “/aa/bb”;2、查询数据库查询库列表:show databases;查询库详细信息:desc database [extended] mydb;查询建库的详细信息:show c...转载 2018-12-17 09:48:26 · 1553 阅读 · 1 评论 -
hive小结
1.what is hive?Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件转换成一张表,并提供类sql查询功能。本质是:将HSQL转换成mapreduce的过程!1) hive处理的数据在hdfs上2)hive分析数据的地层是MapReduce3)执行程序在yarn上。2.hive的优缺点优点:1、 可扩展性, 横向扩展,Hive 可以自由的扩展集群的规模,...原创 2018-12-10 17:02:08 · 221 阅读 · 0 评论 -
hive的分桶和分区
hive的分桶和分区分桶概念:对分区的进一步的 更细粒度的划分。 分区类似创建分桶表create table stu_duck(id int,name strint) //创建表名字段clustered by(id) //按照id分桶into 4 buckets//分4个桶row format delimited fields terminated by ‘\t’;//通过\t...原创 2018-12-13 16:52:02 · 886 阅读 · 0 评论 -
Hadoop、Hive、Hbase总结
hadoop hive hbase总结HadoopHadoop 只能执行批量处理,并且只以顺序方式访问数据。这意味着必须搜索整个数据集,即使是最简单的搜索工作。当处理结果在另一个庞大的数据集,也是按顺序处理一个巨大的数据集。在这一点上,一个新的解决方案,需要访问数据中的任何点(随机访问)单元。Hadoop 的特点:对于任意格式的庞大数据集,Hadoop 可以做到安全存储但是对于需要在...原创 2018-11-26 19:34:21 · 415 阅读 · 0 评论