xinxindsj-CSDN博客

原创大数据Hive和Spark究竟是凭借什么优势而大获成功？

Hive和Spark凭借其在处理大规模数据方面的优势大获成功，换句话说，它们是做大数据分析的。本文重点阐述这两种产品的发展史和各种特性，通过对其能力的比较，来说明这两个产品能够解决的各类复杂数据处理问题。作者：读芯术什么是Hive?Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库，用于查询和分析大数据。数据以表格的形式存储(就像关系数据库管理系统一样)。...

2020-01-03 15:31:27 542

原创大数据平台Hive四天入门学习指南

hive是基于Hadoop的由Facebook公司开发并开源的一个大数据仓库工具，它以SQL语法来操作Hadoop集群，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可有效帮助懂数据库但不懂Hadoop(Mapreduce）的同学快速使用大数据统计。对很多参加过云点惠众学习大数据学员来说，HIVE课程是比较基础，并且比较容易使用与介绍，开设过多期HIVE课程，这...

2020-01-06 11:41:39 478

原创大数据分析工具——hive入门

Hive** Facebook开源** 官网：hive.apache.org** Hive是基于Hadoop的一个数据仓库工具Hive与数据库：数据库: mysql、oracle、DB2、sqlserver数据仓库 !== 数据库换言之, Hive不是数据库为什么要选择hive** MapReduce编程成本高** 针对传统的DBA,不会不熟悉java,要想数...

2020-01-06 11:35:05 534

hive（数据仓库工具）Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集，其中包括体积庞大，高速，以及各种由与日俱增的数据的集合。使用传统的数据管理系统，它是难以加工大型数据。因此，Apache软件基金会推...

2020-01-06 11:33:14 328

原创 Hive 如何确定 map 数的？

最近批量刷数据的时候，由于集群资源紧张，需要控制一些 map 的数量，本文从底层代码触发，带大家了解一下 MR 是如何让切分 map 数的。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sq l语句转换为 MapReduce 任务进行运行。当运行一个 hql 语句的时候，map 数是如何计算出来的呢？有...

2020-01-06 11:31:04 2010

原创大数据学习路线之hive存储格式

好程序员大数据学习路线之hive存储格式，hive的存储格式通常是三种：textfile 、 sequencefile 、 rcfile 、 orc 、自定义 set hive.default.fileformat=TextFile; 默认存储格式为：textfiletextFile:普通文本存储，不进行压缩。查询效率较低。1.sequencefile:hive提供的二进制序列...

2020-01-06 11:29:14 219

原创 HIVE小结 HIVE基本语法，大数据基础知识理解

HIVE和Mysql十分类似建表规则创建表hive> CREATE TABLE IF NOT EXISTS test1> (id INT,name STRING);删除表drop table test1;查看表结构desc test1;修改表名alter table test1 rename to test2;修改表结构alter table test1 ad...

2020-01-06 11:23:31 170 1

原创 Hive/HiveSQL常用优化方法全面总结

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。目录列裁剪和分区裁剪谓词下推 sort by代替order by group by代替distin...

2020-01-06 11:19:55 769

原创大数据 Hive 笔记大全收藏+转发+关注

Apache Hive一、概述数据仓库：英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。Apache Hive是基于Hadoop的一个数据仓库...

2020-01-06 11:17:09 561

原创 Hive SQL常用命令总结，大数据开发人员按需收藏

Hive是基于Hadoop生态的一个重要组件，是对数据仓库进行管理和分析数据的工具。她提供了SQL查询方式来分析存储在HDFS分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。这种SQL就是Hive SQL，她可以将SQL语句转换为Map Reduce任务运行，通过特殊的SQL去查询分析需要的内容，使不熟悉map reduce的用户很方便的...

2020-01-06 11:09:15 485

原创大数据之Hive常用Api（新手老手皆宜）

Hive 支持的数据类型Hive 支持原始数据类型和复杂数据类型, 原始数据类型包含数值型/Boolean/字符串/时间戳，复杂数据类型包含 map/struct/array/unionHive 支持的原始数据类型Hive 支持的复杂树类型说明：对于整数类型数据，默认为int类型，如果需要使用其他整数类型，需要在数据上通过Y/S/L来进行标识。小数的默认类型是doubl...

2020-01-06 11:06:05 1366

原创大数据之Hive实践分享之存储和压缩问题的详解

给大家分享一篇关于Hive实践分享之存储和压缩的坑详解，首先大多数同学在学习大数据技术的过程中，Hive是非常重要的技术之一，但我们在项目上经常会遇到一些存储和压缩的坑，本文通过大数据的武老师整理，分享给大家。大家都知道，由于集群资源有限，我们一般都会针对数据文件的「存储结构」和「压缩形式」进行配置优化。在我实际查看以后，发现集群的文件存储格式为Parquet，一种列式存储引擎，类似的还有...

2020-01-03 15:56:15 278

原创大数据学习路线hive内部函数

大数据学习路线hive内部函数，持续为大家更新了大数据学习路线，希望对正在学习大数据的小伙伴有所帮助。1、取随机数函数：rand()语法: rand(),rand(int seed)返回值: double说明: 返回一个0到1范围内的随机数。如果指定seed，则会得到一个稳定的随机数序列select rand();select rand(10);2、分割字符串函数...

2020-01-03 15:54:49 196

原创那些年使用Hive踩过的坑

1.概述这个标题也是用血的教训换来的，希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述：Hive的结构 Hive的基本操作 Hive Select Hive Join Hive UDF Hive的M/R 使用Hive注意点优化及优化详情优化总结调优的经常手段解决Hive问题的途径这篇文章只是起个头，为描述其他部分做下准备...

2020-01-03 15:34:26 846

原创大数据学习路线分享hive的运行方式

大数据学习路线分享hive的运行方式hive的属性设置： 1、在cli端设置 (只针对当前的session) 3、在java代码中设置 (当前连接) 2、在配置文件中设置 (所有session有效)设置属性的优先级依次降低。 cli端只能设置非hive启动需要的属性。(log属性,元数据连接属性)查找所有属性： hive>set; 查看当前属性的值：通常是hadoop ...

2020-01-03 15:33:17 226

原创大数据学习路线之hive表的查询

　大数据学习路线之hive表的查询1.join 查询1、永远是小结果集驱动大结果集(小表驱动大表，小表放在左表)。 2、尽量不要使用join，但是join是难以避免的。left join 、 left outer join 、 left semi join(左半开连接，只显示左表信息)hive在0.8版本以后开始支持left joinleft join 和 left outer...

2020-01-03 15:26:28 777

原创基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。一、概述1.1 数据仓库概念数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate...

2020-01-03 15:24:57 271

原创 Hadoop 系列之 Hive

Hive 的官网：http://hive.apache.org/Hive versions 1.2 onward require Java 1.7 or newer.上一篇提到的 MapRedue 虽然简化了分布式应用的实现方式，但还是离不开写代码。Hive 简介Hive 是基于 Hadoop 的一个【数据仓库工具】，可以将结构化的数据文件映射为一张 hive 数据库表，并提供简单...

2020-01-03 15:22:25 816

原创不用搭集群学习大数据的网站（hue），快来感受下hive的魅力吧

不用搭集群学习大数据的网站（hue），快来感受下hive的魅力吧废话不多说先上网址：http://demo.gethue.com/hue/（谷歌浏览器打不开换IE浏览器试一试）用户名：demo密码：demo进去就可以操作随时可以学习大数据了。进去hue界面后操作步骤大家在里面可以随时写自己的HIVE了，一般的HIVE会转换成MapReduce程序跑出数据。虽然说...

2020-01-03 15:19:56 2748 3

原创 Hive元数据的解析

Hive体系结构的元数据（Metastore）是一个重要的组件，保存了Hive有关库、表、存储、分区等信息。元数据主要包括两个方面：一方面是元数据库，最常见的是采用MySQL；另一方面是元数据服务，与其他查询引擎共享，比如Presto或Impala等。Hive元数据库Hive支持两种类型的元数据库：本地或嵌入的元数据库：Derby 远程的元数据库：MySQL说明：嵌入的元数据库主要...

2020-01-03 15:18:24 518

原创 Hive函数大全

Hive函数大全现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便、功能太强大了，做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法，而且，和HBase、Spark都能整...

2020-01-02 17:22:39 325

原创大数据hive，storm小知识（干货）

Hive简介定义Facebook为了解决海量日志数据的分析而开发了hive，后来开源给了Apache基金会组织。 hive是一种用SQL语句来协助读写、管理存储在HDFS上的大数据集的数据仓库软件。为什么要使用Hive?1) 从SQL角度，简单、容易上手、使用方便。2) 从Hadoop角度，可以操作大规模的数据集，可以作为大数据的引擎。3) 从MetaStore角度:有了这...

2020-01-02 17:21:06 621 1

原创大数据技术分享：SparkSQL访问Hive遇到的问题及解决方法

需要先将hadoop的core-site.xml，hive的hive-site.xml拷贝到project中测试代码报错查看源码解决方法将$HIVE_HOME/lib下的spark-hive_2.11-2.4.2.jar与spark-hive-thriftserver_2.11-2.4.2.jar添加到project中继续报错查看...

2020-01-02 17:18:51 974

原创大数据之hive Serde序列化/反序列化性能对比（一）

java 中我们使用序列化和反序列化主要目的是将对象和字节序列进行相互转换。序列化的作用是什么呢？1，将对象转换成字节序列后进行落盘存储到文件 2，将对象序列化后进行网络传输。然而对于hive 的序列化和反序列化是将hive 表中每一列的值与字节码序列进行转换。hive Serde 包含Serialize和Deserialize 两个功能，比如查询select * from tb_example,...

2020-01-02 17:17:30 595

原创大数据hive学习路径

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。来自@pigpdong的Hadoop/HIVE学习路径图片供大家参考，实验楼...

2020-01-02 17:16:08 151

原创大数据干货丨Hive 与 ElasticSearch 的数据交互

本文将详细介绍利用 ES 与 Hive 直接的数据交互；通过 Hive 外部表的方式，可以快速将 ES 索引数据映射到 Hive 中，使用易于上手的 Hive SQL 实现对数据的进一步加工。一、开发环境1、组件版本CDH 集群版本：6.0.1 ES 版本：6.5.1 Hive 版本：2.1.1 ES-Hadoop 版本：6.5.12、Hive 简介Hive 在 Hadoo...

2020-01-02 17:14:53 1623

原创大数据开发之路：hive篇

引语大数据开发之路漫漫其修远兮，吾将上下而求索。很多入门大数据的小伙伴，可能第一个接触到的，就是一只可爱的“小象”，也就是我们的大数据领域的数据仓库工具hive。这只小象给我们提供了方便类SQL查询语言HQL来操纵数据，使得我们一开始不用编写复杂的代码，就可以轻松的探索数据。Hive对于熟悉传统数据库的同学来说，算是很友好的一个入门工具。原理在大数据生态...

2020-01-02 17:12:38 184

原创整个阿里大数据工程师都在用的一份Hive实战文档

前言本书是一本Apache Hive的编程指南，旨在介绍如何使用Hive的SQL方法- -HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。全书通过大量的实例，首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述，最终演示Hive如何在Hadoop生态系统进行工作。由于文档内容过多，只截取了目录部分，每个知识点都有更细化...

2020-01-02 17:10:36 396

原创大数据工程师必会的知识点之一：关于hive的分区和分桶

1、Hive分区表在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理，所谓分区我们可以拿下面的例子进行解释。当前互联网应用每天都要存储大量的日志文件，几G、几十G甚...

2020-01-02 17:09:11 346

原创大数据干货丨最全面得的Hive性能优化

1.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF，不怕数据倾斜问题,hadoop在map端的汇总合并...

2020-01-02 17:06:45 929

原创走近大数据之Hive进阶（六、Hive的客户端操作）

通过jdbc的方式操作hive需要开启相关服务hive --service hiveserver //开启hive远程服务，以便jdbc远程连接一、Hive的JDBC客户端操作新建Java项目需要用到的jar包，这些jar包在hive的lib目录下，或者hadoop的lib目录下都能找到代码如下：二、Hive的Th...

2019-12-31 14:47:25 145

原创走近大数据之Hive进阶（五、Hive的子查询）

HIVE子查询hive只支持from和where子查询select e.ename from emp e where e.deptno in (select e.deptno from dept d where d.dname='SALES' or d.dname='ACCOUNTING'); 注意的问题:1、语法中的括号2、合理的书写风格3、主查询...

2019-12-31 14:46:13 371

原创走近大数据之Hive进阶（四、Hive的表连接）

HIVE表连接(转换成mapreduce作业,提交到hadoop上)一、Hive等值连接和不等值连接等值连接(连接条件中为等号):select e.empno, e.ename,e.sal,d.dnamefrom emp e,dept dwhere e.deptno=d.deptno;等值连接(条件中是不等号:>, <, !=):between ...

2019-12-31 14:44:46 660

原创走近大数据之Hive进阶（三、Hive的内置函数）

一、Hive数学函数round四舍五入前面是小数，后面是取整位数ceil向上取整floor向下取整二、Hive字符函数字符串转换成小写:lower字符串转换成大写:upper>select lower('Hello World'), upper('Hello Hive'); 字符串长度(字符数):length...

2019-12-31 14:43:29 289

原创走近大数据之Hive进阶（二、Hive的数据查询）

一、简单查询和fetch task1、Hive查询的基本语法语法跟sql语法基本相似SELECT * FROM user 与 SELECT name, gender FROM user的区别？SELECT *全表扫描不会开启MapReduce作业，SELECT name, gender 会开启MapReduce作业查询想要的数据。（下面会介绍怎样不开启MapRe...

2019-12-31 14:42:04 222

原创走近大数据之Hive进阶（一、Hive数据的导入）

一、使用Load语句进行数据的导入-语法：LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]INTO TABLE tablename [PARTITION (partcoll = vall, partcol2 = val2 ...)]*将student01.txt数据导入t2 （t2表没有指定分隔符）load da...

2019-12-31 14:40:51 294

原创走近大数据之Hive入门（六、Hive的数据模型）

一、Hive的数据存储基于HDFS(Hadoop的数据仓库) 没有专门的数据存储格式(默认的情况下采用'\t'(制表符)作为列与列之间的分隔符) 存储结构主要包括：数据库，文件，表，视图可以直接加载文本文件（.TXT文件等）创建表时，指定Hive数据的列分割符与行分隔符表table 内部表 Partiton 分区表 External Table 外部表 Buc...

2019-12-31 14:39:32 147

原创走近大数据之Hive入门（四、Hive的管理）

一、Hive的管理之CLI方式hive的进入和退出进入hive命令行1：hive -- service cli进入hive命令行2：hive退出hive命令：1、exit 2、quit常用的CLI命令清屏：Ctrl+L 或者！clear查看数据仓库中表：show tables查看数据仓库中内置的函数：show functions-- : 注释部分...

2019-12-31 14:37:36 377

原创走近大数据之Hive入门（三、Hive的安装）

一、Hive的安装模式下载地址：http://archive.apache.org/dist/找到Hive，选择要安装的版本Hive是基于Hadoop之上的一个数据仓库工具，所以按照Hive之前需先安装Hadoop环境Hadoop安装：（进行中。。。）安装模式1 嵌入模式- 本地durby ：元数据信息被存储在Hive自带的D...

2019-12-31 14:35:38 125

原创走近大数据之Hive入门（二、Hive的体系结构）

一、Hive的体系结构之元数据Hive将元数据存储在(metastore),支持mysql，derby等数据库（默认存放在derby数据库中）Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性(是否为外部表),表的数据所在目录。二、Hive的体系结构之HQL的执行过程HQL 执行过程解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、...

2019-12-31 14:30:31 130

空空如也

空空如也