hive
qq_2631218300
这个作者很懒,什么都没留下…
展开
-
hive静态分区,动态分区,分桶区别
文章目录绪论创建静态分区表1、准备数据2、建表语句3、添加分区,加载数据4、进入网页(50070)查看创建动态分区表1、准备数据2、建表语句1、首先创建普通表2、加载数据3、创建动态分区表4、设置动态分区5、使用insert ... select 往动态分区插入数据6、查看分区3、进入50070查看某一个分区下内容建立分桶表建表语句打开分桶,插入数据进入50070查看绪论1、动态分区与静态分区的区别在于静态分区是手动指定,即通过alter table … 语句添加,而动态分区是基于查询参数的位置去推断出原创 2020-12-11 14:58:53 · 1651 阅读 · 0 评论 -
hive里lateral view经典案例
需求:用一个hql语句实现第一步:准备数据张三|math:60,english:90李四|math:65,english:80王五|math:90,english:90第二步:建表create table tab2(name string,params map<string,int>)row format delimited fields terminated by '|' collection items terminated by ',' map keys termin原创 2020-10-15 15:33:20 · 236 阅读 · 0 评论 -
Apache Sqoop 介绍及数据迁移
Sqoop是什么?Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到HDFS(HDFS、Hive、HBase),从HDFS导出数据到RDBMS,使用MapReduce导入和导出数据,提供并行操作和容错目标用户:系统管理员、数据库管理员、大数据分析师、大数据开发工程师等1、从RDB(关系型数据库)导入数据到HDFS-1导入表到HDFS[root@hadoop1 sqoop]# bin/sqoop-import \--配置数据库连接为MySQL中数据库hive原创 2020-10-12 16:05:21 · 180 阅读 · 0 评论 -
NoSQL综述及Apache HBase基础
NoSQL综述什么是NoSQL:NoSQL:not only SQL,非关系型数据库NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题为什么我们要使用NoSQL:互联网的发展,传统关系型数据库存在瓶颈高并发读写高存储量高可用性高扩展性低成本NoSQL和关系型数据库对比NoSQL的特点最终一致性应用程序增加了维护一致性和处理事务等职责冗余数据存储NoSQL !原创 2020-09-24 18:57:19 · 147 阅读 · 1 评论 -
Hive UDF开发流程
Hive UDF开发流程前提:保证maven工程可以正常创建并使用,并且下载相关jar包配置maven工程可参考https://editor.csdn.net/md/?articleId=108408011步骤简介:1、继承UDF类或GenericUDF类2、重写evaluate()方法并实现函数逻辑3、编译打包为jar文件4、复制到HDFS路径5、使用jar创建临时/永久函数6、调用函数示例:实现计算两个小时的时间差首先写出实现函数的java代码public class HourD原创 2020-09-22 17:36:03 · 271 阅读 · 0 评论 -
Apache Hive高级查询(1)
select基础select 用于映射符合查询条件的行hive select 是数据库标准的SQL的子集--使用方法类似于MySQLSELECT 1;SELECT [DISTINCT] column_nam_list FROM table_name;SELECT * FROM table_name;SELECT * FROM employee WHERE name!='Lucy' LIMIT 5;CTE和嵌套查询CTE (Common Table Expression)--CTE语原创 2020-09-19 10:42:39 · 98 阅读 · 0 评论 -
Apache Hive基础
Apache Hive基础Hive优势:提供了一个简单的优化模型HQL类SQL语法,简化MR开发支持在不同的计算框架上运行支持在HDFS和HBase上临时查询数据支持用户自定义函数、格式成熟的JDBC和ODBC驱动程序,用于ETL和BI稳定可靠(真实生产环境)的批处理有庞大活跃的社区Hive元数据管理记录数据仓库中模型的定义存储在关系数据库中默认是Derby,轻量级内嵌SQL数据库,Derby非常适合测试演示,存储在.metastore_db目录中实际生产一般储存在MySQL中,原创 2020-09-16 15:57:44 · 180 阅读 · 0 评论