![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
新手路上的程序员
这个作者很懒,什么都没留下…
展开
-
impala 笔记一
1.Impala的诞⽣Impala抛弃了MapReduce使⽤了类似于传统的MPP数据库技术,⼤⼤提⾼了查询的速度。2.MPP是什么?MPP (Massively Parallel Processing),就是⼤规模并⾏处理,在MPP集群中,每个节点资源都是独⽴享有也就是有独⽴的磁盘和内存,每个节点通过⽹络互相连接,彼此协同计算,作为整体提供数据服务。简单来说,MPP是将任务并⾏的分散到多个服务器和节点上,在每个节点上计算完成后,将各⾃部分的结果汇总在⼀起得到最终的结果。对于MPP架构.原创 2020-12-15 10:21:26 · 203 阅读 · 0 评论 -
Hbase 笔记 一
Hbase是一种无模式(schema-less)的数据库。原创 2020-12-15 09:25:26 · 119 阅读 · 0 评论 -
Hive 笔记六 对用户的日志数据打上会话内序号
数据:user_id click_timeA,2020-05-15 01:30:00A,2020-05-15 01:35:00A,2020-05-15 02:00:00A,2020-05-15 03:00:10A,2020-05-15 03:05:00B,2020-05-15 02:03:00B,2020-05-15 02:29:40B,2020-05-15 04:00:00举例:比如以A用户为例:第一次会话```txtA,2020-05-15 01:30:00A原创 2020-07-17 16:29:11 · 315 阅读 · 0 评论 -
Hive 笔记四 行 「=」 列
行 <=> 列行->列使用case when;group by + sum sqlselect id, sum(case when course="java" then 1 else 0 end) as java, sum(case when course="hadoop" then 1 else 0 end) as hadoop, sum(case when course="hive" then 1 else 0 end) as hive, sum(cas...原创 2020-07-09 11:17:29 · 126 阅读 · 0 评论 -
Hive 笔记三 sql语句实现每班前三名,分数一样并列,同时求出前三名按名次排序的分差
也是题目:编写sql语句实现每班前三名,分数一样并列,同时求出前三名按名次排序的分差数据:1,1901,902,1901,903,1901,834,1901,605,1902,666,1902,237,1902,998,1902,679,1902,87结果要求:class score rank lagscore1901 90 1 0 1901 90 1 0 1901 83 2 -7 1901 60 3 -23 1902原创 2020-07-09 10:45:45 · 1601 阅读 · 0 评论 -
hive 笔记二 连续7天登录的用户
直接上SQL题目:1、连续7天登录的用户数据:1,2019-07-11,11,2019-07-12,11,2019-07-13,11,2019-07-14,11,2019-07-15,11,2019-07-16,11,2019-07-17,11,2019-07-18,12,2019-07-11,12,2019-07-12,12,2019-07-13,02,2019-07-14,12,2019-07-15,12,2019-07-16,02,2019-07-17,12,2原创 2020-07-09 10:16:11 · 1447 阅读 · 0 评论 -
Hive 笔记一 hive安装问题
安装hive时遇到的问题:1.Exception in thread "main" java.lang.RuntimeException: com.ctc.wstx.exc.WstxIOException: Invalid UTF-8 middle byte 0xfd (at char #92, byte #53)解决办法:查看hive-site.xml文件 文件中是否有中文,删除中文。2.org.apache.hadoop.hive.metastore.HiveMetaException: Fail原创 2020-07-08 09:56:07 · 1450 阅读 · 0 评论 -
hive 四 问题记录
hive:将string类型的"2016-04-17 17:37:22"转换为string类型的"2016041717" 转换函数:from_unixtime(unix_timestamp(2016-04-17 17:37:22),'yyyyMMddHH') 注意yyyyMMddHH的大小写原创 2018-08-18 16:14:49 · 125 阅读 · 0 评论 -
hive 三 排序和优化
排序:order by:全局排序,执行一个reduce任务sort by:在一个reduce任务中的数据是有序的,但是总体数据看是无序的。如果只是执行一个reduce任务和order by是一样的。通过set mapreduce.job.reduces=num 设置reduce任务的数量。数据的分到不同的reduce默认使用hash算法。distribute by:...原创 2018-08-15 23:15:18 · 239 阅读 · 0 评论 -
hive 二 命令行使用
创建数据库:create database if not db_test location(可选) 自定义数据库地址 ;查询数据库:show database;show databases like 'db_'; 模糊查询数据库使用数据库:use db_test;查看数据库信息:desc database db_test;desc extended db_te...原创 2018-07-09 22:56:45 · 209 阅读 · 0 评论 -
hive 一 基本命令
set; 获取属性。set 属性名就可以获取数据的值,set 属性名=XXX在当前回话中更改属性值。hive --hiveconf 在启动时设置设置属性的值 hive --hiveconf hive.root.logger=INFO,console 设置日志级别在hive的仓库目录下,如果没有对默认的数据库default创建文件夹,那么在default数据库中的表会直接在数据仓...原创 2018-07-02 21:58:33 · 264 阅读 · 0 评论