自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 order by 和 group by 的区别

1,order by 从英文里理解就是行的排序方式,默认的为升序。 order by 后面必须列出排序的字段名,可以是多个字段名。2,group by 从英文里理解就是分组。必须有“聚合函数”来配合才能使用,使用时至少需要一个分组标志字段。注意:聚合函数是—sum()、count()、avg()等都是“聚合函数”3, 在sql命令格式使用的先后顺序上,group by 先于 order by。在Sql中也可以说order by是按字段排序,group by 是按字段分类通常order by 和g

2020-12-07 23:44:38 2588 1

原创 ClickHouse 习题练习 (连续N天的登录记录)

a,2017-02-05,200a,2017-02-06,300a,2017-02-07,200a,2017-02-08,400a,2017-02-10,600b,2017-02-05,200b,2017-02-06,300b,2017-02-08,200b,2017-02-09,400b,2017-02-10,600c,2017-01-31,200c,2017-02-01,300c,2017-02-02,200c,2017-02-03,400c,2017-02-10,600a

2020-12-07 23:42:06 820

原创 MergerTree 引擎 ReplacingMergeTree 引擎 VersionedCollapsingMergeTree 引擎

**该 MergeTree系列的引擎和其他引擎是最强大的ClickHouse引擎 。主要是将大量的数据插入到表中,数据快速的逐个部分写入到表中,然后应用规则在后台合并这些部分。这种方法比插入期间连续重写存储中的 数据效率更高 **主要特点:1) 存储按逐渐排序的数据这时可以创建一个小的稀疏索引,以便更快的查找数据2) 如果指定了分区键,则可以使用分区ClickHouse 支持某些分区操作,这些操作比对相同数据,相同结果的常规操作更有效。ClickHouse 还会自动切断在查询中

2020-12-05 12:09:41 821

原创 建表 建数据库 以及 Log 引擎的应用

1 开启ClickHouseservice clickhouse-server start 开启 clickhouseclickhouse-client -m 进入clickhouse客户端 -m 可以多行写2 建数据库create database db_name ; 建数据库use db_name ; 切换数据库 ;select currentDatabase() ; 查看当前使用的数据库drop database db

2020-12-04 22:33:34 150

原创 ClickHouse 安装

ClickHouse安装1)安装curl工具yum install -y curl2)添加clickhouse的yum镜像curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo bash3)检查镜像情况[root@doit04 yum.repos.d]# yum list | grep clickhouse 会出来以下结果clickhouse-clie

2020-12-04 22:09:13 116

原创 ClickHouse 介绍

**什么是ClickHouseClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。官网中文文档 https://clickhouse.tech/docs/zh/**1)SQL结构化查询语言2)分布式的完全列式的存储的数据库(CRUD)3) 自己管理数据,读取别人的 mysql hdfs 网络 本地文件 存储海量数据4) 解决并发5) 列式存储 可以是每个字段一个文件**ClickHouse是一个完全的列式数据库管理系统,允许在运行时

2020-12-04 21:03:21 1676

原创 使用反射调用 java 类方法

反射 reflect 函数reflect(class(类名) , methodName(方法名) , args(可变的参数)…)1 编写java程序2 打包3 上传到linux系统4 add jar /test.jar 将jar包添加到 $HIVE_HOME/lib/目录下5 select reflect(‘cn._51doit.test.Test1’ , ‘test1’ , ‘HELLO’ , 23) ;select reflect('Test1','test1',

2020-12-04 00:14:53 78

原创 HIve 数据类型的元素的操作

在hive中的数据类型基本数据类型集合数据类型习题练习benben,fengjie_furong,xiaoben:18_daben:19,hui long guan_beijing姓名 朋友 孩子 城市yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing1) 建表 导入数据drop t...

2020-12-03 23:48:02 156

原创 Hive 一些系统函数

系统函数show functions 查看函数 decs function 函数 查看函数使用方法select trunc ('2020-12-3','MM') ; 这个月的第一天select trunc ('2020-12-3','Q') ; 这个季度的第一天select trunc ('2020-12-3','YEAR') ; 这年的第一天 2020-1-1select date_sub('2020-12-3' , 1 ) ; 减一天

2020-12-03 22:43:31 82

原创 Hive 编号函数

编号函数、row_number ()仅仅定义组内的数据进行编号 1 2 3 4rank()编号的时候 排序字段会参与编号相同的排序字段 标号一致, 总标号不变dense_rank()编号的时候 排序字段会参与编号相同的排序字段标号一致, 总标号有可能变小习题练习孙悟空 语文 87孙悟空 数学 95娜娜 英语 84宋宋 语文 64孙悟空 英语 68宋宋 英语 84婷婷 语文 65娜娜 语文 94宋宋 数学 86婷婷 数学 85娜娜 数学 56婷婷 英

2020-12-03 22:09:40 993

原创 Hive 的 窗口函数介绍

窗口函数一 窗口函数有什么用?在日常工作中,经常会遇到需要在每组内排名,比如下面的业务需求:排名问题:每个部门按业绩来排名topN问题:找出每个部门排名前N的员工进行奖励面对这类需求,就需要使用sql的高级功能窗口函数了。二 什么是窗口函数 ?窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库数据进行实时分析处理。窗口函数的基本语法如下:selectcount(1) over(partition by name)

2020-12-03 00:46:25 342 1

原创 sql:常用 sql 语句

聚合函数一句话概括什么是聚合函数: 多行合并为一行。1 常用的一些j函数sum, count, max, min, avg sum () 返回某列值之和count () 返回某列的行数max () 返回某列的最大值min () 返回某列的最小值avg () 返回某列的平均值分组函数(Group by)注意 :使用Group by时,在Group by后面出现的字段也要出现在selec

2020-12-03 00:01:32 102

原创 Hive 中 分桶表 和 抽样查询

我们知道 分区表呢 是将数据分文件夹管理 , 减少数据扫描的文件范围 直接从对应文件夹中读取数据 ,但如果有时候分区表中的数据也大的时候,我们读取数据的时候,表之间需要 join 的 时候 会判断所有数据 进行读取扫描 ,效率不高这时候我们可以把分区表中的数据进行分割 就是HIve中的分桶表分桶表 是 对join 对查询的优化 将数据按照指定的字段的规则分文件1 创建普通表 导入数据2 创建分桶表3 开启分桶功能4 使用insert into的方式导入数据 到 分桶表中1

2020-12-02 23:19:25 187

原创 Hive 常用的一些函数

创建数组array(ele1 , ele2…) --创建数组 数组是hive中的一种集合数据类型 和 java中的数组一样select array(1,2,3,4) ; 创建一个数组select array(1,2,3,4)[index] ; 在数组里取值是否包含元素array_contains(arr , element) ;select array_contains(array(‘a’,‘ab’,‘abc’,‘abcd’),‘aa’) ; 是否包含一个元素,包含返回true..

2020-12-02 10:57:10 118

原创 Hive 中 case when 和 聚合函数的使用(练习解析)

习题王奔 A 男娜娜 A 男宋宋 B 男凤姐 A 女热巴 B 女慧慧 B 女求出以下结果 男 女A 2 1B 1 2第一步 先建文件夹导入数据vi /data/emp/emp.txt 把数据输入到emp.txt下第二步 建表在hive客户端建表create table tb_emp(name string ,dname string ,gender string )row format delimi

2020-12-01 21:47:08 1117

原创 Hive 表的两种分类

在hive中的表分两种1) external 外部表2) 默认的 内部表 管理表 managertable1) external 外部表公共/原始数据 使用外部表外部表指定的路径下的数据不会被删除create external table tb_log2(id int ,name string )row format delimited fields terminated by ","location '/data/log/' ; 1) 表字段

2020-11-30 19:38:03 835

原创 Hive 建表 查看表

一 先建一个文件 里面写表的数据vi a.log1,ligengxi,22,Y2,madaha,45,M3,yangmi,32,Y4,lixiaoyu,24,Y二 在data下建一个 log文件夹hdfs dfs -mkdir -p /data/log在把刚写的 a .log 添加到 log文件夹中hdfs dfs -put a.log /data/log 三 建一个表结构 复制到 hive 客户端create table tb_log

2020-11-29 11:28:57 697

原创 Hive 中的数据类型

基本数据类型TINYINT 1byte有符号整数 20SMALLINT 2byte有符号整数 20BOOLEAN 布尔类型,true或者false TRUE FALSEFLOAT 单精度浮点数 3.14159BINARY 字节数组下面是些常用的DOUBLE ** 双精度浮点数 3.14159(常用的)STRING ** 字符系列。可以指定字符集。可以使用单引号或者双引号。(常用的) ‘now is the time’ “for

2020-11-29 10:18:06 286

原创 Hive的安装步骤

一 首先我们先下载一个mysql数据库需要一个远程连接权限二 HDFS 也需要有 因为数据得存储在HDFS上三 hive 安装包进行解压 配置切换到 apps目录下 输入 rz 把hive 的安装包拖进来 进行解压四 输入 进行解压五 去 conf 目录下 有个vi hive-env.sh 进去 子啊最下面粘贴这两行**export HADOOP_HOME=/opt/apps/hadoop-3.1.1/ export HIVE_

2020-11-28 20:47:36 137 1

原创 HIVE 简介

企业中的数据大部分都是结构化(不是结构化的也都会转换成结构化)我们可以使用JAVA进行分析处理数据,也可以使用mysql进行处理数据最终的数据都会存储在HDFS中我们可以使用MR程序进行分析处理数据,(JAVA特点:代码臃肿,逻辑复杂,效率低,但比较稳定)SQL的特点 : 可以满足各种分析统计的需求,**SQL统计解析语义 ,然后可以进行优化,最后传输到 MR模板 中这个解析数据的过程有点复杂,为了简化程序员的操作时间和流程这时候就有了一个工具 HIVEHIVE 主要就是用来操作sql里的

2020-11-28 19:59:55 169

原创 Region理解

Region表的行范围数据,将一张大的表划分成多个region,将region分配给

2020-11-27 11:59:54 1334

原创 搭建虚拟机 配ip 地址

第一步 新建一个虚拟机1)点击窗口栏 点击文件 选择新建虚拟机2)查看自己虚拟机的ip地址 先点击窗口栏 编辑 进去 有个虚拟网络编辑器进去后查看自己的ip地址 然后在去windows上打开自己网络适配器 点击3)创建好以后 回到新建好的虚拟机中 先修改ip地址 输入这个命令4)进入输入文件 修改东西IPADDR 后面写的是本台虚拟机的ip地址GATEWAY 写的是默认网关NETMASK 写的是子网掩码DNS1 这个是默认的虚拟机的域名服务器 写成跟网关一样改好以

2020-11-23 11:12:53 793

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除