hive
abothli
拥有五年的开发工作经验,曾从事过开发,分析,算法,人工智能,机器学习,运维的相关开发工作。
展开
-
hive关于时间函数的用法
做数据挖掘的,离不开使用各种时间函数。 为了避免遗忘,以及后续各种抓瞎到处乱找,特意总结了hive中大部分常用的时间函数,方便自己也方便他们。1.unix_timestamp()返回当前时区的unix时间戳 返回类型:bigint hive (tmp)> select unix_timestamp() from hive_sum limit 1; 14658750162.from_unixt...原创 2018-06-29 15:33:24 · 369 阅读 · 0 评论 -
基于hive的MySQL安装
挂载镜像,利用Yum安装mysql1.安装mysqlvi /etc/yum.repos.d/rhel-debuginfo.repo[Server]name=rhel_yumbaseurl=file:///mnt/Serverenabled=1gpgcheck=1gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-release...原创 2018-07-07 00:30:12 · 283 阅读 · 0 评论 -
oracle查询sql语句
Oracle查询语句 select*from scott.emp ;1.--dense_rank()分析函数(查找每个部门工资最高前三名员工信息)select*from(selectdeptno,ename,sal,dense_rank()over(partitionby deptno orderby sal desc) a fromscott.emp)where a<=3orderbyde...原创 2018-07-08 00:01:48 · 24292 阅读 · 0 评论 -
HWI-hive web页面的搭建
hwi(hive web interface)是hive命令行接口的一个补充,主要功能包括:1.shema browsing :获取table的信息,包括serde、columen name、column type2.detached query execution:在hive命令行界面,用户如果需要执行多个查询,则需要同时打开多个命令行界面。hwi允许用户同时开始多个查询,并且查看执行状态。3...原创 2018-07-10 00:05:27 · 2129 阅读 · 0 评论 -
hive自定义函数的用法
生产中自定义函数用于公司特有的公式UDF 操作单个数据行,产生单个数据行;1.[hadoop@h91 hhh]$ vi TimeFormat.javaimport java.sql.Date;import java.text.SimpleDateFormat;import org.apache.hadoop.hive.ql.exec.UDF;public class TimeFormat ext...原创 2018-07-10 00:09:03 · 1658 阅读 · 0 评论 -
如何用shell调用hive
#!/bin/sh #参数传递 source /etc/profile; source ~/.bash_profile; BASEDIR=`dirname $0` cd $BASEDIR #classpath优先当前目录 CLASSPATH=$BASEDIR #classpath其次是config目录 #classpath再次是lib目录下面的...原创 2018-07-11 01:55:41 · 5864 阅读 · 0 评论 -
数据导入hive的几种方式
可以通过多种方式将数据导入hive表1.通过外部表导入用户在hive上建external表,建表的同时指定hdfs路径,在数据拷贝到指定hdfs路径的同时,也同时完成数据插入external表。例如:编辑文件test.txt$ cat test.txt 1 hello2 world3 test4 case字段之间以'\t'分割启动hive:$ hiv...原创 2018-07-10 00:09:39 · 2057 阅读 · 0 评论 -
hive中简单的正则表达式
Hive中可以使用自带的函数regexp_extract(string,regex,index)来判断比如下面的语句select regexp_extract('www.baidu.com','[\\w\\.]+',0) from test1 limit 10;特别注意的是hive中要使用双斜线在真实的语句中,只需替换第一个即可select regexp_extract(name,'[\\w\\...原创 2018-07-12 23:25:16 · 1794 阅读 · 0 评论 -
hive中如何建立索引
索引的作用Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。虽然Hive并不像事物数据库那样针对个别的行来执行查询、更新、删除等操作。它更多的用在多任务节点的场景下,快速地...原创 2018-07-12 23:29:49 · 13775 阅读 · 0 评论 -
在centos7离线安装CDH5.15
一、配置hostname和hosts1. 三台机器分别设置hostname为(需要重启ECS):master.bd.cn slave1.bd.cn slave2.bd.cn2. 然后三台的/etc/hosts统一配置如下映射:<master.bd.cn的内网IP> master.bd.cn<slave1.bd.cn的内网IP> slave1.bd....原创 2018-08-14 16:04:16 · 5460 阅读 · 1 评论 -
sqoop从mysql到hive实现定时增量导入
1、 第一次全量抽取,并创建hive表#keberos认证kinit -kt hdfs.keytab hdfs#从oracle导数据到hivesqoop import --connectjdbc:oracle:thin:@xx.xx.xx.xx:1521:xx\ --username xxx--password xxx\ --t...原创 2018-08-27 13:46:39 · 2872 阅读 · 0 评论 -
sqoop从mysql到hive导入时分隔符问题
核心参数–check-column 用来指定一些列,这些列在增量导入时用来检查这些数据是否作为增量数据进行导入,和关系型数据库中的自增字段及时间戳类似. 注意:这些被指定的列的类型不能使任意字符类型,如char、varchar等类型都是不可以的,同时–check-column可以去指定多个列 –incremental 用来指定增量导入的模式,两种模式分别为Append和Lastm...原创 2018-08-27 13:50:28 · 3332 阅读 · 0 评论 -
写一个sqoop增量导入的shell脚本
每隔2分钟,就往hive中增量导入数据。#!/bin/shexport SQOOP_HOME=/usr/share/sqoop-1.4.4hostname="192.168.1.199"user="root"password="root"database="test"table="tags"curr_max=0function db_to_hive(){ ${S...原创 2018-08-27 13:53:22 · 3161 阅读 · 0 评论 -
从mysql用sqoop导入到hive的具体步骤
需求 将 bbs_product 表中的前100条数据导 导出来 只要id brand_id和 name 这3个字段 数据存在 hdfs 目录 /user/xuyou/sqoop/imp_bbs_product_sannpy_ 下 bin/sqoop import \--connect jdbc:mysql://172.16.71.27:3306/baba...原创 2018-08-27 13:56:01 · 1954 阅读 · 0 评论 -
hive中join的实例
hive> create table a1(id int,name string) row format delimited fields terminated by '\t' stored as textfile;hive> create table a2(id int,city string) row format delimited fields t...原创 2018-07-06 02:14:11 · 430 阅读 · 0 评论 -
hive中可以做哪些优化?
1.hive小文件合并输出合并合并输出小文件。输出时,若是太多小文件,每个小文件会与一个block进行对应,而block存在的意义是为了方便在namenode中存储,那么过多的block将会充斥namenode的表中,待集群规模增大和运行次数增大,那么维护block的表将会过大,严重降低namenode性能。set hive.merge.mapfiles = true #在Map-only的任务结...原创 2018-07-06 02:12:07 · 418 阅读 · 0 评论 -
hwi(hive web interface)-hive web页面的搭建
简介 hwi(hive web interface)是hive命令行接口的一个补充,主要功能包括:1.shema browsing :获取table的信息,包括serde、columen name、column type2.detached query execution:在hive命令行界面,用户如果需要执行多个查询,则需要同时打开多个命令行界面。hwi允许用户同时开始多个查询,并且查看执行状态...原创 2018-06-29 15:35:43 · 1220 阅读 · 0 评论 -
数据清洗
源数据是日志数据,使用下面的脚本清洗一遍data_process.sh #!/bin/bashsed -i 's/"//g' $1sed -i 's/ //g' $1cat $1|cut -d { -f 2,3,4 > syslog2.txtsed -i 's/.$//' syslog2.txthive中建表create table url_log(a1 map<string,stri...原创 2018-06-30 01:55:16 · 458 阅读 · 0 评论 -
hive的搭建
三种模式内嵌模式:元数据保持在内嵌的derby模式,只允许一个会话连接 本地独立模式:在本地安装Mysql,吧元数据放到mySql内 远程模式:元数据放置在远程的Mysql数据库 1、下载Hive安装包http://hive.apache.org/downloads.html2、将hive文件上传到HADOOP集群,并解压 将文件上传到:/export/softwaretar -zxvf...原创 2018-07-03 01:10:50 · 2380 阅读 · 0 评论 -
hive常用函数
函数分类HIVE CLI命令显示当前会话有多少函数可用 SHOWFUNCTIONS;显示函数的描述信息 DESCFUNCTION concat;显示函数的扩展描述信息 DESCFUNCTION EXTENDED concat;简单函数函数的计算粒度为单条记录。 关系运算 数学运算 逻辑运算 数值计算 类型转换 日期函数 条件函数 字符串函数 统计函数聚合函数函数处理的数据粒度为多条记录。 sum(...原创 2018-07-03 01:11:18 · 236 阅读 · 0 评论 -
hive的基本操作,hive的具体实例
1.hive的基本操作建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type[COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_namedata_type [COMMENT col_comm...原创 2018-07-04 10:11:26 · 1316 阅读 · 0 评论 -
hive的参数配置方式
Hive参数配置方式Hive参数大全:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 开发Hive应用时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。然而实践中经常遇到的一个问题是,为什么设定的参数没有起作用?这通常是错误的设定方式导致的。 对于...原创 2018-07-04 10:11:44 · 513 阅读 · 0 评论 -
hive函数,hive自定义函数,hive的Transform实现的实现
Hive函数4.1内置运算符内容较多,见《Hive官方文档》 4.2 内置函数内容较多,见《Hive官方文档》 4.3 Hive自定义函数和Transform当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。4.3.1 自定义函数类别UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函...原创 2018-07-04 10:12:00 · 948 阅读 · 0 评论 -
hive实战例子
Hive实战实战案例1——数据ETLü 对web点击流日志基础数据表进行etl(按照仓库模型设计)ü 按各时间维度统计来源域名top10已有数据表 “t_orgin_weblog”:+------------------+------------+----------+--+ | col_name | data_type | comment | +----------...原创 2018-07-04 10:12:19 · 3922 阅读 · 0 评论 -
hive函数大全
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive> select 1 from lxw_dual where 1=1; 12. 不等值比较: <> 语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL...原创 2018-07-05 00:07:26 · 238 阅读 · 0 评论 -
hive性能调优
Hive性能调校1. 设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,hive>...原创 2018-07-05 00:07:39 · 1855 阅读 · 0 评论 -
hive数据类型有哪些?
关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hive的数据类型。Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。 原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:基本数据类型 类型 ...原创 2018-07-05 00:09:19 · 20203 阅读 · 1 评论 -
hive常用函数的应用
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: <> 语法: A &...原创 2018-07-05 00:09:34 · 208 阅读 · 0 评论 -
hive自定义函数
生产中自定义函数用于公司特有的公式UDF 操作单个数据行,产生单个数据行;1.[hadoop@h91 hhh]$ vi TimeFormat.javaimport java.sql.Date;import java.text.SimpleDateFormat;import org.apache.hadoop.hive.ql.exec.UDF;public class TimeFormat ext...原创 2018-07-06 02:11:52 · 252 阅读 · 0 评论 -
hive中行转列,列转行的使用
一、行转列的使用 1、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c d 4,5,6 2、数据test....原创 2018-08-28 10:38:02 · 1627 阅读 · 0 评论