![](https://img-blog.csdnimg.cn/5087f366df794d14b91c1bfe636d576f.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
hive
文章平均质量分 54
hive学习笔记
Antgeek
喜欢各种技术,前端后端大数据均有涉猎,目前从事大数据开发.
展开
-
hive sql 实现姓名手机号证件号脱敏
hive或者presto sql 利用正则是实现敏感数据脱敏,且字符串长度不变。原创 2022-05-19 15:39:46 · 3349 阅读 · 0 评论 -
shell脚本实现删除hdfs下n天前的数据
数据打满,shell实现删除hdfs下n天前的数据原创 2022-03-17 16:52:00 · 2332 阅读 · 1 评论 -
hive 修改某个库下所有表的特定字段类型为string
hive 批量修改表字段的数据类型脚本(高效)原创 2022-03-03 13:27:33 · 765 阅读 · 0 评论 -
hive Cannot truncate non-managed table
问题描述我希望清空一个hive表中的数据,然后报错 Cannot truncate non-managed table问题分析由其中的关键字可以看出**该表的数据不被hive管理(外表)**所以就无法truncate问题解决那么如何清空外表的数据呢由于外表数据是被hdfs管理的所以找到对应的文件删除即可首先查看文件存储的位置 show create table table_name然后删除该文件夹下的所有文件即可 hdfs dfs -rm -f 路径/*但是删除了之后hive中管理的元数据原创 2021-11-10 16:08:34 · 5332 阅读 · 0 评论 -
Hive企业应用
一.数据仓库架构设计简介数据仓库的主要工作就是ETL,即是英文 Extract-Transform-Load 的缩写,用来描述数据从来源端经过装载(load)、抽取(extract)、转换(transform)至目的端的过程。数据仓库架构设计,即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计。数据架构架构原则:先水平分层,再垂直分主题数据仓库分层介绍(水平分层)按主题划分(垂直分层)二.数据仓库建模概念抽象的实体及原创 2021-10-23 00:44:30 · 193 阅读 · 0 评论 -
Hive之MapJoin,数据倾斜,二次排序
一.MapJoin概念join本来是reduce进行关联查找,改成了map端进行关联查找特点减少了reduce的压力减少了数据移动,提高了IO效率应用场景大表join小表大数据块join小数据块代码实现hive中已经默认开启该功能二.数据倾斜概念在大数据处理的过程中,出现数据分配不均匀,导致整体任务完成缓慢的现象特点分布式任务中,大部分任务均已完成,只有少部分卡在99%.类似**木桶原理,**任务完成是时间取决于最后一个任务的完成时间原创 2021-10-23 00:36:41 · 417 阅读 · 0 评论 -
Hive参数
一.hive参数现在一般不手动配置hive参数,一般都使用默认的配置只有极个别情况下的jvm内存相关参数设置需要特别指定常见的hive参数如下二.使用方式通过配置文件hive-site.xmlhive-default.xml在进入hive cli的时候指定配置hive –hiveconf param=value来设定session级参数进入到hive cli之后可以通过set进行设置set tez.queue.name=oncourse;//设置任务执行的队列原创 2021-10-23 00:09:44 · 402 阅读 · 0 评论 -
Hive自定义函数
UDF全称:user define function作用: in:out=1:1,只能输入一条记录,同时返回一条处理结果。1.实现步骤创建一个java类继承UDF类约定俗称的重写evaluate方法打成jar包上传到hdfs中在hive中 使用add jar 命令将jar包加入到classpath中创建函数 create temporary function name ‘主类’;使用函数2.示例完成一个将字符串加密成md5的函数package com.antg;impo原创 2021-10-21 19:27:22 · 87 阅读 · 0 评论 -
Hive基础应用
一.hive基础概念1.数据模型分区:按照表之外的虚拟字段将一个大表分成多个小表,例如按照年份进行分割分桶:按照表中的真实字段的hash值将表进行分割目的:都是为了提高数据处理的效率2.数据类型数值类型日期类型字符类型varchar和char的联系相同点都是存储字符串的不同点varchar是变长,char是定长应用场景varchar一般用于用户名等长度不固定的数据存储char一般用于手机号等定长的数据存储布尔原创 2021-10-19 00:21:27 · 220 阅读 · 0 评论 -
hive常用命令及架构设计
一.常用命令作用命令进入命令行模式hive查看所有数据库show databases;创建数据库create database 数据库名称;查看所有表show tables;创建一个表create table 表名(字段名称 字段类型,字段名称 字段类型…)向表中插入数据insert into 表名 values(值1,值2…);查询表的字段select * from 表名;删除一个表drop 表 表名称;退出命令行模式原创 2021-10-14 21:23:26 · 52 阅读 · 0 评论 -
hive概述
一.数据仓库概述英文名称:Data Warehouse面向分析的存储系统数据仓库和数据库的对比两者联系两者都是存储数据的,都是数据的载体数据仓库也是一种数据库,是数据库的一种衍生和拓展数据仓库和数据库之间有数据交互数据库中的在线数据推送到数据仓库中做离线的分析数据仓库的数据处理结果也会推送到数据库中做前台页面的展示数据仓库的出现并不是要取代数据库,而是各有各的作用,相辅相成,各有千秋区别数据库是面向事务设计的,数据仓库是面向主题数据库一般存储在线数据,实时性强,存原创 2021-10-13 23:45:44 · 97 阅读 · 0 评论