- 博客(9)
- 收藏
- 关注
原创 hive分区表
一、分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。分区表的应用:日志是每天放在一个文件夹中partition(分区),每个分区再划分为簇组,方便查询。二、实例1.根据日期对日志进行管理单分区查询根据分区进行查询,大大提高了查询效率。 多分...
2021-01-27 16:35:47 318
原创 Hive数据类型
三 Hive数据类型3.1 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int
2021-01-25 11:20:45 265
原创 hive创建表(内部表和外部表)
一、理论1)建表语法 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_nam
2021-01-24 22:40:43 13535
原创 Hive常见属性配置
1 hive原始数据仓库的配置1.1hive原始数据仓库配置默认在(/user/hive/warehouse下)hive/conf/hive-default.xml.templa1.2查看数据仓库位置2.hive在default数据库下或者未指定数据库下创建的表默认会在/user/hive/warehouse中3.实现显示当前数据库,以及查询表的头信息配置。在hive-site.xml文件中添加如下配置信息。<property> <name>hiv
2021-01-21 16:13:49 228
原创 hive的元数据Derby,命令行工具 beeline
安装mysql用于存储hive的元数据Hive默认数据库类型Derbyhive 默认使用Derby作为Hive metastore的存储数据库,这个数据库更多用于单元测试,只支持一个用户访问,在生产环境,建议改成功能更强大的关系型数据库,根据官网的介绍,支持用于存储hive元数据的数据库如下:hive元数据支持的数据库 最低版本要求 MySQL 5.6.17 Postgres 9.1.13 Oracle 11g MS SQL Server 2008.
2021-01-19 19:54:54 337
转载 Linux软件安装:源码(Source Code)和Tarball(压缩包)
什么是Tarball的软件如果能够将这些程序源码通过打包与压缩的技术来将文件的数量与容量减小。不但让用户容易下载,软件开发商网络带宽也能够节省很多。这就是Tarball文件的由来。一个内核的源码文件大概是几百M,如果每个人都去下载这样的一个内核文件,那网络带宽会变得很拥挤!所谓的Tarball文件,其实就是将软件的所有源码文件先以 "tar"打包,然后再通过压缩技术来压缩。通常是以 gzip来压缩。因为利用了 tar 和 gzip 的功能,所以tarball文件一般的文件扩展名为 .ta
2021-01-19 14:04:35 1382 1
转载 hive交互命令学习
Hive官网(HQL)语法手册(英文版):https://cwiki.apache.org/confluence/display/Hive/LanguageManualHive的数据存储 1、Hive中所有的数据都存储在HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2、只需要在创建表的时候告诉Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。 3、Hive 中包含以下数据模型:DB、...
2021-01-18 18:33:12 187 1
转载 git学习及git上传报错
git 从远程拉取代码、推代码的步骤(注:如果是几个人共同管理项目,并且你的队友在你之前推过代码,那你就需要 git pull 一下,把代码拉到本地,解决一下冲突,再执行以下步骤,将本地代码推到远程仓库。)第一步:查看当前的git仓库状态,可以使用git status。红色代表修改的文件第二步:把更新的代码添加到暂存区。git add *第三步:将暂存区的更新提交到仓库区。git commit -m "更新说明" (更新说明,是本次推送代码的标识,写什么都可以,只要自己看得懂)
2021-01-15 16:40:27 235
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人