- 博客(8)
- 收藏
- 关注
原创 Hive基本操作
1、开启hive1.1 进入 hive/bin[root@hadoop0001 bin]#cd /opt/software/apache-hive-1.2.1-bin/bin/1.2执行 hive 命令,开启hive[root@hadoop0001 bin]#hive1.3若开启正常跳过,若报Cannot create directory /tmp/hive/root/533855bd-351b-4146-9227-10c16868ffd3. Name node is in .
2022-01-05 15:30:43 7926 1
原创 Sqoop导入
一、导入的定义sqoop的机理是:关系型数据库<---->Hadoop(hdfs/hive/hbase)导入的参照物是 Hadoop(hdfs/hive/hbase)相对于Hadoop 对hadoop/hive/hbase导入 是导入二、MySQL向hdfs中导入数据
2022-02-14 11:20:37 1414
原创 正则表达式
定义正则表达式实际上是描述了一种字符串匹配的模式。作用检查一个串是否含有某种子串,实际中经常在数据质量中用来检查某个字符串是否符合某种标准。MySQL 正则表达式一个简单的示例1、查询字符串是否存在数字0-9(0:无,1:有)【不使用数据库表,仅仅查询某个字符串中是否含有数字0-9】select 'qwrt23a' regexp '[0-9]';2、查询表中有“o”的结果【使用数据库表】. : 匹配除“\n”之外的任意单个字符,*匹配前面的子表达式零次或多次,
2022-01-27 09:48:58 892
原创 Hive分区表
1、为什么设立分区表在大量数据需要查询时,虽然可以通过where进行筛选,但也是检索整个数据表后得到的结果。而将一个大的数据集根据实际需要分割成各个小型数据集,再通过where选择需要查询的分区,故而效率大大提高。2、分区表实质Hive中的分区是将一个文件分割成各个目录(文件)。3、分区表语法3.1建立分区表create table 分区表名称(字段名称1 数据类型,字段名称2 数据类型,。。。字段名称n 数据类型)partitioned by(分区
2022-01-11 13:42:19 3511
原创 Hive内部表及外部表
1、内部表内部表,也叫托管表,是Hive在创建表时的默认表。特点:在内部表被删除后,表的元数据和表数据都从HDFS中完全删除①:首先创建一个student内部表hive> create table if not exists student( > id string, > name string > ) > row format delimited > fields terminated by '\t';②查看
2022-01-06 16:30:00 11021
原创 Hive概念
1、Hive1.1 理解:基于Hadoop的一个数据仓库工具,将结构化的数据文件映射成一张表,提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS中,数据库将数据保存在块设备或者本地文件系统中。2)Hive分析数据底层的实现是MapReduce,数据库通常有自己的执行引擎。例:MySQL的执行引擎:innoDB3)Hive中不建议对数据的改写,所有的数据都是在加载的时候确定好的。1.2 优缺点1.2.1优点.
2022-01-03 17:49:37 893
原创 idea2020.1.1版本导入Maven项目
1、File=>Open2、找到需要导入的文件的位置3、设置全局 JDK=>4、设置 Maven5、设置tomcat6、选择自己tomcat路径7、配置Artfact8、一切就绪 ,可以运行了...
2022-01-03 11:14:11 495
原创 Scala自学--基础
一、第一个scala案例与java不同的语法点1、参数声明方式: scala--> 参数名 :类型,java--> 类型 参数名2、public关键字:scala中没有public关键字,默认是公共的。3、unit类型:相当于Java中的void,表示没有返回值4、scala中声明方法使用def关键字5、static关键字:scala中无static关键字,由object实现静态方法的功能object hello { def main(args: Array[Str
2021-12-29 15:24:47 1050
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人