小迷糊>_<-CSDN博客

原创 Hive基本操作

1、开启hive1.1 进入 hive/bin[root@hadoop0001 bin]#cd /opt/software/apache-hive-1.2.1-bin/bin/1.2执行 hive 命令，开启hive[root@hadoop0001 bin]#hive1.3若开启正常跳过，若报Cannot create directory /tmp/hive/root/533855bd-351b-4146-9227-10c16868ffd3. Name node is in .

2022-01-05 15:30:43 8738 1

原创 Sqoop导入

一、导入的定义sqoop的机理是：关系型数据库<---->Hadoop(hdfs/hive/hbase)导入的参照物是 Hadoop(hdfs/hive/hbase)相对于Hadoop 对hadoop/hive/hbase导入是导入二、MySQL向hdfs中导入数据

2022-02-14 11:20:37 1554

原创正则表达式

定义正则表达式实际上是描述了一种字符串匹配的模式。作用检查一个串是否含有某种子串，实际中经常在数据质量中用来检查某个字符串是否符合某种标准。MySQL 正则表达式一个简单的示例1、查询字符串是否存在数字0-9（0：无，1：有）【不使用数据库表，仅仅查询某个字符串中是否含有数字0-9】select 'qwrt23a' regexp '[0-9]';2、查询表中有“o”的结果【使用数据库表】. : 匹配除“\n”之外的任意单个字符，*匹配前面的子表达式零次或多次，

2022-01-27 09:48:58 988

原创 Hive分区表

1、为什么设立分区表在大量数据需要查询时，虽然可以通过where进行筛选，但也是检索整个数据表后得到的结果。而将一个大的数据集根据实际需要分割成各个小型数据集，再通过where选择需要查询的分区，故而效率大大提高。2、分区表实质Hive中的分区是将一个文件分割成各个目录（文件）。3、分区表语法3.1建立分区表create table 分区表名称（字段名称1 数据类型，字段名称2 数据类型，。。。字段名称n 数据类型）partitioned by（分区

2022-01-11 13:42:19 3776

原创 Hive内部表及外部表

1、内部表内部表，也叫托管表，是Hive在创建表时的默认表。特点：在内部表被删除后，表的元数据和表数据都从HDFS中完全删除①：首先创建一个student内部表hive> create table if not exists student( > id string, > name string > ) > row format delimited > fields terminated by '\t';②查看

2022-01-06 16:30:00 11651

原创 Hive概念

1、Hive1.1 理解：基于Hadoop的一个数据仓库工具，将结构化的数据文件映射成一张表，提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS中，数据库将数据保存在块设备或者本地文件系统中。2）Hive分析数据底层的实现是MapReduce，数据库通常有自己的执行引擎。例：MySQL的执行引擎：innoDB3）Hive中不建议对数据的改写，所有的数据都是在加载的时候确定好的。1.2 优缺点1.2.1优点.

2022-01-03 17:49:37 982

原创 idea2020.1.1版本导入Maven项目

1、File=>Open2、找到需要导入的文件的位置3、设置全局 JDK=>4、设置 Maven5、设置tomcat6、选择自己tomcat路径7、配置Artfact8、一切就绪，可以运行了...

2022-01-03 11:14:11 614

原创 Scala自学--基础

一、第一个scala案例与java不同的语法点1、参数声明方式: scala--> 参数名 :类型，java--> 类型参数名2、public关键字：scala中没有public关键字，默认是公共的。3、unit类型：相当于Java中的void，表示没有返回值4、scala中声明方法使用def关键字5、static关键字：scala中无static关键字，由object实现静态方法的功能object hello { def main(args: Array[Str

2021-12-29 15:24:47 1231

weixin_44246850的博客