2020年07月_日写BUG八百行

原创 scala学习--集合Set的常用方法及示例

文章目录Scala Set(集合)没有重复的对象集合，所有的元素都是唯一的Scala 集合分为可变的和不可变的集合。声明方式：scala> var a:Set[Int]=Set(1,2,3)a: scala.collection.mutable.Set[Int] = Set(1, 2, 3)scala> var a:Set[Int]=SetInta: scala.collection.mutable.Set[Int] = Set(1, 2, 3)scala> var a=

2020-07-30 23:02:18 1332

原创 scala学习--集合中List的常用方法及示例

文章目录集合的可变与不可变List定义方法集合的可变与不可变scala中集合默认是不可变的，在包scala.collection.immutable下，任何对集合的修改，添加，删除操作都是生成一个新的集合返回如果想对集合进行修改，添加，删除操作，需要使用scala.collection.mutable包下得集合Buffer类scala> var list=List(1,2,3)list: List[Int] = List(1, 2, 3)scala> list(1)=10&l

2020-07-30 22:33:52 1366

原创 scala学习--数组的常用方法及示例

文章目录数组三种声明方式遍历方法二维数组concat() 方法合并数组range() 方法创建区间数组iteratetabulatefillofDimrange元祖定义方法：访问方法productIterator（遍历输出）toStringswap数组三种声明方式var z:Array[String] = new Array[String](3)var z = new Array[String](3)var z = Array("Runoob", "Baidu", "Google")//通过

2020-07-29 23:25:46 989

原创 Idea创建Maven项目时JDK一致的问题

使用idea创建maven时，有三个地方需要修改，保证JDK一致以1.8weili一：JDK的版本如果电脑中有多个版本的JDK，选择自己需要的二：pom.xml中三：工程JDK四：编译JDK

2020-07-28 23:20:59 486

原创 scala中的隐式参数、隐式方法、隐式类

Person类/** * @author WGY */object Person {}class Person{ def hello()={ println("hello!!!!!!!") }}Student类/** * @author WGY */object Student { implicit class Student(obj: ImplicitDemo) { def showStuMsg(): Unit = { print.

2020-07-28 20:11:25 210

原创 scala 隐式函数

创建ImplicitDemopackage nj/** * @author WGY */class ImplicitDemoobject ImplicitDemo { def sum(a:Int,b:Int):Int={ a+b } def sum2(a:Int)(implicit b:Int):Int={ a+b } def main(args: Array[String]): Unit = { //导包,可以调用包中的方法 i

2020-07-27 19:17:20 320

原创 scala中的函数 break 匿名函数

package njimport java.lang/** * @author WGY * 函数 */object FunctionDemo2 { def main(args: Array[String]): Unit = { //函数定义 def fun(a: Int, b: Int): Int = if (a > b) a else b println("fun:" + fun(4, 2)) //递归函数 def fun1(a:

2020-07-27 19:12:58 126

原创 Hive中的数据倾斜

文章目录一、什么是数据倾斜二、Hadoop框架的特性三、主要表现四、容易产生数据倾斜的情况五、产生数据倾斜的原因六、业务场景1、空值产生的数据倾斜2、不同数据类型关联产生数据倾斜3、大小表关联查询产生数据倾斜一、什么是数据倾斜由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点二、Hadoop框架的特性不怕数据大，怕数据倾斜Jobs 数比较多的作业运行效率相对比较低，如子查询比较多sum,count,max,min 等聚集函数，通常不会有数据倾斜问题三、主要表现在8088端口，查看

2020-07-26 17:29:32 201

原创 Linux定时任务cron的使用

文章目录一、什么是cron三、如何使用cron使用格式：crond服务：crontab命令详解使用演示1、使用crontab执行一条命令2、使用crontab执行一个脚本一、什么是croncrond 是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程，与windows下的计划任务类似，当安装完成操作系统后，默认会安装此服务工具，并且会自动启动crond进程，crond进程每分钟会定期检查是否有要执行的任务，如果有要执行的任务，则自动执行该任务。三、如何使用cron使用格式：用

2020-07-26 16:46:53 152

原创将数据从hbase导入到hive

文章目录一、选定hbase上的一个表二、在hive上创建映射表三、查看结果一、选定hbase上的一个表选定test0721表hbase(main):001:0> listTABLESYSTEM.CATALOGSYSTEM.FUNCTIONSYSTEM.LOGSYSTEM.MUTEXSYSTEM.SEQUENCESYSTEM.STATStest07217 row(s) in 0.1500 seconds=> ["SYSTEM.CATALOG", "SYSTEM.FUNC

2020-07-23 23:33:55 3230 4

原创 sqoop安装与使用

文章目录事前准备安装包一、解压安装二、使用1、MySQL->HDFS2、创建job3、导入数据到Hive中4、导入数据到HBase中5、HDFS向MySQL中导出数据6、编写sqoop脚本事前准备安装包tw6j 一、解压安装将安装包托入/software目录下tar -zxvf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt进入/opt对sqoop改名mv sqoop-1.4.6-cdh5.14.2/ sqoop配置环境变量vi /etc/profilee

2020-07-22 19:11:24 356

原创 phoenix安装教程

文章目录事前准备一、解压安装包二、拷贝jar包三、重启hbase四、启动phoenix事前准备Download：http://phoenix.apache.org/download.html，下载hbase对应版本的phoenix一、解压安装包将安装包拖入虚拟机的/software目录下执行命令解压至/opt目录tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt二、拷贝jar包进入apache-phoenix-4.14.0

2020-07-21 23:05:46 1967 1

原创使用Java API操作HBase

package hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import org.junit.Test;import java.io.IOException;public class HBaseClient

2020-07-20 22:31:17 142

原创 hbase shell 常用命令

文章目录事前准备基本命令进入hbase查看版本事前准备安装hbase基本命令进入hbasehbase shell查看版本version查看状态status查看用户whoami查看帮助文档help创建表语法：create '表名', {NAME=>'列簇名'}, {NAME=>'列簇名'}一般情况列簇名在1-3个create 'test',{NAME=>'info'},{NAME=>'like'}意为创建一个表，这个表有两个

2020-07-20 22:21:33 262 1

原创 hive中的Load data 和 insert的区别

文章目录一、Load data二、insert三、IMPORT/EXPORT一、Load data语法为LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename[PARTITION (partcol1=val1, partcol2=val2 ...)]local关键字：有，表示从本地文件系统中导入没有，表示从HDFS文件系统中导入，这里是文件的移动，理解为剪切overwrite关键字有，表示执行数据覆盖操作，

2020-07-19 19:42:55 2937

原创 hive中的动态分区与静态分区

文章目录一、定义分区1、准备测试数据2、建表二、静态分区三、动态分区四、两者的区别一、定义分区1、准备测试数据先创建test表放测试数据2、建表使用partitioned by关键字定义分区注意！分区的字段不能出现在建表字段中！create table partition_table1( id string, name string ) partitioned by (sex string) row format delimited fields terminated by '

2020-07-19 19:19:51 253

原创 hive中的三种建表方法

文章目录一、直接建表二、查询建表三、like建表一、直接建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] employee_external ( //EXTERNAL关键字添加为外部表 name string, work_place ARRAY<string>, sex_age STRUCT<sex:string,age:int>, skills_score MAP<string,int>,

2020-07-19 17:56:16 6416

原创 hive建表语法，内部表与外部表

文章目录一、hive建表语法二、hive外部表1、准备测试数据、放入虚拟机/data目录下2、创建外部表3、装载数据4、查询test1表5、查询test1在hdfs上的位置6、通过desc命令查看表的状态7、删除表，查看表在hdfs上的状态8、重新创建外部表test3，通过location关键字指向test19、查询test3三、hive内部表（管理表）1、创建内部表2、装载数据3、查询test2表4、查询test2在hdfs上的位置5、通过desc命令查看表的状态6、删除表，查看表在hdfs上的状态四、内

2020-07-19 17:26:26 1980

原创 hive中的UDF 自定义函数：如何创建临时/永久函数

文章目录一、为什么要使用自定义函数二、自定义函数的种类三、创建自定义函数1、创建一个maven工程（以idea为例）1、要求：调用函数在输入的字符串之前添加上字符串“Hello”2、注意3、打包4、上传5、创建函数1、创建临时函数2、创建永久函数一、为什么要使用自定义函数在业务需求中，hive内置的函数无法满足我们的需求，可以通过自定义函数来满足。二、自定义函数的种类UDF（User Defined Function），一进一出（输入一行，输出一行），比如：upper（），lowser（）等。

2020-07-14 23:15:53 1623 1

原创 Maven中的打胖包瘦包

maven工程中的胖包与瘦包的区别在于：一、文件大小，胖包往往是瘦包的很多很多倍；二、胖包中自带依赖，瘦包中没有，所以胖包到哪里都能用，而要使用瘦包必须引用的工程中自带依赖才行第一步：在maven的pom.xml中贴入下方代码，原有的可以删掉<build>  <finalName>mytest</finalName> <plugins> <plugin>

2020-07-14 22:35:12 2476

原创 hive必背函数

文章目录数字函数：roundfloorceilrandexppowsqrtabspmodnegativesigngreatestleast集合函数sizemap_keysmap_valuesarray_containssort_array日期函数unix_timestampfrom_unixtimeto_dateyearmonthdayhourminutesecondweekofyeardatediffdate_adddate_subcurrent_datecurrent_timestampadd_mont

2020-07-14 00:01:26 243

wgyzzzz的博客