自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 scala学习--集合Set的常用方法及示例

文章目录Scala Set(集合)没有重复的对象集合,所有的元素都是唯一的Scala 集合分为可变的和不可变的集合。声明方式:scala> var a:Set[Int]=Set(1,2,3)a: scala.collection.mutable.Set[Int] = Set(1, 2, 3)scala> var a:Set[Int]=SetInta: scala.collection.mutable.Set[Int] = Set(1, 2, 3)scala> var a=

2020-07-30 23:02:18 1332

原创 scala学习--集合中List的常用方法及示例

文章目录集合的可变与不可变List定义方法集合的可变与不可变scala中集合默认是不可变的,在包scala.collection.immutable下,任何对集合的修改,添加,删除操作都是生成一个新的集合返回如果想对集合进行修改,添加,删除操作,需要使用scala.collection.mutable包下得集合Buffer类scala> var list=List(1,2,3)list: List[Int] = List(1, 2, 3)scala> list(1)=10&l

2020-07-30 22:33:52 1366

原创 scala学习--数组的常用方法及示例

文章目录数组三种声明方式遍历方法二维数组concat() 方法 合并数组range() 方法 创建区间数组iteratetabulatefillofDimrange元祖定义方法:访问方法productIterator(遍历输出)toStringswap数组三种声明方式var z:Array[String] = new Array[String](3)var z = new Array[String](3)var z = Array("Runoob", "Baidu", "Google")//通过

2020-07-29 23:25:46 989

原创 Idea创建Maven项目时JDK一致的问题

使用idea创建maven时,有三个地方需要修改,保证JDK一致以1.8weili一:JDK的版本如果电脑中有多个版本的JDK,选择自己需要的二:pom.xml中三:工程JDK四:编译JDK

2020-07-28 23:20:59 486

原创 scala中的隐式参数、隐式方法、隐式类

Person类/** * @author WGY */object Person {}class Person{ def hello()={ println("hello!!!!!!!") }}Student类/** * @author WGY */object Student { implicit class Student(obj: ImplicitDemo) { def showStuMsg(): Unit = { print.

2020-07-28 20:11:25 210

原创 scala 隐式函数

创建ImplicitDemopackage nj/** * @author WGY */class ImplicitDemoobject ImplicitDemo { def sum(a:Int,b:Int):Int={ a+b } def sum2(a:Int)(implicit b:Int):Int={ a+b } def main(args: Array[String]): Unit = { //导包,可以调用包中的方法 i

2020-07-27 19:17:20 320

原创 scala中的函数 break 匿名函数

package njimport java.lang/** * @author WGY * 函数 */object FunctionDemo2 { def main(args: Array[String]): Unit = { //函数定义 def fun(a: Int, b: Int): Int = if (a > b) a else b println("fun:" + fun(4, 2)) //递归函数 def fun1(a:

2020-07-27 19:12:58 126

原创 Hive中的数据倾斜

文章目录一、什么是数据倾斜二、Hadoop框架的特性三、主要表现四、容易产生数据倾斜的情况五、产生数据倾斜的原因六、业务场景1、空值产生的数据倾斜2、不同数据类型关联产生数据倾斜3、大小表关联查询产生数据倾斜一、什么是数据倾斜由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点二、Hadoop框架的特性不怕数据大,怕数据倾斜Jobs 数比较多的作业运行效率相对比较低,如子查询比较多sum,count,max,min 等聚集函数,通常不会有数据倾斜问题三、主要表现在8088端口,查看

2020-07-26 17:29:32 201

原创 Linux定时任务cron的使用

文章目录一、什么是cron三、如何使用cron使用格式:crond服务:crontab命令详解使用演示1、使用crontab执行一条命令2、使用crontab执行一个脚本一、什么是croncrond 是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务 工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。三、如何使用cron使用格式:用

2020-07-26 16:46:53 152

原创 将数据从hbase导入到hive

文章目录一、选定hbase上的一个表二、在hive上创建映射表三、查看结果一、选定hbase上的一个表选定test0721表hbase(main):001:0> listTABLESYSTEM.CATALOGSYSTEM.FUNCTIONSYSTEM.LOGSYSTEM.MUTEXSYSTEM.SEQUENCESYSTEM.STATStest07217 row(s) in 0.1500 seconds=> ["SYSTEM.CATALOG", "SYSTEM.FUNC

2020-07-23 23:33:55 3230 4

原创 sqoop安装与使用

文章目录事前准备安装包一、解压安装二、使用1、MySQL->HDFS2、创建job3、导入数据到Hive中4、导入数据到HBase中5、HDFS向MySQL中导出数据6、编写sqoop脚本事前准备安装包tw6j 一、解压安装将安装包托入/software目录下tar -zxvf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt进入/opt对sqoop改名mv sqoop-1.4.6-cdh5.14.2/ sqoop配置环境变量vi /etc/profilee

2020-07-22 19:11:24 356

原创 phoenix安装教程

文章目录事前准备一、解压安装包二、拷贝jar包三、重启hbase四、启动phoenix事前准备Download:http://phoenix.apache.org/download.html,下载hbase对应版本的phoenix一、解压安装包将安装包拖入虚拟机的/software目录下执行命令解压至/opt目录tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt二、拷贝jar包进入apache-phoenix-4.14.0

2020-07-21 23:05:46 1967 1

原创 使用Java API操作HBase

package hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import org.junit.Test;import java.io.IOException;public class HBaseClient

2020-07-20 22:31:17 142

原创 hbase shell 常用命令

文章目录事前准备基本命令进入hbase查看版本事前准备安装hbase基本命令进入hbasehbase shell查看版本version查看状态status查看用户whoami查看帮助文档help创建表语法:create '表名', {NAME=>'列簇名'}, {NAME=>'列簇名'}一般情况列簇名在1-3个create 'test',{NAME=>'info'},{NAME=>'like'}意为创建一个表,这个表有两个

2020-07-20 22:21:33 262 1

原创 hive中的Load data 和 insert的区别

文章目录一、Load data二、insert三、IMPORT/EXPORT一、Load data语法为LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename[PARTITION (partcol1=val1, partcol2=val2 ...)]local关键字:有,表示从本地文件系统中导入没有,表示从HDFS文件系统中导入,这里是文件的移动,理解为剪切overwrite关键字有,表示执行数据覆盖操作,

2020-07-19 19:42:55 2937

原创 hive中的动态分区与静态分区

文章目录一、定义分区1、准备测试数据2、建表二、静态分区三、动态分区四、两者的区别一、定义分区1、准备测试数据先创建test表放测试数据2、建表使用partitioned by关键字定义分区 注意!分区的字段不能出现在建表字段中!create table partition_table1( id string, name string ) partitioned by (sex string) row format delimited fields terminated by '

2020-07-19 19:19:51 253

原创 hive中的三种建表方法

文章目录一、直接建表二、查询建表三、like建表一、直接建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] employee_external ( //EXTERNAL关键字添加为外部表 name string, work_place ARRAY<string>, sex_age STRUCT<sex:string,age:int>, skills_score MAP<string,int>,

2020-07-19 17:56:16 6416

原创 hive建表语法,内部表与外部表

文章目录一、hive建表语法二、hive外部表1、准备测试数据、放入虚拟机/data目录下2、创建外部表3、装载数据4、查询test1表5、查询test1在hdfs上的位置6、通过desc命令查看表的状态7、删除表,查看表在hdfs上的状态8、重新创建外部表test3,通过location关键字指向test19、查询test3三、hive内部表(管理表)1、创建内部表2、装载数据3、查询test2表4、查询test2在hdfs上的位置5、通过desc命令查看表的状态6、删除表,查看表在hdfs上的状态四、内

2020-07-19 17:26:26 1980

原创 hive中的UDF 自定义函数 : 如何创建临时/永久函数

文章目录一、为什么要使用自定义函数二、自定义函数的种类三、创建自定义函数1、创建一个maven工程(以idea为例)1、要求: 调用函数在输入的字符串之前添加上字符串“Hello”2、 注意3、打包4、上传5、创建函数1、创建临时函数2、创建永久函数一、为什么要使用自定义函数在业务需求中,hive内置的函数无法满足我们的需求,可以通过自定义函数来满足。二、自定义函数的种类UDF(User Defined Function),一进一出(输入一行,输出一行),比如:upper(),lowser()等。

2020-07-14 23:15:53 1623 1

原创 Maven中的打胖包瘦包

maven工程中的胖包与瘦包的区别在于:一、文件大小,胖包往往是瘦包的很多很多倍;二、胖包中自带依赖,瘦包中没有,所以胖包到哪里都能用,而要使用瘦包必须引用的工程中自带依赖才行第一步:在maven的pom.xml中贴入下方代码,原有的可以删掉<build> <!--jar包的首名称--> <finalName>mytest</finalName> <plugins> <plugin>

2020-07-14 22:35:12 2476

原创 hive必背函数

文章目录数字函数:roundfloorceilrandexppowsqrtabspmodnegativesigngreatestleast集合函数sizemap_keysmap_valuesarray_containssort_array日期函数unix_timestampfrom_unixtimeto_dateyearmonthdayhourminutesecondweekofyeardatediffdate_adddate_subcurrent_datecurrent_timestampadd_mont

2020-07-14 00:01:26 243

原创 使用shell脚本一键安装hadoop集群、zookeeper集群并实现高可用

文章目录一、修改配置文件二、安装hadoop三、复制虚拟机四、运行五、测试高可用一、修改配置文件安装集群的方式基本和单机差不多先将需要的安装包和shell脚本拖入对应的目录根据自己主机IP执行first.shjdk.sh安装类型脚本,用一次就删除rm -rf first.shrm -rf jdk.sh然后修改配置文件注意!!!修改好的配置文件一定要先看一下是不是Unix格式,否则会报很多错误core-site.xml<?xml version="1.0" encoding="

2020-07-11 23:58:03 741

原创 使用shell脚本一键安装hadoop单机模式

文章目录1、事前准备 资源下载2、准备好虚拟机,安装JDK3、安装hadoop启动hadoop1、事前准备 资源下载提取码: tw6j2、准备好虚拟机,安装JDK创建虚拟机创建完虚拟机之后可以使用first.sh脚本执行一些基本设置#!/bin/bash#创建虚拟机之后需要做的一些事情#关防火墙systemctl stop firewalldsystemctl disable firewalld#修改主机名(根据自己需要修改)hostnamectl set-hostname had

2020-07-11 23:00:39 1386

原创 Hadoop之MapReduce流程详述

文章目录

2020-07-05 22:35:51 277

原创 解决Hadoop中NameNode与DataNode不能同时启动、启动集群时DataNode无法启动的问题

问题产生的原因:格式化NameNode,会产生一个集群id,启动DataNode时,会产生一个相同的id如果多次初始化NameNode,会导致NameNode和DataNode的id不一致,集群找不到之前的数据从而出现start-all.sh的时候DataNode无法正常启动,或者两个只要启动其中一个,另一个就会挂掉的情况找到tmp路径:首先进入自己的Hadoop目录下cd etc/hadoop打开配置文件vi core-site.xml记下tmp目录的路径地址进入tmp下的dfs目录

2020-07-05 11:33:13 2723 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除