- 博客(66)
- 收藏
- 关注
原创 集群同步分发脚本
写脚本之前 先安装服务yum install rsync -y#!/bin/bash# $#:表示传递给脚本或函数的参数个数。#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi #2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname #3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`ech
2021-04-25 17:05:36 273
原创 教程:Oracle11g的安装
文章目录一、事前准备:二、安装步骤:三、注意事项1、禁用服务2、连接验证一、事前准备:oracle资源下载:znu9资源中的sqldeveloper是用来连接数据库 安装之后自带的sqldeveloper回应为jdk版本问题无法正常使用要去官网下载新的sqldeveloper 也就是资源里的这个 可以使用二、安装步骤:首先下载下来之后解压 ,将红框内两个文件合并成一个双击setup安装 需要等一会儿接下来按照图示安装即可这里也可以选择桌面类 后面的配置差不多这里的数
2021-01-18 19:56:56 331
原创 hive映射hbase
文章目录一 hive中建表映射hbase二 建立ORC表一 hive中建表映射hbasecreate external table eventskb07.hb_user_friend(row_key STRING,user_id STRING,friend_id STRING)stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'with serdeproperties ('hbase.columns.mapping'=':key
2020-10-13 11:52:47 164
原创 kafak中的数据传入hbase
文章目录package my.test.kafka_hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.apache.hadoop.hbase.c
2020-10-13 11:47:11 129
原创 通过hive映射MongoDB
文章目录一 MongoDB数据二 hive建表语句三 查询hive表一 MongoDB数据> db.user_friend.find(){ "_id" : ObjectId("5f83260eafd3bb6e8c7efcfb"), "user_id" : "3197468391", "friend_id" : "3873244116" }{ "_id" : ObjectId("5f83260eafd3bb6e8c7efcfc"), "user_id" : "3197468391", "frie
2020-10-13 11:40:46 762
原创 Kafka数据传输到MongoDB
文章目录一 kafka数据格式二 MongoDB建表语句三 将kafka数据传入到MongoDB中一 kafka数据格式403813272,3621115689403813272,1099977298403813272,1470696976403813272,325978978403813272,2429535244403813272,3934248982403813272,3972188036403813272,318125731403813272,34182802044038132
2020-10-13 11:25:37 1519
原创 CentOS 7 调整 home分区 扩大 root分区
配置虚拟机时 分了100G 但是root下只有50G 还有一部分分配到了home下 因为centos7默认分区的root大小为50G,也就是说如果硬件分配的总大小超过50G,剩余的所有空间都会分配给home。这时候软件如果装在/usr/local目录下,并且data等数据文件也配置在root下,则必须在装机后调整root的大小,否则运行一段时间后很容易导致磁盘空间不足。基于这种情况,我们只需要将调整一下home分区的大小预留为1G,将其他的空间都分配给root即可。总体思路为:备份/home内容,然后将
2020-09-08 15:34:15 2249 1
原创 hbase shell 常用命令
文章目录DDL1. 创建表create2. 修改(添加、删除)表结构Schema alter3. 异步修改Schema alter_async4. 获取alter_async执行的状态 alter_status5. 获取表的描述describe6. 列举所有表list7. 表是否存在exists8. 启用表enable和禁用表disable9. 禁用满足正则表达式的所有表disable_all10. 启用满足正则表达式的所有表enable_all11. 删除表drop12. 删除满足正则表达式的所有表dro
2020-09-07 14:32:45 491
原创 使用kafkaStream过滤数据
先写两个工具类package my.test.test.events.stream;import org.apache.kafka.streams.Topology;/** * @author WGY */public interface ICustomTopology { public Topology buildCustomTopology();}package my.test.test.events.stream;import org.apache.kafka.
2020-09-02 18:19:20 1610
原创 Flume对接Kafka,并实现数据分类 --代码演示
文章目录为什么要使用Flume对接Kafka1、 编写Flume的conf文件2、启动kafka消费者3、启动Flume4、登录监控端口5、测试是否成功为什么要使用Flume对接Kafka生产环境中通常将数据写入日志文件中,这样更多的使用Flume但是,当有多个业务线需要使用数据时Flume,需要多个内存(多个sink)而且并不支持动态增加业务线而Kafka支持多条业务线使用,并且支持动态增加1、 编写Flume的conf文件# namea1.sources = r1a1.sinks = k
2020-08-23 23:59:40 493
原创 kafka学习--Interceptor API--代码演示
文章目录时间戳拦截器统计拦截器使用自定义拦截器的Producer需求:给每条数据加上时间戳 并统计成功或者失败的数量时间戳拦截器package my.test.interceptor;import org.apache.kafka.clients.producer.ProducerInterceptor;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.clients.producer
2020-08-23 23:28:14 100
原创 kafka学习--Partitioner API--代码演示
文章目录自定义分区使用自定义分区的Producer自定义分区package my.test.Partitioner;import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import java.util.Map;/** * @author WGY * 自定义分区 */public class MyPartitioner implements Partit
2020-08-23 23:25:04 143
原创 kafka学习--Consumer API--代码演示
package my.test.consumer;import org.apache.kafka.clients.consumer.*;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializer;import java.util.Arrays;import java.util.Map;import java.util.Properti
2020-08-23 23:21:46 134
原创 kafka学习--Producer API--代码演示
文章目录消息发送流程自定义Producer使用回调函数的Producer自定义分区Partition使用自定义分区的Producer消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator,Sender 线程不断从 RecordAccumulator 中拉取消息发送到 Kafka
2020-08-23 23:20:29 134
原创 kafka学习--常用命令
文章目录添加配置文件:export KAFKA_HOME=/opt/kafkaexport PATH=$PATH:$KAFKA_HOME/bin启动kafka(先启动zookeeper)现实日志信息:kafka-server-start.sh /opt/kafka/config/server.properties //server.properties的路径后台运行kafka-server-start.sh -daemon /opt/kafka/config/server.
2020-08-22 22:48:48 215
原创 大数据学习--kafka基本概念
文章目录官方文档什么是kafka官方文档消息中间件为什么要使用消息中间件消息中间件的工作模式消息中间件中的术语Kafka架构Kafka TopicKafka MessageKafka ProducerKafka BrokerKafka ConsumerKafka数据流ZooKeeper在Kafka中的作用官方文档什么是kafkaKafka是一种高吞吐量的分布式发布-订阅 消息系统,专为超高吞吐量的实时日志采集、实时数据同步、实时数据计算等场景来设计官方文档kafka中文官方文档消息中间件消息中
2020-08-22 22:02:51 331
原创 看完肯定会系列之———kafka安装
Kafka安装下载解压点击获取配置文件//config/server.propertiesbroker.id=0listeners=PLAINTEXT://master:9092zookeeper.connect=master:2181,slave1:2181,slave2:2181log.dirs、log.retention.hours启动启动之前先启动zookeeperbin/kafka-server-start.sh config/server.propertie
2020-08-22 22:01:17 112
原创 大数据学习--flume
文章目录flume概述flume架构Sourcesnetcat(监控一个端口)exec(根据命令监控 一般是tail或cat)spooldir(监控一个文件夹)taildir(监控多个文件或者文件夹 特点是:断点续传)avroChannelsmemory(内存存储 速度快 但是不安全)file(本地文件存储 安全 速度慢)Sinkslogger(输出到控制台)hdfs(输出到hdfs)kafka(输出到kafka)filr row(保存在本地文件)选择器副本机制(复制)故障转移负载均衡自定义拦截器flu
2020-08-22 18:01:20 223
原创 spark学习--求DataFrema的交集、差集、并集
package test0816import org.apache.spark.sql.SparkSession/** * @author WGY */object Test extends App { private val spark: SparkSession = SparkSession.builder().master("local[2]").appName("mysql").getOrCreate() //先声明两个DF val df1 = spark.create
2020-08-16 21:29:08 514
原创 spark学习--spark SQL
文章目录Spark SQLSparkConf与SparkSessionSparkContextSparkContext创建方法一 使用SparkConfSparkContext创建方法二 使用SparkSessionRDD、DataSet(DS)、DataFrame(DF)RDD转换为DS读取json文件并转换成DF通过样例类,将RDD转换成DF通过schema创建DFDF转换为RDDSpark SQL操作外部数据源通过DF读取parquet文件spark连接数据库(SparkToMySQL)spa
2020-08-13 16:18:27 235
原创 Spark学习--GraphX初体验
文章目录为什么需要图计算图(Graph)的基本概念图的术语Spark GraphX 简介实例演示为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图(Graph)的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构1、通常表示为二元组:Gragh=(V,E)2、可以对事物之间的关系建模应用场景1、在地图应用中寻找最短路径2、社交网络关系3、网页间超链接关系
2020-08-11 00:14:58 236
原创 Spark学习--RDD优化
文章目录RDD持久化:缓存机制:检查点:快照检查点与缓存的区别RDD共享变量:累加器:(属于一种共享变量)RDD分区设计:数据倾斜:解决方法:1、对数据进行ETL预处理(数据清洗)2、过滤少数会导致倾斜的key3、提高shuffle操作的并行度4、两阶段聚合5、将reduce join转为map join6、采样倾斜key并分拆join操作7.使用随机前缀和扩容RDD进行joinRDD持久化:缓存机制:创建缓存:RDD.cache/或者persist RDD.cache之后并没有执行,需要.colle
2020-08-09 23:26:04 327
原创 Spark练习题--基础20题
数据如下:班级ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7013 张大三 25 男 chinese 6013 张大三 25 男 math 6
2020-08-06 00:18:37 1311
原创 IDEA操作Spark--创建SparkContext、SparkSession
SparkContextobject SparkContextDemo extends App { //创建一个spark context对象 val conf:SparkConf = new SparkConf() .setMaster("local[2]") .setAppName("sparkTest") val sc:SparkContext = SparkContext.getOrCreate(conf) sc.textFile("hdfs://hadoop1:9
2020-08-04 18:52:01 1388
原创 scala学习--偏函数与部分函数
文章目录1. 偏函数1.1 isDefinedAt1.2 orElse1.3 andThen1.4 applyOrElse2. 部分函数/偏应用函数1. 偏函数偏函数(Partial Function),是一个数学概念它不是"函数"的一种, 它跟函数是平行的概念。Scala中的Partia Function是一个Trait,其的类型为PartialFunction[A,B],其中接收一个类型为A的参数,返回一个类型为B的结果。举个例子scala> val pf:PartialFunction
2020-08-01 22:49:35 163
原创 scala学习--普通类和样例类的模式匹配
//模式匹配//定义一个普通类class Student(n: String, a: Int) { //定义一些成员变量 var name: String = n var age: Int = a}//以下注释放开 普通类也可以使用样例类的方式使用模式匹配,样例类本身会帮我们自动实现这两个方法////伴生类//object Student {// def apply(n: String, a: Int): Student = new Student(n, a)// appl
2020-08-01 22:21:42 241
原创 scala学习--面向对象(OOP)
文章目录类(class)类(class)类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private,protected类中无法定义静态成员变量和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部分构造器:...
2020-08-01 21:54:43 357
原创 scala学习--入门
文章目录一、scala的特点二、scala关键字三、变量与常量四、使用类型别名定义变量五、数据类型六、字符串插值一、scala的特点面向对象特性每个值都是对象对象的数据类型和行为由类(Class)和特质(Trait,类似于接口)描述利用特质实现混入式多重继承函数式编程每个函数都是一个值支持高阶函数、柯里化(currying)、样例类(case class)及模式匹配……Scala是静态类型语言、强类型语言扩展性:隐式类、字符串插值二、scala关键字三、变量与常
2020-08-01 18:08:54 149
原创 scala学习--集合Set的常用方法及示例
文章目录Scala Set(集合)没有重复的对象集合,所有的元素都是唯一的Scala 集合分为可变的和不可变的集合。声明方式:scala> var a:Set[Int]=Set(1,2,3)a: scala.collection.mutable.Set[Int] = Set(1, 2, 3)scala> var a:Set[Int]=SetInta: scala.collection.mutable.Set[Int] = Set(1, 2, 3)scala> var a=
2020-07-30 23:02:18 1348
原创 scala学习--集合中List的常用方法及示例
文章目录集合的可变与不可变List定义方法集合的可变与不可变scala中集合默认是不可变的,在包scala.collection.immutable下,任何对集合的修改,添加,删除操作都是生成一个新的集合返回如果想对集合进行修改,添加,删除操作,需要使用scala.collection.mutable包下得集合Buffer类scala> var list=List(1,2,3)list: List[Int] = List(1, 2, 3)scala> list(1)=10&l
2020-07-30 22:33:52 1380
原创 scala学习--数组的常用方法及示例
文章目录数组三种声明方式遍历方法二维数组concat() 方法 合并数组range() 方法 创建区间数组iteratetabulatefillofDimrange元祖定义方法:访问方法productIterator(遍历输出)toStringswap数组三种声明方式var z:Array[String] = new Array[String](3)var z = new Array[String](3)var z = Array("Runoob", "Baidu", "Google")//通过
2020-07-29 23:25:46 1003
原创 Idea创建Maven项目时JDK一致的问题
使用idea创建maven时,有三个地方需要修改,保证JDK一致以1.8weili一:JDK的版本如果电脑中有多个版本的JDK,选择自己需要的二:pom.xml中三:工程JDK四:编译JDK
2020-07-28 23:20:59 495
原创 scala中的隐式参数、隐式方法、隐式类
Person类/** * @author WGY */object Person {}class Person{ def hello()={ println("hello!!!!!!!") }}Student类/** * @author WGY */object Student { implicit class Student(obj: ImplicitDemo) { def showStuMsg(): Unit = { print.
2020-07-28 20:11:25 223
原创 scala 隐式函数
创建ImplicitDemopackage nj/** * @author WGY */class ImplicitDemoobject ImplicitDemo { def sum(a:Int,b:Int):Int={ a+b } def sum2(a:Int)(implicit b:Int):Int={ a+b } def main(args: Array[String]): Unit = { //导包,可以调用包中的方法 i
2020-07-27 19:17:20 333
原创 scala中的函数 break 匿名函数
package njimport java.lang/** * @author WGY * 函数 */object FunctionDemo2 { def main(args: Array[String]): Unit = { //函数定义 def fun(a: Int, b: Int): Int = if (a > b) a else b println("fun:" + fun(4, 2)) //递归函数 def fun1(a:
2020-07-27 19:12:58 131
原创 Hive中的数据倾斜
文章目录一、什么是数据倾斜二、Hadoop框架的特性三、主要表现四、容易产生数据倾斜的情况五、产生数据倾斜的原因六、业务场景1、空值产生的数据倾斜2、不同数据类型关联产生数据倾斜3、大小表关联查询产生数据倾斜一、什么是数据倾斜由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点二、Hadoop框架的特性不怕数据大,怕数据倾斜Jobs 数比较多的作业运行效率相对比较低,如子查询比较多sum,count,max,min 等聚集函数,通常不会有数据倾斜问题三、主要表现在8088端口,查看
2020-07-26 17:29:32 212
原创 Linux定时任务cron的使用
文章目录一、什么是cron三、如何使用cron使用格式:crond服务:crontab命令详解使用演示1、使用crontab执行一条命令2、使用crontab执行一个脚本一、什么是croncrond 是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务 工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。三、如何使用cron使用格式:用
2020-07-26 16:46:53 164
原创 将数据从hbase导入到hive
文章目录一、选定hbase上的一个表二、在hive上创建映射表三、查看结果一、选定hbase上的一个表选定test0721表hbase(main):001:0> listTABLESYSTEM.CATALOGSYSTEM.FUNCTIONSYSTEM.LOGSYSTEM.MUTEXSYSTEM.SEQUENCESYSTEM.STATStest07217 row(s) in 0.1500 seconds=> ["SYSTEM.CATALOG", "SYSTEM.FUNC
2020-07-23 23:33:55 3249 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人