自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小小鱼

好好学习,DAYDAYUP

  • 博客(20)
  • 收藏
  • 关注

原创 kafka多线程写入数据案例

文章目录1、主要思路:2、实现步骤2.1、消息接口 Dbinfo2.2、KafkaConnector2.3、CustomkafkaProducer2.4、测试类App1、主要思路:把producer配置信息进行封装使用LineNumberReader获取文件总行数和对应行的起始字节位置,并存入map里,方便不同线程从不同行读取和写入kafka继承Thread类,重写run方法并执行2、实现步骤2.1、消息接口 Dbinfokafka消息对象 KafkaConfiguration

2021-03-30 01:51:53 1113

原创 kafka基础概念整理

文章目录1、kafka是什么?2、kafka特点3、kafka为什么这么快?4、kafka核心组件5、消费者组的意义是什么?6、consumer加入或离开?7、kafka文件存储基本结构8、为什么要划分为多个segment?9、isr副本同步列表和acks应答机制简介10、不清洁选举unclean.clean.election.enable,默认为false11、怎么保证kafka消费者消费数据是全局有序的12、数据丢失参数设置13、异步发送消息时消息丢失怎么解决?14、避免消息丢失最佳实践:15、消息重复

2021-03-28 18:30:53 214

原创 kafka生产者消费者API(Java、scala)

文章目录一、KafkaAPI代码思路二、依赖三、JavaAPI1、kafka-producer2、kafka-consumer四、ScalaAPI1、kafka-producer2、kafka-consumer五、输出如下:一、KafkaAPI代码思路1、producer设置kafka集群,acks策略配置,K、V序列化创建生产者对象创建生产者信息记录(topic,key,value),然后发送参考文章:Kafka之Producer2、consumer配置集群端口号,消费者组,K、V反

2021-03-28 14:32:38 615

原创 Java实现观察者模式

Java实现观察者模式观察者模式,简单来说就是一对多的依赖,并且把观察者和被观察者对象分开松耦合当某个对象的状态发生更新时,所有依赖的观察者都会收到更新,而断掉依赖的则不在收到代码实现:主题:售楼处的某位员工向有兴趣的用户群发房源降价的消息1、创建观察者接口Observerpublic interface Observer {//观察者接口 void update(String msg);}2、创建被观察者接口public interface Subject {//被观察者的

2021-03-26 12:07:10 1854

原创 spark中正则的使用

spark中正则的使用近期项目中,在写spark做数据清洗时,用了几次正则,因此总结下正则的几个方向的案例,主要方向为sparkSQL函数和自定义函数中的使用。不全,待补充:1、匹配://此方法含义为如果输入age符合正则规则(findAllMatchIn迭代器不为空),则返回本身val calAge = udf((age: String, defyear: String) => { val reg = "^(19[5-9][0-9]|20[0-1][0-9]|2020)$".r

2021-03-25 22:19:08 3494

原创 MySQL-求每个小时停在停车场里车辆的总数量

看到一道sql题目,比较感兴趣,就做了下题目如下:主要思路:使用用户变量+笛卡尔积生成时间维度表通过时间维度表和每次停车信息再做笛卡尔积对时间进行分组求和即可建表如下:代码如下:select substring(tt.dim_time,1,13) as hh,count(*)from (select id, plate_no, from_unixtime(unix_timestamp(t.inttime)),from_unixtime(unix_timestamp(if(t.o

2021-03-24 02:11:55 1293 1

原创 shell脚本一键安装简易版

#!/bin/bash#mysqlRST=`rpm -qa | grep mariadb`if $RST; then yum -y remove $RSTfiyum -y install wgetwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum -y install mysql-serverc

2021-03-23 01:18:34 452

原创 SSM框架——Spring+SpringMVC+MyBatis整合测试案例

文章目录SSM框架——Spring + SpringMVC + MyBatis整合测试案例1、MVC概念2、创建maven工程3、依赖包导入4、目录结构5、spring.xml配置6、进入webapp,修改其中的web.xml7、java工程8、配置运行环境并运行SSM框架——Spring + SpringMVC + MyBatis整合测试案例1、MVC概念可以简单理解为控制器C和视图V之间的实体类M的交互;而controller表示层、services业务逻辑层、dao数据操纵层,称作java的三层

2021-03-21 00:41:50 769 3

原创 数仓项目流程简单梳理

文章目录数仓搭建简易案例一、源数据构建1、通过Java和Python生成模拟日志2、使用Excel模拟维度字段3、使用pymysql直接往MySQL里写数据4、使用jdbc往MySQL里写数据二、使用flume从Tomcat读取数据到hdfs上三、构建ODS层数据:创表脚本,导入脚本四、DWD层构建五、根据需求,构建DWS层六、把DWS层数据导入到MySQL数仓搭建简易案例一、源数据构建此处为模拟方法,实际生产中不会用到1、通过Java和Python生成模拟日志JAVA:创建文件名;根据初始和截止

2021-03-20 16:58:14 1529

原创 DWD层构建思路

DWD层构建思路ODS层数据是近源层,基本上没做过大的格式或数据转换(一般仅对数据进行格式上的转换,比如说对json、URL等格式的日志文件,提取出列数据),因此在DWD层,我们会把数据做一定的整理和优化,并加入一些常用维度,比如说维度、地域等,下面案例简单介绍下DWD层方向一:创建分区表set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite tabl

2021-03-20 16:38:04 1412

原创 mybatis连接mysql的使用方法

mybatis连接mysql的使用方法一、安装:maven仓库导入mybatis、mysql依赖即可 <!-- https://mvnrepository.com/artifact/mysql/mysql-connector-java --> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifac

2021-03-13 18:06:11 383

原创 pyspark读取hive表解析json日志并写入hive表的简单案例——原始数据初步清洗

有如下数据:32365 MOVE 1577808000000 {"goodid": 478777, "title": "商品478777", "price": "12000", "shopid": "1", "mark": "mark"} 6.0.0 android {"browsetype": "chrome", "browseversion": "82,0"}90339 MOVE 1577808008000 {"goodid": 998446, "title": "商品998446", "pri

2021-03-13 01:24:11 826

原创 实现MySQL数据全量迁移至Hive的简单脚本

1、主要思路:编写脚本执行建表语句、sqoop命令1.1、编写建表语句脚本思路:在虚拟机下执行hive -f /脚本路径即可执行hql脚本1.2、编写shell脚本脚本内容为分为两部分执行hql建表语句脚本sqoop迁移命令2、示范案例:2.1、hive建表脚本:-- 示范案例drop database if exists ods_myshops cascade;create database ods_myshops;use ods_myshops;create table o

2021-03-12 01:48:29 875

原创 JDBC单例模式-insert海量数据时的效率优化

文章目录一、配置文件1、装载驱动,创建SQL链接2、BaseDao类3、插入数据,并优化速度一、配置文件1、装载驱动,创建SQL链接配置类构造器私有,不允许外界调用创建多个对象,仅能在调用其中的public静态方法时创建一个对象import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException;public class DBUtils { private DBUtils(){}

2021-03-11 01:39:27 314 4

原创 flume+Tomcat日志收集

文章目录一、日志生成环境模拟二、flume任务配置1、任务脚本文件配置2、执行flume任务错误1:错误2:错误3:错误4:错误5:错误6:一、日志生成环境模拟Tomcat安装:新建一台虚拟机作为webserver,安装jdk和Tomcat,把二者安装包传入至虚拟机中[root@slave02 spark]# tar -zxf apache-tomcat-8.5.63.tar.gz -C /opt/software/spark/[root@slave02 spark]# mv apache-tom

2021-03-11 00:42:37 883

原创 使用python、Java简单模拟日志输出

使用python简单模拟日志输出使用模块:datetime–>日期模块,类似Java里的calendar作用,主要用于日期与字符串之间相互转换,time–>日期和时间戳的相互转换,random–>随机数,math–>四舍五入代码如下:import datetimeimport timeimport randomimport mathdef createLogFileByDate(begin, over, path): # 先把输入的字符串转为日期格式,两个日

2021-03-07 02:14:42 686

原创 IDEA配置scala、spark环境

1、安装IDEA后,如何配置scala环境?首先打开IDEA–>plugins设置–>install Plugin from disk–>把idea-scala插件的压缩包导入,重启idea即可2、IDEA连接hadoop怎么做?直接把虚拟机下的hadoop打包传出来,解压到windows下,如果spark直接读hdfs文件的话,会报“Could not locate executable null\bin\winutils.exe in the Hadoop binaries

2021-03-06 18:36:04 399

原创 rdd读取文件去掉表头的几种方式

spark读取文件时,如果是excel的结构型数据,经常会遇到有表头的情况下面列出了三种方式去掉表头filter判断过滤 val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", "")) .map(x => x.split(",")).filter(!_.contains("id")).cache()mapPartitions操作时迭代删除首行,效率最高 val rdd = s

2021-03-03 19:45:59 2785 1

原创 解决Java文件读取字符串乱码以及虚拟机文件中文乱码的问题

有时候工作中会遇到别人发给你的文件在你这边打开乱码的情况,一般来说原因是文件创建时的编码和自己打开的编码格式不一致造成的,解决乱码通用的方法有以下三步:从文件源头方获取对方的编码将文件内容以getBytes()方法转为对应的字节序列,getBytes()方法内传对方的编码new一个String,把字节序列传进去,第二个参数填我们要转成的编码 //乱码内容 String info="krre030300030322"; //以对方的编码格式转为字

2021-03-03 14:30:00 497

原创 Docker安装

Docker安装1、移除历史版本yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-lastest-logrotate \docker-logrotate \docker-engine2、需要的安装包yum -y install yum-utils3、设置镜像仓库(国内设置阿里云)yum-config-manager \--add-repo \

2021-03-01 00:32:25 105 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除