自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (3)
  • 收藏
  • 关注

原创 若依框架多数据源配置并进行测试

修改在ruoyi-common模块中enums文件夹下的DataSourceType文件。在ruoyi-framework模块中修改DruidConfig文件。在ruoyi-admin模块中的pom.xml文件中添加依赖。在编写ServiceImpl类时,需要指明是哪个数据源。在ruoyi-system模块中编写业务代码。在ruoyi-admin模块中添加一个测试类。

2023-07-17 09:51:50 396 1

原创 Flink sql-client save checkpoint 测试

Flink sql-client save checkpoint 测试

2022-01-14 17:29:08 2443

原创 Flink Client 使用技巧和心得(Flink on Zeppelin)

kafka flinksql offset hive flink on zeppelin

2022-01-14 15:35:21 946

原创 2021-10-08定期删除Hive表的过期数据

定期删除Hive表的过期数据由于Hive中有很多表都是每日全量的,数据量比较大,有些是可以将过去历史分区的数据进行删除的,所以需要一个定时执行的脚本,定时删除前七天的过期数据。注:此脚本只针对分区字段为日期类型#/bin/bashtoday=$(date +%Y-%m-%d)today_timestamp=$(date -d "$today" +%s)echo "获取今天日期:$today,今日日期的时间戳:$today_timestamp"detele_day=$(date -d "7 d

2021-12-20 10:11:05 886

原创 SQL解析Json字段

MySQL支持原生JSON类型,使用JSON数据类型相较于将JSON格式的字符串存储在String型中的优势有:存储时会自动验证JSON文本;可以优化存储格式。存储在JSON型中的JSON文本会被转换成一个支持快速读取的文档元素,这样在使用时不需要再解析文本,并且可以直接通过键和索引访问其中的子对象而无需读取全部文本。JSON型中可存储的JSON文本的大小不会超过mysql.ini配置文件中设置的max_allowed_packet的值。JSON_EXTRACT()函数用于从JSON中提取元素,例如

2021-08-05 20:15:32 2876

原创 RDD 概念

什么是RDDRDD:弹性分布式数据集,抽象类abstract class第一、官方定义是一个集合,不可变的、分区的、并行计算的分布式集合Represents an immutable, partitioned collection of elements that can be operated on in parallel.第二、每个RDD内在5个特性分区partitions(A list of partitions)函数function(A funcation for computing

2021-07-24 21:32:24 111

原创 hadoop数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后,

2021-07-18 12:00:25 127

原创 RDD的三种创建方式

由一个已经存在的Scala集合创建。val seq: immutable.Seq[Int] = 1.to(10)val rdd1: RDD[Int] = sc.parallelize(seq)由外部存储系统的文件创建。包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等。//读取外部文件系统val rdd2: RDD[String] = sc.textFile("datas/wordcount")已有的RDD经过算子转换生成新的RDD//调

2021-07-14 20:45:10 449 3

原创 Spark 写入Mysql

result.foreachPartition( it => { var url = "jdbc:mysql://地址/库名?characterEncoding=utf8" val conn = DriverManager.getConnection(url, "user", "password") val pstat = conn.prepareStatement("INSERT IGNORE INTO `表名 (`geo_hash`, `month_sale`, `ma

2021-07-14 11:22:47 143

原创 分布式NoSQL列存储数据库HBASE(一)

分布式NoSQL列存储数据库HBASE(一)知识点02:课程目标列存储与列式存储不是一个概念列式存储:相同列的数据存储在一起列存储:最小操作单元是列MySQL:最小操作单元是行插入/删除/更新Hbase:最小操作单元是列每一行可以拥有不同的列1-Hbase背景介绍和设计思想功能、特点、应用场景基本原理和设计思想2-Hbase的基本概念MySQL:数据库、表、行、列对象概念:NameSpace、Table存储概念:Rowkey、ColumnFam

2021-06-23 20:40:21 331 9

原创 整理的一点面试题

Hive优化属性优化 本地模式 JVM重用 推测执行 Fetch抓取 并行执行 压缩矢量化查询 零拷贝 关联优化 CBO优化器 小文件处理 索引优化 谓词下推推测执行机制是什么在作业执行的过程中数据倾斜发生的可能性是很大的,甚至有可能只有一个task执行到50%,但是其他task早早执行完毕了。这就需要推测执行,hadoop的推测执行机制会给这些有可能需要长时间才可以执行完的task准备一个备份,一旦task执行缓慢,那么备份task也会执行task的工作,看哪个先执行完就使

2021-06-22 09:02:03 89

原创 小记hive的几种存储引擎,以及hive的SQL优化器

hive的几种存储引擎,以及hive的SQL优化器?存储方面:textfile、orcfile、rcfile、parquet、sequencefile执行引擎:mr、tez、spark词法解析: calcite、cbo优化:mapjoin自定义函数:udfsql语法或自带函数

2021-06-15 13:59:16 261 1

原创 Hive 优化笔记

2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题。count(distinct ),在数据量大的情况下,效率较低,如果是多count(d...

2021-06-14 19:54:12 298 10

原创 数据仓库的概念以及建模方法

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习..

2021-06-08 20:59:10 519 4

原创 项目需求与技术架构

知识点03:大数据业务需求 目标:了解常见大数据平台的业务需求 实施 大数据业务需求本质:通过对公司所有数据的处理和分析,提取数据中的价值,为公司挣更多的钱 数据分析:对公司中的业务数据进行分析处理,根据业务需求实现运营支撑 赚钱的实现:买卖产品 需求:需要更多的客户 实现:推广拉新 打广告:100万 砍价:100万 评价:好与不好的指

2021-06-08 17:52:31 408 15

原创 hadoop离线day09--Apache Hive

hadoop离线day09--Apache Hive目录hadoop离线day09--Apache Hive今日内容大纲1、HQL DDL 数据定义语言分区表分区表创建分区表加载数据总结及注意事项多重分区表分桶表分桶表创建分桶表加载数据HQL DDL 数据定义语言修改表show场景语法2、HQL DML 数据操纵语言Dynamic partition inserts 动态分区插入导出数据操作3、HQL DQL 数据查询语言Com

2021-06-06 15:34:36 609 6

原创 hadoop离线day08--数据仓库、Apache Hive

hadoop离线day08--数据仓库、Apache Hive今日课程内容大纲#1、数据仓库基础知识 数仓是什么 数据分析的平台 面向分析 数仓由何而来 数仓核心特性 数仓和数据库区别 解决一个核心的误区:数仓绝不是大型数据库。 凉凉 OLTP T 事务 OLAP A 分析 数仓的分层架构 #2、当下大数据领域最著名的数仓软件 Apache Hive Hive是什么 数仓 基于

2021-06-05 17:45:25 1291 13

原创 MR案例实现小练习

MR案例实现题目:现有一张emp表,字段分别为员工编号,员工姓名,工作,管理编号,生日,工资,备注,部门编号数据:

2021-06-03 22:28:16 797 10

原创 hadoop离线day07--Hadoop YARN、HA机制

hadoop离线day07--Hadoop YARN、HA机制今日课程内容大纲#HDFS 安全模式 #Hadoop集群动态扩容与缩容 运维#Hadoop YARN 介绍:集群资源管理 任务调度 3大组件 架构 程序在yarn运行流程:以mr程序提交为例 yarn调度器 核心调度策略(算法) Fair调度:多租户资源隔离问题 运维#Hadoop HA集群 高可用概念 持续可用 一直可用 解决单点故障.

2021-06-01 21:05:44 937 13

原创 hadoop离线day06--Hadoop MapReduce、HDFS高阶

hadoop离线day06--Hadoop MapReduce、HDFS高阶今日内容大纲#1.MapReduce 数据压缩 自定义分组 分组在reduce阶段 前后key比较 相同的在一组 一组去调用一次reduce方法 join问题 多个数据之间关联操作 map端join 分布式缓存 reduce端join CombineTextInputFormat 处理小文件的类 ...

2021-05-31 21:35:51 510 13

原创 hadoop离线day05--Hadoop MapReduce

hadoop离线day05--Hadoop MapReduce今日内容大纲#1、MR序列化机制 什么叫做序列化 使用场景 Java中序列化机制 Hadoop序列化机制 Writable 自定义对象类型能否在MR中使用传递。​#2、自定义排序 默认字典序 a-z 正序 升序 如果需要倒序 如何实现? Comparable接口 CompareTo方法#3、自定义分区 默认分区规则 HashPartitione...

2021-05-28 21:49:37 114 3

原创 failed with state FAILED due to: NA&NullPointerException

项目场景:提示:这里简述项目相关背景:例如:项目场景:示例:通过蓝牙芯片(HC-05)与手机 APP 通信,每隔 5s 传输一批传感器数据(不是很大)问题描述:提示:这里描述项目中遇到的问题:例如:数据传输过程中数据不时出现丢失的情况,偶尔会丢失一部分数据APP 中接收数据代码:@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes,

2021-05-28 16:48:05 2827

原创 关于JAVA_HOME is incorrectly set 的问题

问题:当改变jdk位置时,IDEA中的项目关于JAVA的代码行都会报错,比如 import java.util.Map;这一行会灰掉,并且有下滑波浪线解决方案:点击 File -> Project Structure --> 点击SDKs,在右侧会显示JDK home path:,只需要修改成你移动后的jdk所在的目录即可,然后点击右下角的OK键。然后重启下IDEA(File --> Invalidte Caches/restart…)即可。————————————————版权声

2021-05-27 20:57:33 1549 2

原创 写MapReduce程序时遇到错误Error: INFO - Job job_local1832672383_0001 failed with state FAILED due to: NA

写MapReduce程序时遇到错误Error:INFO - Job job_local1832672383_0001 failed with state FAILED due to: NA查看发现有错误第一次遇到这个问题时候,我查了很久没有查出来~ 网上的资料也很少所以便记录一下这次的bug!!其实原理很简单,我自己类型弄错了哭死~~~找寻方法如下~~需要重新查看自己所输入的类型是否一致!!因此将IntWritable 改为LongWritable就可以了下图为我的Mapp.

2021-05-26 23:27:37 4452 4

原创 hadoop离线day04--Hadoop MapReduce

hadoop离线day04--Hadoop MapReduce今日内容大纲初始MapReduce MapReduce背后的思想 先分再合,分而治之 MapReduce设计构思 MapReduce编程规范 进程 MapReduce入门案例--Wordcount 统计单词次数 业务及其简单 背后技术流程学会 掌握MapReduce80% MapReduce程序执行 本地模式 yarn集群模式MapRed...

2021-05-26 20:49:02 754 12

原创 hadoop离线day03--Hadoop HDFS

hadoop离线day03--Hadoop HDFS目录hadoop离线day03--Hadoop HDFS今日内容大纲Apache HDFS入门概念HDFS重要特性分块存储副本机制HDFS shell操作命令shell常见命令操作文件限额操作相关的命令HDFS工作机制读写流程图见画图。NameNode与DataNode通信机制HDFS Java API核心类HDFS辅助工具跨集群复制数据 distcp(distributed

2021-05-25 14:28:45 358 2

原创 hadoop离线day02--Apache Hadoop

hadoop离线day02--Apache Hadoop内容大纲#Apache Hadoop入门 介绍概念 狭义 广义 hadoop起源 hadoop特性优点#Apache Hadoop搭建 hadoop集群 主从架构 hdfs集群 yarn集群 集群角色 集群规划 集群配置 format初始化 启停脚本 webUI页面 hadoop初体验 现象与疑惑 后续学习方向#Apache hadoo...

2021-05-23 22:11:40 166

原创 hadoop离线day01--大数据导读、Apache Zookeeper

hadoop离线day01--大数据导读、Apache Zookeeper大数据导论 数据如何来的 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。​#通过对客观事件进行计量和记录就会产生数据 数据量化 数据分析 所谓的数据就是通过工具或者方法把隐藏在数据背后的规律和价值提取处理的过程。 数据分析的作用(在商业中) 数据分析的结果给企业的决策提供支撑 支持决策。数据仓库的出现也是集成的数据分析平台

2021-05-23 21:24:07 908 8

原创 Linux_day02

内容大纲#1、vim编辑器 文本编辑 命令驱动#2、用户权限管理 用户、用户组及其管理 文件权限 rwx su、sudo#3、系统信息 时间、日期 进程 磁盘使用情况、内存使用情况#4、文本处理命令 --了解 cut wc awk​#5、shell编程 操作访问操作系统内核VIM、VI编辑器 VI编辑器是linux平台上最强悍的==文本编辑器==。主要是以==命令==来驱动执行。 最困难的就是命令的

2021-05-20 22:53:21 116

原创 MySQL 中 SQL 优化常用的30 种方法

文字属于知乎转载, 但是个人觉得第五条和第九条有些冲突,其他的方法暂时作为存储使用,后期会逐条进行比对验证! 还请小伙伴们借鉴的时候多加注意验证1、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。select * from temp;2、应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。3、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使..

2021-05-19 00:14:23 81

原创 SQL小练习---牛客刷题

有一个薪水表,salaries简况如下:建表语句如下:复制代码 1 2 3 4 5 6 CREATETABLE`salaries`( `emp_no`int(11)NOTNULL, `salary`int(11)NOTNULL, `from_date`dateNOTNULL, `to_date`dateNOTNULL, PRIMARYKEY...

2021-05-18 09:55:39 82

原创 Linux常见基础命令

文件系统 功能:==存储文件==,存储数据的。 形式:==目录树==结构。 1、都是从/根目录开始的2、分为两个种类:目录、文件3、路径的唯一性4、只有在目录下才可以继续创建下一级目录 Linux号称万物皆文件,组成一个目录树结构。所有的文件都是从/根目录开始的。 路径解说: 1、当前目录、相对路径、绝对路径 #1、当前目录 你目前所在的目录 可以使用pwd来查看。 有的场合叫做当前工作目录。​#2、相对路径

2021-05-17 21:53:06 165

原创 Java_集合初步讲解——Collection集合

集合1、概述集合是用来存储多个同类型数据的容器, 它的长度是可以变化的.2、集合的体系图记忆集合的顶层都是接口, 其中Collection接口是单列集合的顶层接口, Map接口是双列集合的顶层接口 Collection接口(单列集合)有两大子体系: List体系的特点是: 有序, 可重复 Set体系的特点是: 无序, 唯一 一个小技巧: 以后但凡我们学习一个新的体系时, 都建议采用学顶层, 用底层的方式来学习.: 因为顶层封装的是整个继承体系的共性内容, ...

2021-05-16 23:26:54 155

原创 关于c3p0连接mysql8.0.11 配置文件 url 错误问题;An attempt by a client to checkout a Connection has timed out 问题解决

关于c3p0连接mysql8.0.11 配置文件 url 错误问题报错条目为关于 数据库连接 An attempt by a client to checkout a Connection has timed out 问题解决下列参数注意更改“数据库名称”由于是mysql8.0版本 需要重新更改url地址,即把useSSL=false&serverTimezone=UTC或者serverTimezone=GMT改成useSSL=false&amp;serverTimezone=U

2021-05-11 23:48:25 353

原创 SQL  行列转换之 CASE WHEN 和UNION ALL 的用法

SQL 行列转换之 CASE WHEN 和UNION ALL 的用法建表语句部门表CREATE TABLE DEPT(DEPTNO INT PRIMARY KEY, -- 部门编号DNAME VARCHAR(14) , -- 部门名称LOC VARCHAR(13) -- 部门地址) ;-- 部门数据:INSERT INTO DEPT VALUES (10,'ACCOUNTING','NEW YORK');INSERT INTO DEPT VALUES (20,'RES.

2021-05-10 17:38:45 329

原创 2021-05-09 SQL50题 建表语句

SQL50题 建表语句create table Student(SId varchar(10),Sname varchar(10),Sage datetime,Ssex varchar(10));insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电' , '1990-12-21' , '男');insert into Student values..

2021-05-09 14:23:13 199

转载 2021-05-09快速排序

快速排序YangHeng8162017-03-18 18:11:4810967收藏181分类专栏:数据结构 算法文章标签:快速排序快速排序也是一种采用分治法解决问题的一个典型应用。在很多编程语言中,对数组,列表进行的非稳定排序在内部实现中都使用的是快速排序。而且快速排序在面试中经常会遇到。本文首先介绍快速排序的思路,算法的实现、分析、优化及改进,最后分析了.NET 中列表排序的内部实现。一 原理快速排序的基本思想如下:对数组进行随机化。 从数列中取出一...

2021-05-09 09:26:53 114

原创 DQL、DML、DDL、DCL全名说明方便记忆

DQL、DML、DDL、DCL全名说明方便记忆SQL(Structure Query Language)结构化查询语言DQL(data query language)数据查询语言 select操作DML(data manipulation language)数据操作语言,主要是数据库增删改三种操作DDL(data defination language)数据库定义语言,主要是建表、删除表、修改表字段等操作DCL(data control language)数据库控制语言,如commit,

2021-05-09 09:24:05 195

原创 Mysql 的入门第一步之 DDL

Mysql 的入门第一步之 DDL1.添加表列 ALTER TABLE 表名 ADD 列名 类型;具体操作:–为学生表添加一个新的字段remark,类型为varchar(20)ALTER TABLE student ADD remark VARCHAR(20);2.修改列类型 ALTER TABLE 表名 MODIFY 列名 新的类型; 具体操作:–将student表中的remark字段的改成varchar(100)ALTER TABLE student MODIFY remark ...

2021-05-08 21:14:47 65

原创 java如何计算程序运行时间

java如何计算程序运行时间long startTime = System.currentTimeMillis();//获取开始时间doSomething();//测试的代码段long endTime = System.currentTimeMillis();//获取结束时间System.out.println("程序运行时间:" + (endTime - startTime) + "ms");//输出程序运行时间第二种是以纳秒为单位计算的。long...

2021-05-06 09:07:24 307

hadoop-common-2.7.5.jar

基于文章hadoop离线day08--数据仓库、Apache Hive所用HIVE2驱动

2021-06-05

hadoop-2.6.0-cdh5.14.0-with-windows.rar

HADOOP资源源码下载

2021-05-25

执行winutils报错解决.rar

执行winutils报错解决.rar

2021-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除