自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 spark的广播变量(Broadcast)

注明:大部分知识点是从官方文档翻译,少部分是自己测试,或者在实际项目中的总结。官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#shared-variables原理通常情况下,spark的变量只为单独的task工作。广播变量的出现,可以在每台服务器保存一个变量而不是在每一个task上保留一份。官方...

2020-03-26 11:18:41 2184

原创 spark的日志监控(WEB UI 和history server)

背景当我们在跑一个spark任务的时候,如果碰到数据倾斜或者我们想去看下运行参数或者具体的运行情况,这时候我们就需要一个可视化的日志页面,去监控spark的运行。(注明:大部分知识点是从官方文档翻译,少部分是自己测试,或者在实际项目中的总结。)官方文档地址:https://spark.apache.org/docs/latest/monitoring.html1、spark UI默认情况...

2020-03-25 20:10:23 2787

原创 Git命令对于已经commit没有push的撤回(包括IDEA的操作)

背景使用git来进行版本控制,发现自己多commit了个东西,然后想撤回。之前自己这块一直没有去看,当时忙也来不及去操作,操作了一下好像也没有操作对,所以都是复制自己修改的然后删除分支,这样又麻烦有浪费时间。解决今天抽了点时间来看一下这方面,就是关于自己commit但是还没有push的操作。具体在命令行操作和IDEA 页面操作给出结论。先来解释几个术语HEAD: 这是当前分支版本顶端的别...

2020-03-25 10:37:07 2626

原创 SparkThiftServer 资源动态分配

背景在做的项目BI 使用的是sparkJDBC来去查询和处理数据。依赖的SparkThiftServer这一块东西还是挺多的,今天来讲一下资源动态分配。有了资源动态分配的功能,使其在处理大数据量或者小数据量的时候,都可以处理,而且相对来说不用一直占用较多资源。本文大部分参考官方文档,小部分是自己实际测试得出的结论。官方文档地址:https://spark.apache.org/docs/la...

2020-03-19 20:44:23 588

原创 spark多目录输出

背景现在有这么一个需求,spark 读取日志信息,日志中有info,error,debug 相关的日志,我们要将其读取并分别放到不同的目录中。当然了,每次读取落地一次也可以,但是这样相当于要读取多次,在文件很大的时候,效率这块肯定不好解决spark可以支持多目录输出,具体方法如下1、我们可以使用saveAsHadoopFile方法,并自定义一个类继承MultipleTextOutputF...

2020-03-19 10:50:15 939

原创 hive metastore解析

背景以上所有内容,均搬自官方文档,还有一部分是自己在实际经验中的总结。官方文档相关已经非常详细,也希望大家能养成看官方文档的好习惯。说明hive metastore 是什么呢?它是一个服务端,简称server。有什么作用呢?作用是建立起和hive客户端的连接,当客户端来请求,server去远程metastore数据库查询信息返回hive metastore的模式hive ...

2020-03-17 20:16:10 1128

原创 日志(logback)关于特定方法时延的跟踪

背景目前项目在BI 这块很慢,为了定位问题,需要去跟踪在哪一块导致了这方面的问题,比如获取连接,还是数据处理,展示等等,为了有个直观性、持续性的标识,这边定的使用日志去来定位问题。解决1、我们先写了个静态方法,静态方法如下图所示 /** * @param type "开始"和"结束"两个值 * @param function 功能项,比如"初始化","偏移列" ...

2020-03-17 17:31:56 362

原创 hive 查看表的详细信息

背景目前有个需求,就是让生成表以后,查看当前数据库,以及表的路径,之前查看表一直是用show create table tableName这种方式去查看的,直接查询可以,但是放到java访问的方式来有诸多的不变。他是一个连续的字符串,如果你想查询还需要用正则匹配想要的信息,非常的不方便,而且效率也低。解决发现使用desc formatted tableName是更好的选择,里...

2020-03-16 17:29:37 7901 3

原创 HikariCP连接池与参数解析

背景公司项目用到了HikariCP连接池,配置了一堆参数我也看不懂,正好在BI这一块需要优化,我就从连接池下手看下有没有需要的优化项(主要是优化配置),然后看了一遍官网总结了一下https://github.com/brettwooldridge/HikariCP HikariCP文档所在地址代码构建连接池1、直接代码构建HikariDataSource ds = n...

2020-03-12 15:01:12 2295

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除