自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 数据仓库为什么分层

数仓

2022-11-30 19:27:30 90

原创 union ,union all 的区别

今天刷力扣题时,被知道的事情耽误了很长时间union,union all的区别在于,union时,如果存在重复数据,只会取一条,即会进行去重操作union all是不会进行去重的,会将两边的所有数据进行合并...

2022-01-07 11:14:35 270

原创 四种排序:order by,sort by,distribute by,cluster by

四种排序方法:order by 是全局排序,全局排序的限制就是只有一个reduce进行数据排序处理,数据量大的话,运行效率要考虑sort by 是数据在进入reduce之前进行排序,如果reduce个数大于1,则不能保证数据的排序distribute by 是控制map端数据的分发,即相同key值的数据分发到相同的reduce,一般和sort by一起使用cluster by ,如果sort by,与distribute by对应的字段是一致的,则使用cluster by 代替sort by dis

2022-01-07 10:33:49 446

原创 sql连接操作时(join)where与on的区别

sql

2022-01-06 11:04:19 796

转载 mr执行原理

mapreduce思想 先分再合 分而治之map:负责分,所谓的分指的是把大的复杂的任务划分成小的任务,然后并行处理提高效率(如果任务不可以拆分或者任务内部存在着依赖关系 这样不适合分而至之)reduce:负责合 ,所谓的合指的是把上步分成的小任务结果聚合成最终的结果两步加起来就是mapreduce思想的体现。hadoop mapreduce 设计构思如何解决大数据的高效计算问题:使用先分再合 分而治之的思想抽象出map reduce的编程模型:在mr框架中 数据都是以kv键值对形式的存在统

2021-03-12 08:50:52 610

转载 为什么在大数据环境下不使用Linux自带调度任务

为什么在大数据环境下不使用Linux自带调度任务作为一个开发者,避免不了定时任务的问题,最粗暴和简单直接的解决方案就是crontab。当然在机器少,任务不多,定时任务之间关联少的情况下,crontab效率还是比较高和便捷的。但当机器越多、定时任务越多,各个任务联系越紧密的情况下,用crontab进行定时任务的管理配置,就会非常混乱,严重影响工作效率。机器多、定时任务多的情况下,就会遇到以下问题:1、每个服务器各个用户下的crontab任务管理混乱,生命周期无法统一协调管理2、定时任务运行异常告警难以

2021-03-11 09:56:25 79

转载 Dolphin Scheduler秒级别工作流异常处理

1组件介绍Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。官网:https://dolphinscheduler.apache.org/en-us/github:https://github.com/apache/incubator-dolphinscheduler2问题描述在dolphinscheduler-1.1.0中,流程定时的操作中,默认的cronta

2020-09-07 18:28:46 999

原创 postgresq commit问题

org.postgresql.util.PSQLException: Cannot commit when autoCommit is enabled.报错原因是因为JDBC连接数据库导入数据时添加了commit查询后发现pgsql总是自动将其所有操作当作一个事务,语句执行完自动提交去掉connection.commit后不会报错并且数据正常进库关闭自动提交事务的方法:\set autocommit off...

2020-07-24 17:41:57 2480

原创 spark文件、hive、数据库操作

spark2版本spark2版本后可以使用sparksession代替HiveContext与SQLContext1、处理CSV文件val spark=SparkSession.builder().appName(“DataFrameApi”).master(“local”).getOrCreate()val csvDF=spark.read.format(“com.databricks.spark.csv”).option(“header”, “true”).option(“inferSchema

2020-07-20 16:42:17 104

原创 spark:RDD与dataframe互操作

spark:RDD与dataframe互操作1:反射 case class方式此方式必须先知道数据类型与字段,定义class,case class People(name:String,age:Int,classname:Int)再转换RDDval rdd=spark.sparkContext.textFile(“f://topk.txt”)import spark.implicits._val df=rdd.map{line=>line.split(",")}.map(line=&g

2020-07-13 17:11:37 88

原创 spark处理CSV与json格式文件

1、spark处理json格式文件:spark2.0之后可以直接使用sparksession创建appname与master创建后使用format(“json”).load(“path”)方式即可得到json文件的dataframeval spark=SparkSession.builder().appName(“DataFrameApi”).master(“local”).getOrCreate()val jDF=spark.read.format(“json”).load(“f://scala.

2020-07-13 15:36:47 741

原创 Scala-maven-spark-eclipse步骤及遇到的问题

Scala-maven-spark-eclipse步骤及遇到的问题1、首先在网上查怎么整合eclipse与Scala和maven的步骤,发现在eclipse中help-marketplace-search scala没有出现ScalaIDE,所以不能直接安装Scala2、自己在网站下载Scala的msi安装包并且下载ScalaIDE,并安装到电脑上(直接百度就可有下载地址)3、在ScalaIDE中找到eclipse.exe(绿色背景,花型图案),双击打开,并在其中配置相应版本的jdk,maven4、

2020-06-29 09:17:01 280

原创 oracle采坑之后的总结

1、下载并安装oracle数据库安装数据库时只需要更改一下基目录(oracle安装目录),“口令管理”,查看并修改用户:普通管理员:system(密码:manager)超级管理员:sys(密码:change_on_install)其他都选择下一步启动服务2、如果出现先决条件检测失败开启C盘的默认共享:使用C:/Windows/System32/cmd.exe 以管理员身份运行:net share c=c:若设置后,还显示检查失败,要修改注册表再设置磁盘分享:输入regedit,打开注册表

2020-05-20 12:02:58 97

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除