团子77-CSDN博客

原创 union ，union all 的区别

今天刷力扣题时，被知道的事情耽误了很长时间union，union all的区别在于，union时，如果存在重复数据，只会取一条，即会进行去重操作union all是不会进行去重的，会将两边的所有数据进行合并...

2022-01-07 11:14:35 308

原创四种排序：order by，sort by,distribute by,cluster by

四种排序方法：order by 是全局排序，全局排序的限制就是只有一个reduce进行数据排序处理，数据量大的话，运行效率要考虑sort by 是数据在进入reduce之前进行排序，如果reduce个数大于1，则不能保证数据的排序distribute by 是控制map端数据的分发，即相同key值的数据分发到相同的reduce，一般和sort by一起使用cluster by ，如果sort by,与distribute by对应的字段是一致的，则使用cluster by 代替sort by dis

2022-01-07 10:33:49 491

原创 sql连接操作时（join）where与on的区别

sql

2022-01-06 11:04:19 814

转载 mr执行原理

mapreduce思想先分再合分而治之map：负责分，所谓的分指的是把大的复杂的任务划分成小的任务，然后并行处理提高效率（如果任务不可以拆分或者任务内部存在着依赖关系这样不适合分而至之）reduce：负责合，所谓的合指的是把上步分成的小任务结果聚合成最终的结果两步加起来就是mapreduce思想的体现。hadoop mapreduce 设计构思如何解决大数据的高效计算问题：使用先分再合分而治之的思想抽象出map reduce的编程模型：在mr框架中数据都是以kv键值对形式的存在统

2021-03-12 08:50:52 650

转载为什么在大数据环境下不使用Linux自带调度任务

为什么在大数据环境下不使用Linux自带调度任务作为一个开发者，避免不了定时任务的问题，最粗暴和简单直接的解决方案就是crontab。当然在机器少，任务不多，定时任务之间关联少的情况下，crontab效率还是比较高和便捷的。但当机器越多、定时任务越多，各个任务联系越紧密的情况下，用crontab进行定时任务的管理配置，就会非常混乱，严重影响工作效率。机器多、定时任务多的情况下，就会遇到以下问题：1、每个服务器各个用户下的crontab任务管理混乱，生命周期无法统一协调管理2、定时任务运行异常告警难以

2021-03-11 09:56:25 89

转载 Dolphin Scheduler秒级别工作流异常处理

1组件介绍Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。官网：https://dolphinscheduler.apache.org/en-us/github：https://github.com/apache/incubator-dolphinscheduler2问题描述在dolphinscheduler-1.1.0中，流程定时的操作中，默认的cronta

2020-09-07 18:28:46 1051

原创 postgresq commit问题

org.postgresql.util.PSQLException: Cannot commit when autoCommit is enabled.报错原因是因为JDBC连接数据库导入数据时添加了commit查询后发现pgsql总是自动将其所有操作当作一个事务，语句执行完自动提交去掉connection.commit后不会报错并且数据正常进库关闭自动提交事务的方法：\set autocommit off...

2020-07-24 17:41:57 2585

原创 spark文件、hive、数据库操作

spark2版本spark2版本后可以使用sparksession代替HiveContext与SQLContext1、处理CSV文件val spark=SparkSession.builder().appName(“DataFrameApi”).master(“local”).getOrCreate()val csvDF=spark.read.format(“com.databricks.spark.csv”).option(“header”, “true”).option(“inferSchema

2020-07-20 16:42:17 117

原创 spark：RDD与dataframe互操作

spark：RDD与dataframe互操作1：反射 case class方式此方式必须先知道数据类型与字段，定义class，case class People(name:String,age:Int,classname:Int)再转换RDDval rdd=spark.sparkContext.textFile(“f://topk.txt”)import spark.implicits._val df=rdd.map{line=>line.split(",")}.map(line=&g

2020-07-13 17:11:37 97

原创 spark处理CSV与json格式文件

1、spark处理json格式文件：spark2.0之后可以直接使用sparksession创建appname与master创建后使用format（“json”）.load（“path”）方式即可得到json文件的dataframeval spark=SparkSession.builder().appName(“DataFrameApi”).master(“local”).getOrCreate()val jDF=spark.read.format(“json”).load(“f://scala.

2020-07-13 15:36:47 796

原创 Scala-maven-spark-eclipse步骤及遇到的问题

Scala-maven-spark-eclipse步骤及遇到的问题1、首先在网上查怎么整合eclipse与Scala和maven的步骤，发现在eclipse中help-marketplace-search scala没有出现ScalaIDE，所以不能直接安装Scala2、自己在网站下载Scala的msi安装包并且下载ScalaIDE，并安装到电脑上（直接百度就可有下载地址）3、在ScalaIDE中找到eclipse.exe（绿色背景，花型图案），双击打开，并在其中配置相应版本的jdk，maven4、

2020-06-29 09:17:01 308

原创 oracle采坑之后的总结

1、下载并安装oracle数据库安装数据库时只需要更改一下基目录（oracle安装目录），“口令管理”，查看并修改用户：普通管理员：system（密码：manager）超级管理员：sys（密码：change_on_install）其他都选择下一步启动服务2、如果出现先决条件检测失败开启C盘的默认共享：使用C:/Windows/System32/cmd.exe 以管理员身份运行：net share c=c:若设置后，还显示检查失败，要修改注册表再设置磁盘分享：输入regedit，打开注册表

2020-05-20 12:02:58 108

weixin_44927710的博客

转载数据仓库为什么分层