自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 计算最大连胜数

selectid,max(rn-nvl(lag_rn,0)) xfrom(select*,lag(rn) over (partition by id order by rn) lag_rnfrom(select*,lead(fa_su) over (partition by id order by ts) lead_fs,row_number() over (partition by id order by ts) rnfromdu_dw_dev.tmp_data3) whe

2022-04-08 10:50:23 512

原创 编译报错 : 1.5不支持diamond运算符,请使用source 7或更高版本以启用diamond运算符

问题:IDEA 编译报错 : 1.5不支持diamond运算符,请使用source 7或更高版本以启用diamond运算符解决办法:需将项目中所有使用到 jdk 版本的地方同一修改为 1.7 或者之上,比如 1.81.2. Maven默认用的是JDK1.5去编译diamond运算符,有的书翻译为菱形,有的书写的是钻石语法,指的是JDK1.7的一个新特性,所以Maven默认使用JDK1.5去编译肯定是不认识这个东西的可以在pom.xml中加入下面的东西即可<properties&g

2022-03-11 15:32:57 427

原创 spark row_number() over() 的使用注意事项

开窗函数 row_number() over()使用方法命令格式row_number() over(partition by <col1>[, <col2>…]order by <col1>[asc|desc][, <col2>[asc|desc]…])命令说明计算行号,从1开始。参数说明partition by <col1>[, <col2>…]:至少指定1个开窗口的列。order by col1[asc|des

2022-01-07 15:05:24 3259

原创 Spark ReduceByKey 执行流程解析

使用关联和可交换的归约函数合并每个key的value。 在将结果发送给reducer之前,这还将在每个Mapper上本地执行合并,类似于MapReduce中的“ combiner”。

2021-10-27 16:04:32 373

原创 bitmap bitset roaringbitmap 三者的联系以及原理简单使用

bitmap : Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,可以很大力度的节省空间,常用于对大量整数做去重和查询操作。bitset : BitSet就是实现了Bit-Map算法。BitSet位于java.util包下,从JDK1.0开始就已经有了。该类实现了一个按需增长的位向量。位集的每一个组件都有一个boolean类型的值。BitSet的每一位代表着一个非负整数。可以检查、设置、清除单个位。一个BitSet可以通过.

2021-10-26 11:29:56 669

原创 Spark 算子小结

算子使用package SparkTestimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDD/** * @ @description: * @ author: T-WHONG * @ create: 2021-09-27 10:27:36 **/object SparkCore { def main(args: Array[String]): Unit = {

2021-10-12 17:41:27 101

原创 SecureCRT连接慢的问题解决

SecureCRT连接慢的问题解决:修改SecureCRT配置目录的Sessions子目录下对应的服务器ini配置文件, GSSAPI Method 设置的值为 none,重启SecureCRT,连接贼快ini配置文件所在路径:Options-Global Options-SSH Host Keys-Host key database location找到config文件...

2019-09-26 10:12:24 1352

原创 快排

快速排序使用分治法策略来把一个序列分为两个子序列,基本步骤为:1. 先从序列中取出一个数作为基准数;2. 分区过程:将把这个数大的数全部放到它的右边,小于或者等于它的数全放到它的左边;3. 递归地对左右子序列进行步骤2,直到各区间只有一个数。public class Test09 { private static void printArr(int[] arr) { ...

2019-05-12 20:19:15 306

原创 Hbase

Hbase版本0.98以后没有-root-表,元数据信息都存在meta表中,而zookeeper中维护着meta表的地址信息;若是老版本则总体后推一步,包含元数据信息的meta表存在于-root-表中,而root表地址信息维护在zookeeper中。(zookeeper中只负责维护表的地址信息,不可能大量的存在表,从而占用zookeeper空间)Hbase读数据流程:Hbase读流程和...

2019-04-16 11:59:52 294

原创 使用IDEA读取hdfs和本机磁盘parqute文件遇到的路径规范问题

package org.Program1import org.apache.spark.sql.{DataFrame, SparkSession}/** * @ @description: * @ author: T-WHONG * @ create: 2019-04-12 09:49:17 **/object ObtainDataTest { def main(ar...

2019-04-12 17:40:06 458

原创 Azkaban的安装以及使用过程出现的问题

AzkabanWhat is AzkabanAzkaban is a distributed Workflow Manager, implemented at LinkedIn to solve the problem of Hadoop job dependencies. We had jobs that needed to run in order, from ETL jobs to da...

2019-04-11 19:41:05 1991

原创 Hive

什么是hivehive是一个数据仓库的软件,用于使用sql读取和写入数据到一个分布式数据集中,可以把数据集中的结构化数据映射为hive中的一张表,同时可以通过命令行工具,或者jdbc程序连接到hive中进行操作hive的本质是:将hiveQL(HQL)转化为mapReduce程序运行Hive处理的数据是存在HDFS上执行的程序运行在yarn上hive的优缺点优点:对于数据的分...

2019-04-07 18:21:07 343

转载 Mysql中数据类型括号中的数字代表的含义

转自:http://www.cnblogs.com/loren-yang/p/7512258.html首先我们先来讲讲字符和字节的概念。字节(Byte)是一种计量单位,表示数据量多少,它是计算机信息技术用于计量存储容量的一种计量单位。字符是指计算机中使用的文字和符号,比如1、2、3、A、B、C、~!·#¥%……—*()——+、,中,国等等。字符和字节不存在绝对的关系,只是在不同的编码格式里...

2019-04-07 14:17:34 1008

原创 Flume

Flume是什么Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on strea...

2019-03-31 18:01:51 183

原创 线程基础以及创建线程两种方式对比

进程与线程进程是什么(process)对一个程序的运行状态,以及在运行中所占用的资源(内存,CPU)的描述一个进程可以理解为一个程序;但是反之,一个程序不能说是一个进程进程的特点:独立性:不同的进程之间是相互独立的,相互之间资源不共享动态性:进程在程序中不是静止不动的,而是一直活动状态并发性:多个进程可以在一个处理器上同时运行,互不影响线程是什么(thread)是进程的...

2019-03-28 18:04:37 174

转载 进程间通信:IPC与TCP

区别IPC,全名Inter Process Communication即进程间通讯,在同一台机器上的两个进程就用IPC,不能跨物理机器,IPC包括共享内存、队列、信号量等几种方式,由于IPC通讯效率之高,所以大量的Unix下软件都用IPC通讯,如oracleTCP/IP,全名Transmission Control Protocol/Internet Protocol即传输控制协议/网间网协议...

2019-03-28 16:37:18 2265

原创 网络编程

计算机网络所谓计算机网络,就是把分布在不同区域的计算机,与专门的外部设备用通信线路连接成一个规模大,功能强的网络系统,从而使计算机之间进行信息传递,数据共享等网络编程在同一网络中的不同计算机之间进行通信IP地址,端口,通信协议两个计算机之间进行通信的时候必要条件IP地址IP地址,指的是一个设备在网络中的地址(Internet Protocol Address),是互联网设备...

2019-03-27 17:51:00 106

原创 二分查找(Binary Search)

二分查找(Binary Search)二分查找也称折半查找(Binary Search),它是一种效率较高的查找方法。但是,折半查找要求线性表必须采用顺序存储结构,而且表中元素按关键字有序排列。查找过程:首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成前、后两个子表,如果中间位置记录的关键字大于查找关键字,则进一...

2019-03-27 16:27:42 392 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除