自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yyf960126的博客

java转型大数据

  • 博客(96)
  • 收藏
  • 关注

转载 Hive函数大全(转)+自己工作上的例子

转自:https://blog.csdn.net/yanxilou/article/details/82661498 写的挺全的,mark!一、关系运算:1. 等值比较: =         语法:A=B         操作类型:所有基本类型         描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE         举例:         hive...

2019-02-12 17:02:10 600

原创 Linux上批量查找文件里面带的关键字(grep 关键字的用法)

grep功能说明:查找文件里符合条件的字符串(同时能匹配正则表达式)语法:grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]grep -参数 ...

2018-12-19 15:48:27 51706 4

原创 hive常用命令和外部写建表语句执行报错的解决方法

如果建表语句中有类型关键字,在建表是会报NoViableAltException错误,需要在关键字上加``(这个是ESC底下那个键)本人常用的hive命令: 1.不用启动hive就能运行建表语句hive -f xx.sql;注意:建表语句如果是外部编译器编写的话要更改编码格式为要不会爆这个错误 2.添加列alter table dev_odb.cac_a...

2018-09-03 16:00:32 1983

原创 hive中一行用分隔符切割成多行

hive中一行用分隔符切割成多行

2024-01-02 16:25:11 375

原创 Hologres常用语句

【代码】Hologres常用语句。

2023-11-13 11:50:31 240

原创 excal中遇到数据变成科学计数法的处理方法

excal中遇到数据变成科学计数法的处理方法,取消科学计数法

2023-08-03 11:09:36 313

原创 在shell脚本中调用另一个脚本的三种不同方法(exec, source,fork)的区别

上一个简单的例子,创建一个shell脚本test,sha="1"echo ${a}1、source的用法和.的用法相同在一个shell脚本中运行source xx.sh,xx.sh相当于执行完xx.sh再执行父脚本,同时xx.sh中的变量父脚本也能拿来使用。就像是java创建好对象,属性就能使用了很多脚本都有这种写法,下面是flink中jobmanager.sh的写法,需要的就是执行完config,sh中的变量2、exec的用法运行完test.sh自动退出,父脚本不再

2022-02-14 16:42:42 709

原创 java判断文件或文件夹是否存在

目录1、判断文件是否存在2、判断文件夹是否存在2.1、file.mkdirs()创建出的文件夹2.2、 file.getParentFile().mkdirs();1、判断文件是否存在import java.io.File;public class sss { public static void main(String[] args) throws Exception { File file = new File("E:\\新建文件夹\\2021111

2021-11-10 17:50:08 9667

原创 SqlServer常用命令与写法

1、备份表sqlserver不支持create table 表名 as select 的写法select * into 备份的表名 from 原表名;2、创建临时表2.1 系统临时表(断开连接会自动删除) create table #tableName(column1 dataType,...)2.2 创建系统临时表(使用drop table ##tableName 删除) create table ##tableName(column1 dataType,...)可以使用上

2021-10-19 16:17:11 1496

原创 Flink基本概念(一)

基于有状态计算(好处:不需要将原始数据重新从外部存储中拿出来)周期性的通过分布式快照技术checkpoints实现状态的持久化维护优势:1、同时支持高吞吐、低延迟、高性能2、支持事件时间(event time)概念:即使乱序时间到达flink也能根据事件产生的时间来处理3、支持有状态计算:把中间结果数据保存在内存或者文件系统中,不用再次从头计算4、支持高度灵活的窗口操作:通过窗口的方式对流数据进行一定范围的聚合计算。flink对窗口划分为基于time、count、sessio..

2021-07-30 18:10:36 318 1

原创 Oracle、mysql、hive、sqlserver中行转列函数

Oracle中listagg() WITHIN GROUP () 将多行合并成一行(比较常用)SELECT T .DEPTNO, listagg (T .ENAME, ',') WITHIN GROUP (ORDER BY T .ENAME) namesFROM SCOTT.EMP TWHERE T .DEPTNO = '20'GROUP BY T .DEPTNO

2021-05-30 00:25:20 842

原创 Oracle使用sqlplus后台执行遇到的问题SP2-0103

${sqls}=sql语句sqlplus -S oracle连接 <<END -- -S代表静默执行 set echo off feedback off heading off underline off; ${sqls}或者@sql文件名 quit;END运行sql文件的形式的时候报错SP2-0103因为sql中写了注释 eg:/*注释内容*/我把注释改成了--注释内容,并且每回运行之前处理一下每行开头的字符,使用sed命令,sed -i 's/^\s*/...

2021-05-29 23:17:34 851

原创 sed命令中删除特定的行,在某行添加,与替换某行的数据

写在开头linux中vi编辑器中跳转到相应的行数是:set nu 之后再:行号。cat时显示行号cat -n test.txtnl 文件名|more(可以在more的时候显示文件的行号)样本数据test.txt123一、删除1.1、删除文件第二行数据sed -i '2d' test.txt1.2、删除文件第二、三行的数据sed -i '2,3d' test.txt1.3、删除文件第二行之后的数据sed -i '2,$d' test.txt

2021-05-17 20:14:33 2789

原创 shell脚本——文件里的内容与变量中内容大小写替换

一、把文件里的内容大小写转换sed 's/[a-z]/\u&/g' 文件名# 转大写sed 's/[A-Z]/\l&/g' 文件名# 转小写二、把变量中的内容大小写转换1、Bash4.0之后可以使用简单的方法,在linux中输入sh就能看见bash的版本${变量名^}:把变量中的第一个字符转换成大写${变量名^^}:把变量中的所有字符转换成大写sh-4.1# a='aaa'sh-4.1# echo ${a^}Aaash-4.1# echo ${a^^}..

2020-08-17 23:58:34 1819

原创 Linux对文件进行处理,sed,awk

1、Linux cut命令分隔文件的某列的值Cut -f1,2(列编号) -d ' '(列分割符) 文件名2、获取当前文件的日期ls -l文件路径|awk '{print $6" "$7" "$8}'linux 如何显示一个文件的某几行(中间几行)【一】从第3000行开始,显示1000行。即显示3000~3999行cat filename | tail -n +3000 ...

2020-04-29 11:30:04 317

原创 windows中host的位置

记下来防止自己忘C:\Windows\System32\drivers\etc集群好久没用了,把里面的#号去掉,IP地址和机器名 eg:192.168.128.150 node150作用就是不用直接输入ip直接输入我们给他起的机器名就可以...

2020-02-14 15:38:22 2273

原创 vertica基本常用sql

Vertica把csv格式的数据导入Verticavsql -h ip -U 用户名 -w ‘密码’-c "copy 表名from local 'xx.csv' delimiter E'分隔符(csv为逗号 ^A 为/001)' ";把vertica数据导出vsql -h ip -U 用户名-w ‘密码’ -o 导出文件名 -F '列分隔符' -R...

2020-02-11 11:09:08 2963

原创 CentOS的yum不好用手动下载rpm包安装vim插件(附上Error: Cannot find a valid baseurl for repo: base)解决方法

题外话:在我把集群的一台服务器通过手动安装vimRPM包之后,突然发现了我把网卡的网关拼写错了,GATEWAY写成GETEWAY,竟然好用了。。。这个集群一年了,一直没法ping通外网,说来也惭愧,大学时计算机网络缺课了一个月,很次,dns和网关都搞不懂,后续会补回来。。。做学问不是做一次就搞定了,而是不断复习精进的过程。进入正题:一、手动安装vim环境:CentOS6.1ping不通外网...

2019-08-26 16:28:08 1231

转载 协同过滤算法

转载自:https://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filteri...

2019-07-25 10:08:21 338

翻译 机器学习——读书笔记(未完)

机器学习——周志华著机器学习致力于研究如何通过计算手段,利用经验来改善系统的计算性能计算机根据数据产生模型,在未来面对新的情况是,模型会给我们提供相应的判断模型泛指从数据中学到的结果,若我们欲预测的是离散值,例如好瓜坏瓜,此类学习任务称为分类若预测的是连续值,例如西瓜成熟度0.95、0.37,称为回归,对只涉及两个类别的二分类任务,其中一个类称为正类,一个为反类;涉及多个类别是...

2019-07-19 09:20:00 239

转载 inner join,left join ,right join ,full join

转载自https://www.cnblogs.com/rickons/p/9663039.htmlINNER JOIN 关键字在表中存在至少一个匹配时返回行。LEFT JOIN 关键字从左表(table1)返回所有的行,即使右表(table2)中没有匹配。如果右表中没有匹配,则结果为 NULL。RIGHT JOIN 关键字从右表(table2)返回所有的行,即使左表(table...

2019-07-18 08:56:19 117

转载 在Intellij IDEA中使用Debug

转载自:https://www.cnblogs.com/chiangchou/p/idea-debug.html目录一、Debug开篇 二、基本用法&快捷键 三、变量查看 四、计算表达式 五、智能步入 六、断点条件设置 七、多线程调试 八、回退断点 九、中断Debug 十、附:JRebel激活  Debug用来追踪代码的运行流程,通常在程序运行过程中出现异...

2019-07-12 17:27:38 121

原创 kettle中处理源数据库mysql的longblob类型问题

全部把字符类型的字段转换为进行强转一下

2019-07-12 17:24:22 1827

转载 Linux从nohup命令探索数据流重导向

转载自:https://www.cnblogs.com/gotodsp/p/6390023.html在应用Unix/Linux时,我们一般想让某个程序在后台运行,于是我们将常会用 & 在程序结尾来让程序自动运行。比如我们要运行mysql在后台: /usr/local/mysql/bin/mysqld_safe –user=mysql &。可是有很多程序并不想mysqld一样,这...

2019-07-12 17:23:24 125

原创 整理知识点——databus的使用

Databus是LinkedIn开源的一款低延迟的分布式数据库同步系统它提供可靠的数据捕获、流转和数据处理功能。 github地址是:https://github.com/linkedin/databus核心组件:  Databus的核心组件是Databus Relay。主要负责两个工作:  1、从Databus源数据库中读取变化行,并序列化为事件流保存至内存中。  2...

2019-07-12 17:21:53 2561

原创 shell脚本判断文件或文件夹是否存在,和if后面带的参数的解释,与判断多个文件与文件建是否存在

1.判断文件夹是否存在 -d 判断当前文件夹是否存在 else 不存在if [ -d "/root/shellTest1" ];thenecho "文件夹已经存在"elseecho "文件夹不存在"mkdir "/root/shellTest1"fi2.判断文件是否存在 -f 判断当前文件是否存在if [ -d "/root/a.txt" ];thenecho "文件...

2019-07-12 16:49:18 4844

转载 IntelliJ Idea 常用快捷键 列表(实战终极总结!!!!)

转载自:https://my.oschina.net/dyyweb/blog/494504IntelliJ Idea 常用快捷键 列表(实战终极总结!!!!) 多年前的博客,如今到处被转载,复制,还有微信专栏,请注明出处哦-大神们,1. -----------自动代码--------常用的有fori/sout/psvm+Tab即可生成循环、System.out、main方法等boile...

2019-07-12 16:39:27 189

原创 oobar, foo, bar, baz和qux搅屎棍的含义

术语foobar,foo,bar,baz和qux经常在计算机编程或计算机相关的文档中被用作占位符的名字。当变量,函数,或命令本身不太重要的时候,foobar,foo,bar,baz和qux就被用来充当这些实体的名字这些术语本身相对于使用的场景来说没有任何意义。foobar经常被单独使用;而当需要多个实体举例的时候,foo,bar,和baz则经常被按顺序使用。...

2019-06-28 15:27:53 1970 1

原创 从github上下载代码之后不能创建java文件的方法|ideasrc目录下无法创建java文件的问题

从github上下载的源码,遇到不能创建javaclass项目问题把不能创建java文件的文件夹source一下

2019-06-05 21:47:11 747

原创 Teradata建表时候复制表,和建表语句

拷贝表和数据Create table xx as 表名 WITH DATA;或Create table xx as 表名 WITH NO DATA;INSERT xx select * from 表名;只拷贝表结构Create table xx as 表名 WITH NO DATA;或CREATE TABLE xx AS( SELECT * FROM...

2019-05-20 14:20:30 4296

原创 Intellij Idea新建文件时自动add进版本控制SVN 或 GIT

我们像git项目中添加一个新的文件时候,idea会弹出一个对话框是否添加文件到git项目中,选择yes就可以,这时看1这个txt文件的图标变为绿色了,说明在git项目的内存中了,如下图像2这种文件夹,还需要点击2这个文件,操作一下上图的步骤,还可以在setting里设置成自动提交...

2019-05-19 22:57:34 12721

转载 Linux下如何查看版本信息

换了项目组,他们的Linux真的不好用,之前都用红帽子,只能查查他们的版本了 Linux下如何查看版本信息, 包括位数、版本信息以及CPU内核信息、CPU具体型号等等,整个CPU信息一目了然。  1、# uname -a (Linux查看版本当前操作系统内核信息)  Linux localhost.localdomain 2.4.20-8 #1 Thu Mar 13 ...

2019-05-14 15:38:18 303

原创 Java中注解解读和元注解—— @Retention @Target @Document @Inherited

什么是注解: 注解类型属于一种Java类型,它用@interface关键字来声明。注解类中的类体为空时,被称为“标示性注解(Marked Annotation)”public @interface Test{}还可以定义一些成员,下面就是有一个名为value的成员和一个Class类型的成员默认值为void.classpublic @interface Test{ S...

2019-05-05 15:04:42 187

转载 Hadoop源码】注解: InterfaceAudience和InterfaceStability

InterfaceAudience 类包含三个注解类型,用来被说明被他们注解的类潜在的使用范围(audience)。@InterfaceAudience.Public: 对所有工程和应用可用@InterfaceAudience.LimitedPrivate: 仅限于某些特定工程,如YARN,MapReduce等@InterfaceAudience.Private: 仅限于HadoopIn...

2019-05-05 15:04:25 229

原创 sqoop在抽取oracle数据库时报错ORA-01555(快照过旧)时的解决方法

在sqoop读取oracle数据库时,oracle数据库还在不断的添加数据或更新数据,就会导致这个问题(1)、SQL语句执行时间太长,或者undo表空间过小,或者事务量过大,或者过于频繁的提交,导致执行SQL过程中进行一致性读时,SQL执行后修改的前镜像(既UNDO数据)在UNDO表空间中已经被覆盖,不能构造一致性读块(CR blocks)。这种情况最多。 (2)、SQL语句执行...

2019-04-23 10:55:13 1097

原创 perl脚本显示does not map to cp936,和给变量赋别的函数的return值报错的解决方法

编码格式的问题,在脚本里加上use utf8;转成utf-8就好了在函数里面调用另一个函数的结果值,要在函数前面加上&符号,要不回报主函数参数过多的问题,如图...

2019-04-09 14:32:16 1226

原创 jdgui报错// INTERNAL ERROR //

一顿查也没有解决方法,母胎bug,用这个吧,反编译class文件https://github.com/deathmarine/Luyten/releases

2019-04-02 20:14:22 1457

原创 Linux中su和su -在切换用户时的区别

用su -用户名的切用户的时候,他会把用户的环境变量也会读取出来,读取~/.bashrc文件而su 不会

2019-03-29 09:15:02 782

原创 sqoop 常见错误以及处理方式

ORA-00911: invalid character ——sqoop的sql语句中oracle数据库不用带分号Oracle: ORA-00933 error (SQL command not properly ended)——如果没有指定的话,sqoop会默认使用oracle.jdbc.OracleDriverOmit选项 --driver oracle.jdbc.driver.Or...

2019-03-25 20:57:43 1774

原创 union和union all的区别,hive遇到Schema of both sides of union should match处理办法

union和union all的区别是,union会去除多个结果集合中的重复结果,而union all则将所有的结果全部显示出来,不管是不是重复。Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序。Union在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算,删除重复的记录再返回结果。实际大部分应用中是不会产生重复的记录,最常见的是过程表...

2019-03-25 20:49:41 8542 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除