☞空白页
码龄6年
关注
提问 私信
  • 博客:134,081
    134,081
    总访问量
  • 91
    原创
  • 2,252,845
    排名
  • 225
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2019-01-07
博客简介:

格子衫

查看详细资料
个人成就
  • 获得59次点赞
  • 内容获得20次评论
  • 获得487次收藏
  • 代码片获得234次分享
创作历程
  • 8篇
    2022年
  • 78篇
    2021年
  • 37篇
    2020年
成就勋章
TA的专栏
  • 浏览器插件
    2篇
  • Hive
    32篇
  • 数据仓库
    10篇
  • Teradata
    2篇
  • 数据分析
    9篇
  • 开发工具
    6篇
  • Shell
    1篇
  • mysql
    18篇
  • Flink
    4篇
  • Azkaban
    1篇
  • DataX
    1篇
  • Maxwell
  • Canal
    2篇
  • Sqoop
    2篇
  • Hbase
    5篇
  • Hadoop
    1篇
  • Java
    1篇
  • Atlas
  • Zeppelin
    1篇
  • ClickHouse
    7篇
  • Kafka
    1篇
  • Spark
    3篇
  • Kylin
    2篇
  • Superset
    1篇
  • Redis
    1篇
兴趣领域 设置
  • 大数据
    hivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive优化—skew join优化原理详解

目录优化原理​编辑适用范围测试验证优化原理JOIN中倾斜键的处理思路最早是在HIVE-964中提出的,整体思路是使用独立的作业和mapjoin来处理倾斜的键。用以处理倾斜键的MR作业数是表的数量减一(we canstreamthe last table, so big keys in the last table will not be a problem)在执行JOIN的过程中,会将一个表中的大key(也就是倾斜的那部分数...
转载
发布博客 2022.05.30 ·
3230 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

Teradata在中国银行业的应用简介

1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.
原创
发布博客 2022.04.09 ·
3362 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DMP和CDP有什么区别?

不只是DMP,CDP的概念也经常和数据仓库、CRM等概念弄混,下面我们来一起辨析一下。CDP 并非有一套严格的标准和执行流程,而是一种概念。这很像近年来大火的“数据中台”,实践过程中各有各的标准,并不能做到完全统一。与此同时,CDP 时常与数据管理平台(DMP)、数据湖、数据仓库的概念相混淆,也会因为都是以客户视角而与 CRM 产生交集。CDP 在功能上会与这些概念产生交集,而又不是完全相同。CDP 数据湖 DMP CRM 使用者 业务部门 数据&研发
原创
发布博客 2022.04.07 ·
986 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

全网最全正则匹配

前言:最近工作中用到了正则匹配,参考了以下两个网站,自己结合做了以下总结。脚本之家:脚本之家菜鸟教程:菜鸟教程正则匹配1、匹配中文:[\u4e00-\u9fa5]2、英文字母:[a-zA-Z]3、数字:[0-9]4、匹配中文,英文字母和数字及下划线:^[\u4e00-\u9fa5_a-zA-Z0-9]+$同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}5、(?!_)  不能以_开头(?!.*?_$)  不能以_结尾[a-zA-Z0-9_\u4e0
转载
发布博客 2022.04.05 ·
1897 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

uTools:一个方法“改变”uTools的插件安装/数据目录

下面的方法只针对windows系统,不过mac也有自己的实现方法。其实就是软链接的简单应用啦ヾ(•ω•`)o我比较讨厌软件安装到C盘或者把数据一股脑儿往C盘塞,所以会有几个单独的分区用来存软件和数据(像vscode拓展,也可以像下面一样操作)具体操作是这样的:1. 退出uTools2. win+R 后输入%APPDATA%,找到uTools文件夹(假设目前uTools文件夹的路径是C:\Users\fakeuser\AppData\Roaming\uTools)3. 选中uTools文..
原创
发布博客 2022.04.03 ·
1860 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

数据分析全面解读.xmind

发布资源 2022.03.20 ·
xmind

HiveSQL技术原理、优化[深度解析]

1.Hive SQL 编译成MapReduce过程编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段: 词法、语法解析: Antlr 定义 SQL 的语法规则,完成 SQL 词法,语法解析,将 SQL 转化为抽象语法树 AST Tree; Antlr是一种语言识别的工具,可以用来构造领域语言。使用Antlr构造特定的语言只需要编写一个语法文件,定义词法和语法替换规则即可,Antlr.
转载
发布博客 2022.03.20 ·
342 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hivesql-高级进阶技巧

温故而知新,直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升!1.删除:insert overwrite tmp select * from tmp where id != '666';2.更新:insert overwrite tmp select id,label, if(id = '1' and label = 'grade','25',value) as value from tmp where id !
原创
发布博客 2022.03.20 ·
238 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE高级函数--get_json_object()和json_tuple()

将每一行数据存储为string,属性名lineget_json_object()select get_json_object(line,'$.movie') as movie, get_json_object(line,'$.rate') as rate, get_json_object(line,'$.timeStamp') as time, get_json_object(line,'$.uid') as uidfrom rate_json;json_tuple()...
原创
发布博客 2022.02.17 ·
964 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

linux shell 多线程执行程序

Shell中并没有真正意义的多线程,要实现多线程可以启动多个后端进程,最大程度利用cpu性能。直接看代码示例吧。(1) 顺序执行的代码#!/bin/bashdatefor i in `seq 1 5`do{ echo "sleep 5" sleep 5}donedate输出:Sat Nov 19 09:21:51 CST 2016sleep 5sleep 5sleep 5sleep 5sleep 5Sat Nov 19 09:22:16 CS
转载
发布博客 2021.12.16 ·
446 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Like rlike在hive中的区别

Hive 中可以用 like 和 rlike 进行模糊匹配,like 采用的是 SQL 通配符,而 rlike 采用的是正则匹配。like%代替 0 或多个字符_代替一个字符举个例子:-- 返回值为 TRUEselect 'aaa' like '%a%'-- 返回值为 TRUEselect 'aaa' like '_a_'rlikerlike 采用正则表达式,以下总结几个常用的\: 转义用,序列 \\ 匹配 \^: 匹配输入字符串开始的位置$: 匹配输入字..
原创
发布博客 2021.11.28 ·
1792 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

hive lateral view 与 explode详解

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice欢迎大家star,留言,一起学习进步1.explodehive wiki对于expolde的解释如下:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in th
转载
发布博客 2021.11.22 ·
420 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive中Map数据类型转String类型,其中具体内容不变

--上传测试数据drop table test_map_1;create table test_map_1 asselect 1 as uid, map("key1", "value1","key2", "value2") as map1 union all select 2 as uid, map("key3", "value3","key4", "value4") as map1;--查看当前测试表结构是否是map<string,string>类型hive> desc .
转载
发布博客 2021.11.22 ·
4311 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

case when的判断顺序_CASE 表达式

一、语法及作用使用CASE表达式可以帮助我们解决复杂的查询问题,相当于条件判断的函数,判断每一行是不是满足条件。CASE WHEN (判断表达式) THEN (表达式) WHEN (判断表达式) THEN (表达式) WHEN (判断表达式) THEN (表达式) .... ELSE(表达式)END;CASE 表达式会从对最初的WHEN子句中的“< 求值表达式 >”进行求值开始执行。所谓求值,就是要调查该表达式的真值是什么。如果结果为真...
转载
发布博客 2021.11.19 ·
2390 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

HiveSQL高级进阶技巧

直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升!1.删除:insert overwrite tmp select * from tmp where id != '666';2.更新:insert overwrite tmp select id,label, if(id = '1' and label = 'grade','25',value) as value from tmp where id != '666
原创
发布博客 2021.11.08 ·
376 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

存量客户管理之提额降息

消费金融行业在2017年进入发展高峰后,受限于逐渐趋严的监管政策以及2020年的疫情冲击,进入了行业洗牌和业务调整阶段。随着金融机构对新客获取更加谨慎,客户消费观念和消费信心趋向保守,无论是持牌的金融机构还是导流方,均逐渐加大投入资源运营存量客户。如何以客户价值目标、客户体验为过程对客户进行精细化管理是各机构越来越重视的内容。风险人员通过数据有效量化和控制风险,运营人员通过开发渠道及开展各种活动进行拉新和促活。一般来讲,风险和运营之间相互促进同时也互相制约,但是在贷中的存量客户管理环节,相对于贷
原创
发布博客 2021.10.08 ·
668 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

with as 语句真的会把数据存内存嘛?(源码剖析)

with as常见问题,大概有两类:1、为啥我用了with..as效率没有提高?2、sql跑不动,改成with..as的写法,会不会更好些?网上博客几乎都有结论with ... as语句会把数据放在内存:前言1:hive可以通过with查询来提高查询性能,因为先通过with语法将数据查询到内存(既然是加到内存中,如果数据量太大,估计会占用大量资源,可能会报内存溢出),然后后面其他查询可以直接使用,这种方法与创建临时表类似但是不需要创建临时表实体表,内存中的子查询结果再会话结束后会自动删除
转载
发布博客 2021.09.24 ·
2296 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Hive高阶分析函数

1.GROUPINGSETS示例:实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。数据:+----------+----------+---+|year_month|date |pv |+----------+----------+---+|2015-04 |2015-04-12|10 ||2015-03 |2015-03-10|2 ||2015-03 |2015-03-..
原创
发布博客 2021.09.16 ·
225 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于贷后的8个专业名词解析

一、DPD(day past due)DPD的意思是逾期天数,指的是逾期用户在最早违期日期至目前日期的时间间隔,贷后催收时需要计算用户的逾期天数,并根据逾期的情况采用不同的催收手段。二、Mn、M1Mn的意思是逾期的期数,比如M1表示逾期一期,那么M2就代表逾期二期,M3就是逾期三期,M4就是逾期四期,M5就是逾期五期等。三、RPC(right public contact)RPC的意思是有效联系人,指的是在贷后用户逾期时,没有办法联系上逾期用户时,可以通过电话联系上逾期用户的直系亲属等。
原创
发布博客 2021.09.08 ·
4741 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

MongoDB和Elasticsearch的各使用场景对比

MongoDB vs Elasticsearch两者的定位MongoDB和Elasticsearch都属于NoSQL大家族, 且都属于文档型数据存储所以这两者的很多功能和特性高度重合, 但其实两者定位完全不同MongoDB 是 文档型数据库, 提供 数据存储和管理服务Elasticsearch 是搜索服务, 提供 数据检索服务两者的很大区别在于源数据的存储和管理MongoDB作为一个数据库产品, 是拥有源数据管理能力的Elasticsearch作为...
转载
发布博客 2021.09.07 ·
4528 阅读 ·
5 点赞 ·
0 评论 ·
13 收藏
加载更多