自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 【hive】表结构序列化后加字段失败

去设置:表结构上的:ROW FORMAT SERDE。

2024-07-18 10:15:58 138

原创 【map join】 Starting to launch local task to process map join

hive大小表关联,自动转为map join,结果申请资源太大,sql异常退出。解决:set hive.auto.convert.join=false;

2024-03-21 20:15:02 167 1

原创 ClickHouse json解析

ck、clickhouse、json

2023-11-23 12:20:17 404

原创 【FLINK SQL】实例

sql

2023-11-16 10:39:26 117

原创 【datax】mysql同步数据到hive

datax同步mysql数据到hive

2023-09-22 14:50:52 348

原创 【MergeTree】

当合并 SummingMergeTree 表的数据片段时,ClickHouse 会把所有具有相同主键的行合并为一行,行包含了被合并的行中具有数值数据类型的列的汇总值。尽管你可以调用 OPTIMIZE 语句发起计划外的合并,但请不要依靠它,因为 OPTIMIZE 语句会引发对数据的大量读写。如果其他副本上已包含了某些数据,在表上添加新副本,则在运行语句后,数据会从其他副本复制到新副本。如果主键的组合方式使得单个键值对应于大量的行,则可以显著的减少存储空间并加快数据查询的速度。可以是一组列的元组。

2023-06-15 11:35:38 642

原创 clickhouse--开窗函数(window function)的用法

https://clickhouse.com/docs/en/sql-reference/window-functionshttps://blog.csdn.net/liuyingying0418/article/details/120269624

2023-06-13 16:36:17 237

原创 【CK 常用函数】

【代码】【CK 常用函数】

2023-06-13 16:33:25 1228

原创 【炸裂技巧 之 posexplode】

炸裂技巧

2023-06-06 14:51:01 52

转载 hive默认的换行符

在创建Hive表时,默认行分隔符"^A",列分隔符"\n",这两项也是可以设置的。在实际开发中,一般默认使用默认的分隔符,当然有些场景下也会自定义分隔符。REGEXP_REPLACE(字段,‘\r|\n|\r\n|\001|\002|\003|\t’, ‘’)创建表1:spark-hive。

2023-03-06 20:16:08 2217

原创 yarn查看已提交任务sql

位置:mapreduce.workflow.name。yarn查看已提交任务sql及其参数。

2023-03-06 15:47:33 431

转载 Excel/WPS 电子表格中时间戳转日期时间公式

Unix时间戳(Unix timestamp),或称Unix时间(Unix time)、POSIX时间(POSIX time),是一种时间表达方式,定义为从格林威治时间1970年01月01日00时00分00秒起至现在的总秒数(或总毫秒数)。面对庞大的数据表格,我快速浏览了一遍,确认首先需要处理的是client_time一列,内容是Unix时间戳格式,很明显,Excel不支持Unix时间戳。我在等待一场夏日里的倾盆大雨,和一个新的开始。站长工具是不支持批量转换的,这几千条数据,如此搞下去,我怕不是有个大病。

2023-02-28 10:29:45 825

转载 show table extended like

此刻我们终于拿到了我们想要的访问时间lastAccessTime,但是有另外一个问题,权限问题,我们没有权限的表不能用hive/beeline 去查看,spark-sql 无法执行该命令。我们在使用大数据集群时,时间越长越发现有大量的冗余数据表,删除却发现所有人的使用情况不一样,删除的话可能会影响当前正在运行的业务。最后可以吧文件到入mysql,或hive 数据库,转化时间戳(毫秒级),可以将一年内无访问的表删除(备份表除外)hcat 是为了让没有hive账户的人去查看hive表信息的工具。

2023-02-27 17:22:08 186

原创 【hive】Could not find status of job

日常运行的线上任务夜间突然报错,重跑还是如此,搜一堆 set hive.jobname.length=100;清理用户下目录,任务重跑正常。显然不适用,经排查,往下看。

2023-02-24 10:19:50 418

转载 Git使用教程

Git是分布式版本控制系统,那么它就没有中央服务器的,每个人的电脑就是一个完整的版本库,这样,工作的时候就不需要联网了,因为版本都是在自己的电脑上。SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以首先要从中央服务器哪里得到最新的版本,然后干活,干完后,需要把自己做完的活推送到中央服务器。集中式版本控制系统是必须联网才能工作,如果在局域网还可以,带宽够大,速度够快,如果在互联网下,如果网速慢的话,就纳闷了。二:SVN与Git的最主要的区别?

2022-11-22 15:25:24 75

原创 hive编程

处理压缩文件

2022-09-15 20:30:10 1293

原创 grouping_id&grouping sets

grouping sets 用法在Hive中,会出现对同一个数据表进行不同粒度的汇总,这时可以有两种方案:用多个sql,对不同粒度使用不同的 group by 方法。

2022-09-05 21:04:45 752

原创 Pandas:single positional indexer is out-of-bounds

日常数据都没问题,突然报了个错 IndexError: single positional indexer is out-of-bounds。

2022-09-05 18:15:00 3245

原创 flume 启动

在flume的安装路径下,启动脚本为bin目录下的flume-ng;-n:flume-app.conf文件中agent的名字。-c:指向flume安装目录下conf目录的绝对路径。-f:指向flume-app.conf文件的绝对路径。-Dflume:启动日志打印到当前控制台。...

2022-08-15 19:42:45 1219

原创 hive函数-lag()

hive函数 lag()

2022-08-05 13:15:00 173

原创 hive&mysql日期函数

日期函数

2022-08-03 16:58:29 1192

原创 【转】flink窗口起始时间

getWindowStartWithOffset

2022-07-20 19:54:20 560

原创 yarn参数设置

NM 主要使用两个参数来限制 containers CPU 资源使用。首先,使用 yarn.nodemanager.resource.percentage-physical-cpu-limit 来设置所有 containers 的总的 CPU 使用率占用总的 CPU 资源的百分比。比如设置为 60,则所有的 containers 的 CPU 使用总和在任何情况下都不会超过机器总体 CPU 资源的 60 %。然后,使用 yarn.nodemanager.linux-container-executor.cgr

2022-06-30 16:21:52 3354 2

原创 hadoop 优化参数

#hadoop 优化参数(5) 使用 StringBuffer 而不是 String当需要对字符串进行操作时,使用 StringBuffer 而不是 String,String是 read-only 的,如果对它进行修改,会产生临时对象,而 StringBuffer是可修改的,不会产生临时对象。对参数进行调优查看 linux 的服务,可以关闭不必要的服务ntsysv停止打印服务#/etc/init.d/cups stop...

2020-11-07 11:08:25 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除