请输入_HELLO-CSDN博客

原创【python】页面拉数据

【代码】【python】页面拉数据。

2024-09-14 10:41:52 211

原创【hive】表结构序列化后加字段失败

去设置：表结构上的：ROW FORMAT SERDE。

2024-07-18 10:15:58 153

原创【map join】 Starting to launch local task to process map join

hive大小表关联，自动转为map join，结果申请资源太大，sql异常退出。解决：set hive.auto.convert.join=false;

2024-03-21 20:15:02 180 1

原创 ClickHouse json解析

ck、clickhouse、json

2023-11-23 12:20:17 473

原创【datax】mysql同步数据到hive

datax同步mysql数据到hive

2023-09-22 14:50:52 421

当合并 SummingMergeTree 表的数据片段时，ClickHouse 会把所有具有相同主键的行合并为一行，行包含了被合并的行中具有数值数据类型的列的汇总值。尽管你可以调用 OPTIMIZE 语句发起计划外的合并，但请不要依靠它，因为 OPTIMIZE 语句会引发对数据的大量读写。如果其他副本上已包含了某些数据，在表上添加新副本，则在运行语句后，数据会从其他副本复制到新副本。如果主键的组合方式使得单个键值对应于大量的行，则可以显著的减少存储空间并加快数据查询的速度。可以是一组列的元组。

2023-06-15 11:35:38 826

原创 clickhouse--开窗函数(window function)的用法

https://clickhouse.com/docs/en/sql-reference/window-functionshttps://blog.csdn.net/liuyingying0418/article/details/120269624

2023-06-13 16:36:17 257

原创【CK 常用函数】

【代码】【CK 常用函数】

2023-06-13 16:33:25 1855

原创【炸裂技巧之 posexplode】

炸裂技巧

2023-06-06 14:51:01 60

转载 hive默认的换行符

在创建Hive表时，默认行分隔符"^A"，列分隔符"\n"，这两项也是可以设置的。在实际开发中，一般默认使用默认的分隔符，当然有些场景下也会自定义分隔符。REGEXP_REPLACE(字段,‘\r|\n|\r\n|\001|\002|\003|\t’, ‘’)创建表1：spark-hive。

2023-03-06 20:16:08 2348

原创 yarn查看已提交任务sql

位置：mapreduce.workflow.name。yarn查看已提交任务sql及其参数。

2023-03-06 15:47:33 481

转载 Excel/WPS 电子表格中时间戳转日期时间公式

Unix时间戳（Unix timestamp），或称Unix时间（Unix time）、POSIX时间（POSIX time），是一种时间表达方式，定义为从格林威治时间1970年01月01日00时00分00秒起至现在的总秒数（或总毫秒数）。面对庞大的数据表格，我快速浏览了一遍，确认首先需要处理的是client_time一列，内容是Unix时间戳格式，很明显，Excel不支持Unix时间戳。我在等待一场夏日里的倾盆大雨，和一个新的开始。站长工具是不支持批量转换的，这几千条数据，如此搞下去，我怕不是有个大病。

2023-02-28 10:29:45 921

转载 show table extended like

此刻我们终于拿到了我们想要的访问时间lastAccessTime,但是有另外一个问题，权限问题，我们没有权限的表不能用hive/beeline 去查看,spark-sql 无法执行该命令。我们在使用大数据集群时，时间越长越发现有大量的冗余数据表，删除却发现所有人的使用情况不一样，删除的话可能会影响当前正在运行的业务。最后可以吧文件到入mysql，或hive 数据库，转化时间戳（毫秒级），可以将一年内无访问的表删除（备份表除外）hcat 是为了让没有hive账户的人去查看hive表信息的工具。

2023-02-27 17:22:08 199

原创【hive】Could not find status of job

日常运行的线上任务夜间突然报错，重跑还是如此，搜一堆 set hive.jobname.length=100;清理用户下目录，任务重跑正常。显然不适用，经排查，往下看。

2023-02-24 10:19:50 465

转载 Git使用教程

Git是分布式版本控制系统，那么它就没有中央服务器的，每个人的电脑就是一个完整的版本库，这样，工作的时候就不需要联网了，因为版本都是在自己的电脑上。SVN是集中式版本控制系统，版本库是集中放在中央服务器的，而干活的时候，用的都是自己的电脑，所以首先要从中央服务器哪里得到最新的版本，然后干活，干完后，需要把自己做完的活推送到中央服务器。集中式版本控制系统是必须联网才能工作，如果在局域网还可以，带宽够大，速度够快，如果在互联网下，如果网速慢的话，就纳闷了。二：SVN与Git的最主要的区别？

2022-11-22 15:25:24 82

原创 hive编程

处理压缩文件

2022-09-15 20:30:10 1336

原创 grouping_id&grouping sets

grouping sets 用法在Hive中，会出现对同一个数据表进行不同粒度的汇总，这时可以有两种方案：用多个sql，对不同粒度使用不同的 group by 方法。

2022-09-05 21:04:45 774

原创 Pandas：single positional indexer is out-of-bounds

日常数据都没问题，突然报了个错 IndexError: single positional indexer is out-of-bounds。

2022-09-05 18:15:00 3360

原创 flume 启动

在flume的安装路径下，启动脚本为bin目录下的flume-ng；-n：flume-app.conf文件中agent的名字。-c：指向flume安装目录下conf目录的绝对路径。-f：指向flume-app.conf文件的绝对路径。-Dflume：启动日志打印到当前控制台。...

2022-08-15 19:42:45 1231

原创 hive函数-lag()

hive函数 lag()

2022-08-05 13:15:00 192

原创 hive&mysql日期函数

日期函数

2022-08-03 16:58:29 1232

原创【转】flink窗口起始时间

getWindowStartWithOffset

2022-07-20 19:54:20 568

原创 yarn参数设置

NM 主要使用两个参数来限制 containers CPU 资源使用。首先，使用 yarn.nodemanager.resource.percentage-physical-cpu-limit 来设置所有 containers 的总的 CPU 使用率占用总的 CPU 资源的百分比。比如设置为 60，则所有的 containers 的 CPU 使用总和在任何情况下都不会超过机器总体 CPU 资源的 60 %。然后，使用 yarn.nodemanager.linux-container-executor.cgr

2022-06-30 16:21:52 3467 2

原创 hadoop 优化参数

#hadoop 优化参数（5）使用 StringBuffer 而不是 String当需要对字符串进行操作时，使用 StringBuffer 而不是 String，String是 read-only 的，如果对它进行修改，会产生临时对象，而 StringBuffer是可修改的，不会产生临时对象。对参数进行调优查看 linux 的服务，可以关闭不必要的服务ntsysv停止打印服务#/etc/init.d/cups stop...

2020-11-07 11:08:25 140

weixin_46680124的博客