踩坑记录
文章平均质量分 78
一条咸鱼的记录
干啥啥不行,踩坑第一名
展开
-
【clickhouse踩坑记录】利用project进行查询优化
在一个有1300w的数据集中检索1w条数据,如果不走project,需要大概200s左右,走project的话,仅需不到1s。道理与物化视图类似,但他可以根据我们需要指定的列,进行排序,从而减少不必要的冗余,在应用层面也可以达到业务的无感知状态。上述的表结构,可以满足场景一,因为数据的存储是按order by的顺序存储,第一个字段是按时间排序,故可以快速检索所需要的数据块。:之前的解决方案是物化视图,原理相当于重新copy一份数据,数据在底层重新排序。场景二:检索车辆01,当月所有的车辆数据。原创 2023-08-08 11:38:24 · 301 阅读 · 0 评论 -
【个人开发】通过SQLite获取微信聊天记录
之前都知道微信聊天记录备份的数据在本地的db文件里,但是一直访问不了db文件,今天拜读了简书上大佬的文章,有点醍醐灌顶,原因是db文件的访问需要密钥。再一次尝试,竟然成了。先上效果:数据成功读取,后面python啥的,都好处理了。原创 2023-07-01 02:18:20 · 8044 阅读 · 23 评论 -
CDH-6.3.1环境安装tez-0.9.1流程
CDH-6.3.1环境安装tez-0.9.1流程原创 2022-06-05 20:17:01 · 742 阅读 · 0 评论 -
【clickhouse踩坑记录】kafka engine构造实时数据流
背景前段时间看了字节跳动内部技术沙龙分享,利用kafka engine构造的实时数据架构。故利用现有的资源,整起来。实践过程kafka engine的使用,常用架构如下:kafka engine表+materialized view+ ReplicatedReplacingMergeTree的形式。kafka engine表:消费kafka数据,保存着最原始的数据格式。ReplicatedReplacingMergeTree表:合并树表,用来存储ods层数据。materialized v原创 2021-12-10 13:43:29 · 2144 阅读 · 0 评论 -
【clickhouse踩坑记录】clickhouse日志分析 <Error> void DB::StorageKafka::threadFunc()
背景今天意外的发现clickhouse集群,clickhouse的日志路径一直打error日志。为了彻底把error消除,折腾了一番。报错内容:2021.11.30 23:49:41.774027 [ 44 ] {} void DB::StorageKafka::threadFunc(): Code: 73, e.displayText() = DB::Exception: Unknown format JSONAsString, Stack trace:0.0x3512b60 StackTra原创 2021-12-01 02:17:58 · 5002 阅读 · 0 评论 -
【clickhouse踩坑记录】Cannot read all data. Bytes read:0. Bytes expected:4.:while receiving handshake from
背景今天clickhouse集群又双叒叕宕机了,重启一直报错如下错误。clickhouse服务没能成功启起来。报错内容:error:Coordination::Exception: All connection tries failed while connecting to Zookeeper. Addresses: x.x.x.x:2181,x.x.x.x:2181,x.x.x.x:2181Poco::Exception. Code:1000, e.code() = 111, e.displa原创 2021-10-12 21:03:28 · 4178 阅读 · 0 评论 -
【clickhouse踩坑记录】clusters表中分片副本的浅析
背景对于一个数据开发,刚接手一套新的clickhouse集群,仅通过clickhouse中system表,快速了解clickhouse的架构角度分片副本架构通过clusters表,可以很清晰的看到clickhouse集群的分片副本情况。select * from system.clusters;主要字段说明:cluster: 集群的命名shard_num: 分片的编号shard_weight: 分片的权重replica_num: 副本的编号host_name: 机器的host名称原创 2021-09-27 18:24:20 · 2172 阅读 · 0 评论 -
【clickhouse踩坑记录】ClickHouse查询性能优化(入门级)
背景用了一年多的ClickHouse,但好像都没系统地去学一遍,趁着最近有点时间,相对全面地去看了一圈ClickHouse的内容。发现ClickHouse虽然性能查询本身快,但如果使用不恰当,性能会被降一个级别。下面主要简单介绍一下,ClickHouse的查询可以从哪些方面做优化。可重点关注标题加粗部分!!优化方法表级别优化填充有空值的字段对于一些表字段,若存在空值,则可以考虑使用无业务场景意义的字符进行填充。因为ClickHouse对于空值,在底层存储是用了单独的文件存储。相对于没有空值的情原创 2021-09-02 02:20:51 · 10744 阅读 · 6 评论 -
【clickhouse踩坑记录】建表报错:format_version.txt, errno: 2, strerror: No such file or directory
背景今天clickhouse在执行相关的脚本时不定时的出现超时报错。报错内容:Code: 458, e.displayText() = DB::Exception: There was an error on [oser406581.cn.wal-mart.com:9000]: Code: 458, e.displayText() = DB::ErrnoException: Cannot unlink file /u/ssd2/app/clickhouse/store/7b4/7b45ba2c-4b原创 2021-07-08 22:59:59 · 1872 阅读 · 5 评论 -
【clickhouse踩坑记录】clickhouse宕机,optimize table超时报错 distributed_ddl_task_timeout
背景今天clickhouse在执行相关的脚本时不定时的出现超时报错。报错内容:DB::Exception: Watching task /clickhouse/task_queue/ddl/query-xxx is executing longer than distributed_ddl_task_timeout (=180) seconds. There are 1 unfinished hosts (0 of them are currently active), they are going原创 2021-06-30 03:14:20 · 8923 阅读 · 2 评论 -
【clickhouse踩坑记录】除数为零报错,Division by zero
背景今天写个带除法的sql脚本,对分母为0的情况做判断后,仍出现了除数为0的报错。简单的Demo如下:selectif(total=0,cast(0 as Decimal(30,4)),num/total) as resfrom ( select cast(1 as Decimal(30,4)) as num,cast(0 as Decimal(30,4)) as total)a 处理过程思考着会不会是没走if判断的问题,验证想法,如下。selectif(total=0,cast原创 2021-06-18 22:27:01 · 4164 阅读 · 0 评论 -
【clickhouse踩坑记录】clickhouse数据删不掉
背景今天做数据同步时,需要进行先删除数据再写数据这一步操作。但是执行删除数据sql后,数据没被删掉,仍然还可以查询到。但执行删除语句返回的结果并没有报错。// 删除代码alter table ${db}.${table} on cluster ${cluster} delete where event_date between '2021-05-05' and '2021-06-03'// 查询代码select * from ${db}.${table} where event_date bet原创 2021-06-05 17:07:38 · 7205 阅读 · 5 评论