侯侯侯先生-CSDN博客

原创 clickhouse中使用ReplicatedMergeTree表引擎数据去重问题

然后使用ReplicatedMergeTree表引擎进行数据insert 插入数据，插入相同主键的数据，数据去重了。需要注意的是，由于ClickHouse的ReplicatedMergeTree引擎并不保证严格的数据唯一性（特别是在高并发写入场景下），因此在需要严格保证数据唯一性的应用场景中，可能需要结合其他机制（如应用层面的唯一性约束、使用具有唯一性约束的表引擎等）来实现。：数据写入表引擎为ReplicatedMergeTree的时候，过程是什么样的，副本间的数据如何同步的？对于主节点插入数据而言，

2024-08-23 17:55:08 849

原创 clickhouse生产运维以及调优

clickhouse 设置允许使用窗口函数 set allow_experimental_window_functions = 1。ClickHouse 进行复杂查询时，包含多个 left join 和 group by，会报错：超出内存限制。delete，update操作对于ck来说是非常重得操作，ck集群容易卡住。查询某个时间内某种查询的数量。

2024-05-20 10:15:35 428

原创 Clickhouse中物化视图和位图和索引的用法

向表agg_visits 插入数据，根据group by进行聚合，聚合表存储聚合函数列的状态值，需要在对应的聚合函数上加入后缀State，例如sumState。创建物化视图，物化视图和普通视图区别是，物化视图是存储数据得，并且可以动态得监听底表数据变化，并将变化得数据写入物化视图中。视图visits_mv 是基于表agg_visits之上建立的，并将数据插入agg_visits和视图visits_mv。底表是visits，当底表数据变化时候，agg_visits和visits_mv 会进行自动更新数据。

2024-05-08 17:46:31 901

原创 ClickHouse使用阿里云服务相关

clickhouse常见问题

2023-08-03 10:52:52 389

原创 Kudu、ClickHouse、Doris、Druid、Hbase

计算层主要使用 Flink、Spark、Presto 以及 ClickHouse 自带的计算能力等四种计算引擎，Flink 计算引擎主要用于实时数据同步、流式 ETL、关键系统秒级实时指标计算场景，Spark SQL 主要用于复杂多维分析的准实时指标计算需求场景，Presto 和 ClickHouse 主要满足多维自助分析、对查询响应时间要求不太高的场景。都属于列式存储的数据库，架构上，Hbase使用HDFS存储，Kudu使用自己的方式进行存储，性能更好。数据分布式存储(本地化);Kudu和Hbase。

2023-07-17 16:17:41 2827

原创大数据之CDH、HDP、CDP的区别

https://www.freebytes.net/it/bigdata/bigdata-platform-cdh-hdp-cdp.html

2023-06-14 12:50:08 1103

原创 SQL常用的内置函数

from_unixtime(now(), ‘%Y-%m-%d %H:%i:%s’) now()获取当前时间，并将时间转换为指定格式。date_format(now(), ‘%Y-%m-%d %H:%i:%s’) now()获取当前时间，并将时间转换为指定格式。使用索引获取数组的个数。substr(str,-1,4)表示对字符串str从索引最后的位置开始，向前截取4个长度的字符。replace(str,‘a’,‘b’) 将字符串str 中的a字符串替换为b。length(str) 获得字符串的长度。

2023-05-19 19:08:38 984

原创 shell基础

shell中date命令用法。@【TOC】(目录)

2023-05-08 14:23:08 86

转载 Hive sql使用手册及优化

Hive手册

2023-04-10 11:35:59 131

原创 Spark和MR的本质区别

spark mR

2022-08-02 22:32:29 718

原创集群，分布式，微服务区别和联系

转载地址Flume NG：分布式、高可用的数据收集系统。（任务运行架构）Kafka：是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。（任务运行架构）Redis：非关系型数据库，可部署集群模式。注意集群和分布式区别。（是一个数据库）...

2022-05-12 18:02:30 426

原创 Flume基础

2022-05-12 15:39:44 248

转载数据结构知识体系框架图

2022-03-15 17:38:27 363

原创 CDH6.3.2环境搭建

目录参考文章配置hostname，映射文件hosts关闭防火墙，并禁止开机自启设置无密钥登陆时间同步安装JDK 1.8安装mysql5.7 linux的通用版本 generic配置CM参考文章cm和cdh的关系http://www.fblinux.com/?p=1492hadoop发行版本介绍https://www.jianshu.com/p/fc3010c02391配置hostname，映射文件hosts为每台服务器配置名称vim /etc/hostname添加名称将所有服务器的名称

2022-03-11 10:38:33 5129 2

原创 scala基础入门

目录scala 入门scala和java的关系scala环境安装scala idea环境安装scala 关联源码实现scala中object关键字和class关键字scala 变量和数据类型scala变量标识符命令规范字符串输出数据类型类型的转换泛型Unit类型、Null类型和Nothing类型数值和String类型的转换运算符算术运算符关系运算符逻辑运算符赋值运算符位运算符运算符本质流程控制if -- elseswitchforwhile 和 do ... while循环中断==函数式编程==scala

2022-01-14 10:28:51 1295

原创 Hadoop的生产调优手册和源码解析

HDFS的生产调优HDFS的核心参数HDFS的集群测压HDFS多目录HDFS集群的扩容和缩容HDFS的存储优化HDFS的故障排除HDFS的集群迁移MapReduce生产经验1.MaopReduce跑慢的原因计算机的性能IO操作优化MapReduce常用调优参数MapReduce数据倾斜问题Yarn的生产经验常用参数调优容量调度器的使用公平调度器的使用综合调优hadoop的小文件优化方法...

2022-01-04 10:35:45 747

原创 sql中trim以及正则表达式regexp_replace函数用法and hive常用函数

trim()函数去掉字符串字头和字尾的空白regexp_replace()函数，使用正则表达式regexp_replace(t.company_name,'[`~!#$^*+=,?！@￥%…‘；”“’。，？]',"")regexp_replace('需要进行替换的字段' , '需要替换的关键字（可以使用正则）'，'替换的内容')将t.company_name字符串中的内容进行正则匹配，将匹配到的结果转化为" " 。translate()函数的用法translate(x,from_string

2021-12-28 16:39:17 2660

原创 Hive之重写分区表数据overwrite

hive之insert into 和 insert overwrite与数据分区insert into 在表中追加数据。insert overwrite 先删除表中数据，再重新写入。hive向分区表中插入数据静态插入数据：要求插入数据时指定与建表时相同的分区字段INSERT OVERWRITE TABLE student_a PARTITION (month=‘09’) SELECT * from student_source;动静混合分区插入：要求指定部分分区字段的值INSER

2021-11-22 15:43:39 9697

转载 Hive的开窗函数

目录转载地址转载地址https://blog.csdn.net/wangpei1949/article/details/81437574

2021-11-08 10:23:29 192

转载 Python中如何生成requirements.txt文件

转载地址

2021-10-27 18:14:45 289

原创 Yarn的总结

目录Yarn的架构Yarn工作机制调度器提交某队列命令FIFO先进先出容量调度器公平调度器Yarn生产环境核心参数Yarn 的 Tool 接口案例Yarn的架构Yarn工作机制（1）MR 程序提交到客户端所在的节点。（2）YarnRunner 向 ResourceManager 申请一个 Application。（3）RM 将该应用程序的资源路径返回给 YarnRunner。（4）该程序将运行所需资源提交到 HDFS 上。（5）程序资源提交完毕后，申请运行 mrAppMaster。（6）

2021-10-26 18:09:32 214

原创 MapReduce总结

文章目录MapReducede的架构MapReduce的工作流程图编写MapReduce程序MapReduce的压缩MapReducede的架构MapReduce的工作流程图编写MapReduce程序环境配置，需要下载windows版本的hadoop环境，双击winutils.exe黑屏一闪而过就ok。并在环境变量中进行配置。pathH:\work\hadoop\WindowsDep\hadoop-3.1.0\binHADOOP_HOMEH:\work\hadoop\Windows

2021-10-25 17:19:45 295

原创 HDFS总结

目录HDFS写流程HDFS读流程2NNHDFS总结HDFS写流程串行写。写得过程中是以packet（64k）为单位进行写。packet = chunk 512byte +chunksum 4byte（校验位）写过程中，首先在缓存区中形成一个个得chunk+chunksum，然后得到packet，再讲packet放在缓冲队列中，在向DataNode输入数据。HDFS读流程不能并发读，只能串行读。2NN命令： sz a.txt 将虚拟机的a.txt存到本地。NameNode ， NameN

2021-10-12 15:51:13 571

原创 RbittMQ消息队列

文章目录参考地址消息中间件的概述什么是消息中间件消息中间件的重要概念AMQP 和 JMS协议AMQPJMSAMQP 与 JMS 区别消息队列产品RabbitMQRabbitMQ相关概念Exchange 交换机类型进行RabbitMQ的测试安装及配置RabbitMQ参考地址https://blog.csdn.net/hancoder/article/details/114297652消息中间件的概述什么是消息中间件MQ全称为Message Queue，消息队列是应用程序和应用程序之间的通信方法。多用

2021-09-25 22:10:19 1203

原创 Hadoop集群环境搭建

目录vmware 安装虚拟机配置虚拟机（模板）主机名，ip地址连接外网，host地址vmware 安装虚拟机安装vmware下载镜像centos7新建虚拟机选择自定义 —>warkstation 15.x —>稍后安装操作系统 —>Linux 版本centos7 64位—> 设置虚拟机名称 —>处理器数量和内核数量2*2（根据自己的电脑配置）—> 内存4g—> 使用nat模式进行网络连接 --> 控制器选择LSI Logic(L)

2021-09-25 22:00:40 379

原创 win10安装Meteor

npm安装npm install -g meteor 总是因为npm的一些错误报错，不推荐该方法。Meteor安装过程过程链接地址

2021-06-28 23:42:47 704

原创购物车分析

目录购物车vo分析购物车vo分析

2021-06-24 11:55:39 194

原创认证服务，(集成社交登录(OAuth2.0)，单点登录功能) 分布式spring session

目录认证中心（gulimall-auth-server）：在微服务系统中，当用户登录的时候，应该是统一到认证中心统一认证，认证成功之后，才能进行各种微服务的调用。

2021-06-22 16:22:30 738 1

转载 Redis进阶之一：Jedis、RedisTemplate、StringRedisTemplate之间的比较

转载地址

2021-06-21 19:08:04 175

原创 Django 入门

目录python manage.py makemigrations 生成迁移当你定义完models.py，django会根据你写的属性来生成迁移，在你的项目中的migrtations文件夹中会生成一个0001_initial.py文件python manage.py migrate 执行迁移django会根据你生成的0001_initial.py文件迁移表，来执行迁移，将你定义的各个属性写入mysql中自动生成一张表，表名是你的应用名_models里的类名https://blog.csdn.n

2021-06-11 23:56:03 108 3

原创商品详情业务

目录参考地址

2021-06-10 10:14:59 181 2

原创库存服务

库存服务的流程

2021-05-24 18:47:12 142

原创 docker安装gpu版本的pytorch

目录docker和nvidia-docker的区别docker安装docker-nvidia安装使用docker安装gpu版本的pytorch安装JupyterLab （可以选择不安装）命令解读docker和nvidia-docker的区别nvidia-docker是一个可以使用GPU的docker，nvidia-docker是在docker上做了一层封装，通过nvidia-docker-plugin，然后调用到docker上，其最终实现的还是在docker的启动命令上携带一些必要的参数。因此在安装nv

2021-05-19 19:22:44 3288 2

原创 Git使用总结

学习地址1学习地址2学习地址3

2021-05-13 16:41:11 119

原创深度学习超参数—momentum、learning rate和weight decay

转载地址https://blog.csdn.net/aoxuerenwudi/article/details/109208500

2021-03-17 00:46:05 309

原创 np.argmax()函数用法解析和numpy中的mean()函数

转载地址np.argmax()https://blog.csdn.net/weixin_42755982/article/details/104542538numpy中的mean()函数https://blog.csdn.net/lilong117194/article/details/78397329

2021-03-17 00:01:28 327

原创 Opencv图像处理

目录OpenCV 和 TensorflowRGB积分图像图像的直方图直方图的均衡化OpenCV 和 TensorflowOpenCV是计算机视觉库，Tensorflow是深度学习框架。OpenCV包含了大量的图像处理和计算机视觉的算法，但是在机器学习方面明显不足，ML模块只有SVM，MLP，kNN等有限的几种算法。dnn模块也是调用别的框架。Tensorflow是专为深度学习而生，可以方便的实现各种深度学习算法。二者不属于同一领域，做视觉用OpenCV，做深度学习用Tensorflow。或者二者结

2021-03-16 15:23:07 2321

空空如也

空空如也