自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 【个人开发】nginx域名映射及ssl证书配置踩坑记录

文件: /etc/nginx/conf.d/default.confserver {listen 80;# 重定向所有 HTTP 请求到 HTTPSserver {# 指定 SSL 证书和私钥文件的路径# SSL 优化配置以上,重启,结束。参考文档困扰我两天的问题(nginx配置好ssl证书,https却不能访问)

2025-01-17 22:34:39 1188

原创 【个人开发】307 Temporarv Redirect重定向报错

用Fastapi开发接口,每次用k8s部署后都报307,每次都不长记性,每次都调试了很久,搞得十分抓狂。仅以此文,加深印象。巨坑爹,调用方式出现问题!url记得跟代码保持一致。

2024-10-17 18:27:32 545 1

原创 【个人开发】通过python导出微信聊天记录

依旧先上效果:主要思路:python解密db文件,存到csv文件。微信文件说明:微信联系人信息群聊信息消息记录。

2024-05-02 15:21:06 2091 2

原创 【个人开发】baichuan部署踩坑(一)——Error:self.quant_state[0] = self.quant_state[0].cuda(device)

踩完llama2的坑,来踩下baichuan的坑。按照官网下载模型使用Baichuan2-13B-Chat-4bits。找了一圈,还得是github的issue。

2024-03-16 16:43:00 486

原创 【个人开发】llama2部署实践(四)——llama服务接口调用方式

如果是openai<1.0的版本。

2024-03-10 14:27:57 2648 3

原创 【个人开发】llama2部署实践(三)——python部署llama服务(基于GPU加速)

gcc:9.4.0cuda:11.8以上,End。

2024-03-10 11:32:35 5079

原创 【个人开发】llama2部署实践(二)——基于GPU部署踩坑

折腾了一整天,踩了GPU加速的一堆坑,记录一下。

2024-03-09 18:15:52 3549

原创 【个人开发】llama2部署实践(一)——基于CPU部署

【代码】【个人开发】llama2部署实践(一)——基于CPU部署。

2024-03-09 18:03:26 1180 1

原创 【mysql运维记录】mysql启动失败

在一个有1300w的数据集中检索1w条数据,如果不走project,需要大概200s左右,走project的话,仅需不到1s。2、(SRV_FORCE_NO_BACKGROUND):阻止主线程的运行,如主线程需要执行full purge操作,会导致crash。5、(SRV_FORCE_NO_UNDO_LOG_SCAN):不查看重做日志,InnoDB存储引擎会将未提交的事务视为已提交。6、(SRV_FORCE_NO_LOG_REDO):不执行前滚的操作。否则,如下,则没走project。

2023-11-09 11:14:54 435

原创 【运维记录】liunx安装chrome与chromedriver

很久没搞selenium了,爬虫需要使用selenium,部署到liunx上,需要使用chrome跟chromedriver。备注网址:https://chromedriver.chromium.org/downloads。以117版本的chrome为例,可以找到chrome、chromedriver。2、安装chromedriver。4、安装selenium。1、安装chrome。

2023-09-26 20:40:22 899

原创 【clickhouse踩坑记录】利用project进行查询优化

在一个有1300w的数据集中检索1w条数据,如果不走project,需要大概200s左右,走project的话,仅需不到1s。道理与物化视图类似,但他可以根据我们需要指定的列,进行排序,从而减少不必要的冗余,在应用层面也可以达到业务的无感知状态。上述的表结构,可以满足场景一,因为数据的存储是按order by的顺序存储,第一个字段是按时间排序,故可以快速检索所需要的数据块。:之前的解决方案是物化视图,原理相当于重新copy一份数据,数据在底层重新排序。场景二:检索车辆01,当月所有的车辆数据。

2023-08-08 11:38:24 422

原创 【个人开发】通过SQLite获取微信聊天记录

之前都知道微信聊天记录备份的数据在本地的db文件里,但是一直访问不了db文件,今天拜读了简书上大佬的文章,有点醍醐灌顶,原因是db文件的访问需要密钥。再一次尝试,竟然成了。先上效果:数据成功读取,后面python啥的,都好处理了。

2023-07-01 02:18:20 11690 28

原创 【运维记录】离线安装python类库包

有些不用编译的包,直接安装就可以,但是像对clickhouse-driver进行上述方法安装后,会出现依赖问题。

2023-05-18 17:44:38 1468

原创 【个人开发】通过企业微信实现消息推送到个人微信

坑1:寻思着企业微信有机器人,将机器人所在群拉上微信号,结果,企业微信不允许,外部群的功能不能有机器人。难搞!坑2:去github上找项目,找到了个叫itchat的项目,可以实现给微信发消息,尝试一下,问题出在于现在的微信号不能用网页登陆。微信是真的猛,把路都堵死了坑3:既然微信发不了消息,公众号总可以吧。给公众号开通了开发者权限,研究了一通。结论,部分接口服务号无权限调用,只有订阅号才可以,无语。最后,回过头去研究企业微信,找到了一种平替的方法。

2023-04-16 00:50:21 12238 20

原创 【运维记录】利用nginx对clickhouse做负载均衡

个人认为是因为8123是http访问端口,而通过「clickhouse-client -m」访问是属于tcp的访问类型,所以无法通过clickhouse-client -m -port 8123链接不上。个人认为是因为8123是http访问端口,而通过「clickhouse-client -m」访问是tcp的访问类型,所以clickhouse-client -m -port 8123链接不上。链接后查看链接节点,在hadoop002节点上。断开后重新链接,连接到hadoop001节点上。

2023-03-20 18:36:22 1575

原创 CDH-6.3.1环境安装tez-0.9.1流程

CDH-6.3.1环境安装tez-0.9.1流程

2022-06-05 20:17:01 826

原创 【clickhouse踩坑记录】kafka engine构造实时数据流

背景前段时间看了字节跳动内部技术沙龙分享,利用kafka engine构造的实时数据架构。故利用现有的资源,整起来。实践过程kafka engine的使用,常用架构如下:kafka engine表+materialized view+ ReplicatedReplacingMergeTree的形式。kafka engine表:消费kafka数据,保存着最原始的数据格式。ReplicatedReplacingMergeTree表:合并树表,用来存储ods层数据。materialized v

2021-12-10 13:43:29 2220

原创 【clickhouse踩坑记录】clickhouse日志分析 <Error> void DB::StorageKafka::threadFunc()

背景今天意外的发现clickhouse集群,clickhouse的日志路径一直打error日志。为了彻底把error消除,折腾了一番。报错内容:2021.11.30 23:49:41.774027 [ 44 ] {} void DB::StorageKafka::threadFunc(): Code: 73, e.displayText() = DB::Exception: Unknown format JSONAsString, Stack trace:0.0x3512b60 StackTra

2021-12-01 02:17:58 5317

原创 【clickhouse踩坑记录】Cannot read all data. Bytes read:0. Bytes expected:4.:while receiving handshake from

背景今天clickhouse集群又双叒叕宕机了,重启一直报错如下错误。clickhouse服务没能成功启起来。报错内容:error:Coordination::Exception: All connection tries failed while connecting to Zookeeper. Addresses: x.x.x.x:2181,x.x.x.x:2181,x.x.x.x:2181Poco::Exception. Code:1000, e.code() = 111, e.displa

2021-10-12 21:03:28 4687

原创 【clickhouse踩坑记录】clusters表中分片副本的浅析

背景对于一个数据开发,刚接手一套新的clickhouse集群,仅通过clickhouse中system表,快速了解clickhouse的架构角度分片副本架构通过clusters表,可以很清晰的看到clickhouse集群的分片副本情况。select * from system.clusters;主要字段说明:cluster: 集群的命名shard_num: 分片的编号shard_weight: 分片的权重replica_num: 副本的编号host_name: 机器的host名称

2021-09-27 18:24:20 2448

原创 【SQL逻辑】groupings sets场景应用

背景今天遇到一个SQL场景有如下表table,每个订单对应买了多个品类(品类数枚举值只有(A、B、C))。order_idcate001A001B001C002A002B003A004B需要提前统计,各个类型品类组合下的下单量(对订单去重),结果如下cateorder_qtyA3B3C1AB4AC3BC3ABC4方案建表写数据create ta

2021-09-23 18:47:37 337

原创 【clickhouse踩坑记录】ClickHouse查询性能优化(入门级)

背景用了一年多的ClickHouse,但好像都没系统地去学一遍,趁着最近有点时间,相对全面地去看了一圈ClickHouse的内容。发现ClickHouse虽然性能查询本身快,但如果使用不恰当,性能会被降一个级别。下面主要简单介绍一下,ClickHouse的查询可以从哪些方面做优化。可重点关注标题加粗部分!!优化方法表级别优化填充有空值的字段对于一些表字段,若存在空值,则可以考虑使用无业务场景意义的字符进行填充。因为ClickHouse对于空值,在底层存储是用了单独的文件存储。相对于没有空值的情

2021-09-02 02:20:51 12599 6

原创 【python奇技淫巧】手把手教学,不用敲代码也可以入坑爬虫

背景本文将以雪球网为例,教你快速爬取你要的数据。不论是不懂爬虫的python玩家、还是刚入坑爬虫新人,下面这方法都可大大提升一些简单爬虫的开发效率。大佬就见笑了。另,如下方法,仅对无过多反爬机制的网页有效。流程1、进入你想要爬取的网页,找个空白的地方,右键->“检查”。然后如下面流程,找到我们需要的接口。一般来说,像这种网页类似于Excel结构的数据,一般都是采用动态加载,可使用此方法。2、选择需要的接口,如下图,copy as cURL。3、可以粘贴到Terminal中看看(红框部分

2021-08-11 19:26:20 294

原创 【运维问题】datax使用rdbmsreader将clickhouse数据同步到hdfs中

背景公司的数据同步工具使用datax,包括从hdfs、sqlserver、clickhouse上等进行同步。由于业务的增加,需要将数据从hdfs同步到elasticsearch,但公司原有的datax中并没有elasticsearch这个组件。处理过程1、之前都是使用现成datax,对于datax的安装并不是很了解。老思路,上github,找官方提供已有的相关东西。2、梳理一下,datax的添加组件的步骤可以归纳如下:a. 下载git上的源文件git clone https://github.c

2021-07-28 23:48:30 1226

原创 【运维问题】datax中elasticsearchwriter组件的扩展

背景公司的数据同步工具使用datax,包括从hdfs、sqlserver、clickhouse上等进行同步。由于业务的增加,需要将数据从hdfs同步到elasticsearch,但公司原有的datax中并没有elasticsearch这个组件。处理过程1、之前都是使用现成datax,对于datax的安装并不是很了解。老思路,上github,找官方提供已有的相关东西。2、梳理一下,datax的添加组件的步骤可以归纳如下:a. 下载git上的源文件git clone https://github.c

2021-07-28 23:02:35 1156

原创 【clickhouse踩坑记录】建表报错:format_version.txt, errno: 2, strerror: No such file or directory

背景今天clickhouse在执行相关的脚本时不定时的出现超时报错。报错内容:Code: 458, e.displayText() = DB::Exception: There was an error on [oser406581.cn.wal-mart.com:9000]: Code: 458, e.displayText() = DB::ErrnoException: Cannot unlink file /u/ssd2/app/clickhouse/store/7b4/7b45ba2c-4b

2021-07-08 22:59:59 2001 5

原创 【clickhouse踩坑记录】clickhouse宕机,optimize table超时报错 distributed_ddl_task_timeout

背景今天clickhouse在执行相关的脚本时不定时的出现超时报错。报错内容:DB::Exception: Watching task /clickhouse/task_queue/ddl/query-xxx is executing longer than distributed_ddl_task_timeout (=180) seconds. There are 1 unfinished hosts (0 of them are currently active), they are going

2021-06-30 03:14:20 9538 2

原创 【运维问题】shell变量不一致。

背景写完shell脚本,将shell脚本发布到生产环境,通常需要修改相关的配置文件(这里将文件称为命名为.env,里面有帐号密码)。因数据库修改帐号密码,所以需要改所有项目的.env文件。但今天修改完.env文件后,发现项目执行时仍然报帐号密码出错。原因分析1、.env文件内容如下2、source .env后读取到的结果,发现好像少了什么。3、对比了一下,立马反应过来,原来是“$7”惹的祸。4、liunx中“$”是一个特殊符号。“$7”表示用来读取第七个参数。所以在这里“$7”会被计算为

2021-06-28 16:49:25 296

原创 【clickhouse踩坑记录】除数为零报错,Division by zero

背景今天写个带除法的sql脚本,对分母为0的情况做判断后,仍出现了除数为0的报错。简单的Demo如下:selectif(total=0,cast(0 as Decimal(30,4)),num/total) as resfrom ( select cast(1 as Decimal(30,4)) as num,cast(0 as Decimal(30,4)) as total)a 处理过程思考着会不会是没走if判断的问题,验证想法,如下。selectif(total=0,cast

2021-06-18 22:27:01 4593

原创 【运维问题】hadoop启动失败:hadoop-functions.sh:行398: 未预期的符号 `<‘ 附近有语法错误

背景今天安装完单节点的hadoop,执行如下脚本,启动hadoop集群,出现如下报错:sh start-all.sh处理过程1、开始网上搜索各种资料,找到有个博主提示,直接执行即可。解决方案1、换其他的执行方式,都可以启动脚本。./start-all.shbash start-all.sh原因1、在其他地方找到了一个解释:/bin/sh是/bin/bash的软连接,使用sh调用执行脚本相当于打开了bash的POSIX标准模式,也就是说 /bin/sh 相当于 /bin/bash

2021-06-14 14:26:00 2450 2

原创 【clickhouse踩坑记录】clickhouse数据删不掉

背景今天做数据同步时,需要进行先删除数据再写数据这一步操作。但是执行删除数据sql后,数据没被删掉,仍然还可以查询到。但执行删除语句返回的结果并没有报错。// 删除代码alter table ${db}.${table} on cluster ${cluster} delete where event_date between '2021-05-05' and '2021-06-03'// 查询代码select * from ${db}.${table} where event_date bet

2021-06-05 17:07:38 8103 5

原创 【运维问题】Docker启动失败:Failed to start Docker Application Container Engine.

【运维问题】Docker启动失败:Failed to start Docker Application Container Engine.报错信息: Job for docker.service failed because the control process exited with error code. See “systemctl status docker.service” and “journalctl -xe” for details.使用命令: systemctl status doc

2021-05-18 19:15:09 736 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除