一条咸鱼的记录-CSDN博客

原创【个人开发】deepspeed+Llama-factory 本地数据多卡Lora微调【完整教程】

处理方式还是调整参数，使用Lora微调时的常见参数，q_proj,v_proj,k_proj,gate_proj,up_proj,o_proj,down_proj。上一篇文件写到，macbook微调Lora，该微调方式，同样适用于GPU，只不过在train.py脚本中，针对device，调整为cuda即可。这种tensor的问题，很可能是模型冲突的问题，比如调到一半，然后重新提调，指到相同的路径。其他参数，其实就是常规使用peft进行lora微调的常见参数，以及常见的微调参数，可以对照如下。

2025-02-13 22:13:55 3305

原创【个人开发】cuda12.6安装vllm安装实践【内含踩坑经验】

这个文件应该指向的是cuda的文件。到cuda的路径看看【笔者cuda的路径为：/usr/local/cuda/lib64】vLLM是一个快速且易于使用的LLM推理和服务库。企业级应用比较普遍，尝试安装相关环境，尝试使用。借鉴楼上大佬的经验参考，将vllm 版本降至0.6.4.post1即可解决。使用vllm启动模型/root/Qwen2.5-7B-Instruct。那么这里只有两种解决方案，要么重装cuda，要么重装vllm。基于cuda跟torch的版本考虑，笔者选择如下版本。

2025-02-10 20:45:21 3182

原创【个人开发】macbook m1 Lora微调qwen大模型

本项目参考网上各类教程整理而成，为个人学习记录。项目中微调模型为：qwen/Qwen1.5-4B-Chat。去年新发布的Qwen/Qwen2.5-3B-Instruct同样也适用。

2025-02-08 21:10:56 1585

原创【个人开发】macbook m1微调报错记录

最后发现一种可以使的方式，强制设置 device = “cpu”,然后关闭电脑高内存应用。比如：调整transformers/trainer.py的源码，不行。电脑配置：macbook pro m1芯片 16G内存。如果有网友有根治的解决方案，求分享~训练语料真的会严重影响模型效果。网上搜了很多解决方案。折腾了很久，都不好使。

2025-02-07 16:58:46 412 2

原创【个人开发】nginx域名映射及ssl证书配置踩坑记录

文件： /etc/nginx/conf.d/default.confserver {listen 80;# 重定向所有 HTTP 请求到 HTTPSserver {# 指定 SSL 证书和私钥文件的路径# SSL 优化配置以上，重启，结束。参考文档困扰我两天的问题(nginx配置好ssl证书,https却不能访问)

2025-01-17 22:34:39 1343

原创【个人开发】307 Temporarv Redirect重定向报错

用Fastapi开发接口，每次用k8s部署后都报307，每次都不长记性，每次都调试了很久，搞得十分抓狂。仅以此文，加深印象。巨坑爹，调用方式出现问题！url记得跟代码保持一致。

2024-10-17 18:27:32 950 2

原创【个人开发】通过python导出微信聊天记录

依旧先上效果：主要思路：python解密db文件，存到csv文件。微信文件说明：微信联系人信息群聊信息消息记录。

2024-05-02 15:21:06 2593 2

原创【个人开发】baichuan部署踩坑（一）——Error：self.quant_state[0] = self.quant_state[0].cuda(device)

踩完llama2的坑，来踩下baichuan的坑。按照官网下载模型使用Baichuan2-13B-Chat-4bits。找了一圈，还得是github的issue。

2024-03-16 16:43:00 522

原创【个人开发】llama2部署实践（四）——llama服务接口调用方式

如果是openai<1.0的版本。

2024-03-10 14:27:57 2957 3

原创【个人开发】llama2部署实践（三）——python部署llama服务（基于GPU加速）

gcc:9.4.0cuda:11.8以上，End。

2024-03-10 11:32:35 5585

原创【个人开发】llama2部署实践（二）——基于GPU部署踩坑

折腾了一整天，踩了GPU加速的一堆坑，记录一下。

2024-03-09 18:15:52 4187 1

原创【个人开发】llama2部署实践（一）——基于CPU部署

【代码】【个人开发】llama2部署实践（一）——基于CPU部署。

2024-03-09 18:03:26 1248 1

原创【mysql运维记录】mysql启动失败

在一个有1300w的数据集中检索1w条数据，如果不走project，需要大概200s左右，走project的话，仅需不到1s。2、(SRV_FORCE_NO_BACKGROUND)：阻止主线程的运行，如主线程需要执行full purge操作，会导致crash。5、(SRV_FORCE_NO_UNDO_LOG_SCAN)：不查看重做日志，InnoDB存储引擎会将未提交的事务视为已提交。6、(SRV_FORCE_NO_LOG_REDO)：不执行前滚的操作。否则，如下，则没走project。

2023-11-09 11:14:54 466

原创【运维记录】liunx安装chrome与chromedriver

很久没搞selenium了，爬虫需要使用selenium，部署到liunx上，需要使用chrome跟chromedriver。备注网址：https://chromedriver.chromium.org/downloads。以117版本的chrome为例，可以找到chrome、chromedriver。2、安装chromedriver。4、安装selenium。1、安装chrome。

2023-09-26 20:40:22 941

原创【clickhouse踩坑记录】利用project进行查询优化

在一个有1300w的数据集中检索1w条数据，如果不走project，需要大概200s左右，走project的话，仅需不到1s。道理与物化视图类似，但他可以根据我们需要指定的列，进行排序，从而减少不必要的冗余，在应用层面也可以达到业务的无感知状态。上述的表结构，可以满足场景一，因为数据的存储是按order by的顺序存储，第一个字段是按时间排序，故可以快速检索所需要的数据块。：之前的解决方案是物化视图，原理相当于重新copy一份数据，数据在底层重新排序。场景二：检索车辆01，当月所有的车辆数据。

2023-08-08 11:38:24 451

原创【个人开发】通过SQLite获取微信聊天记录

之前都知道微信聊天记录备份的数据在本地的db文件里，但是一直访问不了db文件，今天拜读了简书上大佬的文章，有点醍醐灌顶，原因是db文件的访问需要密钥。再一次尝试，竟然成了。先上效果：数据成功读取，后面python啥的，都好处理了。

2023-07-01 02:18:20 13061 28

原创【运维记录】离线安装python类库包

有些不用编译的包，直接安装就可以，但是像对clickhouse-driver进行上述方法安装后，会出现依赖问题。

2023-05-18 17:44:38 1553

原创【个人开发】通过企业微信实现消息推送到个人微信

坑1：寻思着企业微信有机器人，将机器人所在群拉上微信号，结果，企业微信不允许，外部群的功能不能有机器人。难搞！坑2：去github上找项目，找到了个叫itchat的项目，可以实现给微信发消息，尝试一下，问题出在于现在的微信号不能用网页登陆。微信是真的猛，把路都堵死了坑3：既然微信发不了消息，公众号总可以吧。给公众号开通了开发者权限，研究了一通。结论，部分接口服务号无权限调用，只有订阅号才可以，无语。最后，回过头去研究企业微信，找到了一种平替的方法。

2023-04-16 00:50:21 14388 28

原创【运维记录】利用nginx对clickhouse做负载均衡

个人认为是因为8123是http访问端口，而通过「clickhouse-client -m」访问是属于tcp的访问类型，所以无法通过clickhouse-client -m -port 8123链接不上。个人认为是因为8123是http访问端口，而通过「clickhouse-client -m」访问是tcp的访问类型，所以clickhouse-client -m -port 8123链接不上。链接后查看链接节点，在hadoop002节点上。断开后重新链接，连接到hadoop001节点上。

2023-03-20 18:36:22 1664

原创 CDH-6.3.1环境安装tez-0.9.1流程

CDH-6.3.1环境安装tez-0.9.1流程

2022-06-05 20:17:01 869

原创【clickhouse踩坑记录】kafka engine构造实时数据流

背景前段时间看了字节跳动内部技术沙龙分享，利用kafka engine构造的实时数据架构。故利用现有的资源，整起来。实践过程kafka engine的使用，常用架构如下：kafka engine表+materialized view+ ReplicatedReplacingMergeTree的形式。kafka engine表:消费kafka数据，保存着最原始的数据格式。ReplicatedReplacingMergeTree表：合并树表，用来存储ods层数据。materialized v

2021-12-10 13:43:29 2258

原创【clickhouse踩坑记录】clickhouse日志分析＜Error＞ void DB::StorageKafka::threadFunc()

背景今天意外的发现clickhouse集群，clickhouse的日志路径一直打error日志。为了彻底把error消除，折腾了一番。报错内容：2021.11.30 23:49:41.774027 [ 44 ] {} void DB::StorageKafka::threadFunc(): Code: 73, e.displayText() = DB::Exception: Unknown format JSONAsString, Stack trace:0.0x3512b60 StackTra

2021-12-01 02:17:58 5399

原创【clickhouse踩坑记录】Cannot read all data. Bytes read:0. Bytes expected:4.:while receiving handshake from

背景今天clickhouse集群又双叒叕宕机了，重启一直报错如下错误。clickhouse服务没能成功启起来。报错内容：error:Coordination::Exception: All connection tries failed while connecting to Zookeeper. Addresses: x.x.x.x:2181,x.x.x.x:2181,x.x.x.x:2181Poco::Exception. Code:1000, e.code() = 111, e.displa

2021-10-12 21:03:28 4940

原创【clickhouse踩坑记录】clusters表中分片副本的浅析

背景对于一个数据开发，刚接手一套新的clickhouse集群，仅通过clickhouse中system表，快速了解clickhouse的架构角度分片副本架构通过clusters表，可以很清晰的看到clickhouse集群的分片副本情况。select * from system.clusters;主要字段说明：cluster：集群的命名shard_num：分片的编号shard_weight：分片的权重replica_num：副本的编号host_name：机器的host名称

2021-09-27 18:24:20 2562

原创【SQL逻辑】groupings sets场景应用

背景今天遇到一个SQL场景有如下表table，每个订单对应买了多个品类（品类数枚举值只有（A、B、C））。order_idcate001A001B001C002A002B003A004B需要提前统计，各个类型品类组合下的下单量(对订单去重)，结果如下cateorder_qtyA3B3C1AB4AC3BC3ABC4方案建表写数据create ta

2021-09-23 18:47:37 374

原创【clickhouse踩坑记录】ClickHouse查询性能优化（入门级）

背景用了一年多的ClickHouse，但好像都没系统地去学一遍，趁着最近有点时间，相对全面地去看了一圈ClickHouse的内容。发现ClickHouse虽然性能查询本身快，但如果使用不恰当，性能会被降一个级别。下面主要简单介绍一下，ClickHouse的查询可以从哪些方面做优化。可重点关注标题加粗部分！！优化方法表级别优化填充有空值的字段对于一些表字段，若存在空值，则可以考虑使用无业务场景意义的字符进行填充。因为ClickHouse对于空值，在底层存储是用了单独的文件存储。相对于没有空值的情

2021-09-02 02:20:51 13237 6

原创【python奇技淫巧】手把手教学，不用敲代码也可以入坑爬虫

背景本文将以雪球网为例，教你快速爬取你要的数据。不论是不懂爬虫的python玩家、还是刚入坑爬虫新人，下面这方法都可大大提升一些简单爬虫的开发效率。大佬就见笑了。另，如下方法，仅对无过多反爬机制的网页有效。流程1、进入你想要爬取的网页，找个空白的地方，右键->“检查”。然后如下面流程，找到我们需要的接口。一般来说，像这种网页类似于Excel结构的数据，一般都是采用动态加载，可使用此方法。2、选择需要的接口，如下图，copy as cURL。3、可以粘贴到Terminal中看看（红框部分

2021-08-11 19:26:20 314

原创【运维问题】datax使用rdbmsreader将clickhouse数据同步到hdfs中

背景公司的数据同步工具使用datax，包括从hdfs、sqlserver、clickhouse上等进行同步。由于业务的增加，需要将数据从hdfs同步到elasticsearch，但公司原有的datax中并没有elasticsearch这个组件。处理过程1、之前都是使用现成datax，对于datax的安装并不是很了解。老思路，上github，找官方提供已有的相关东西。2、梳理一下，datax的添加组件的步骤可以归纳如下：a. 下载git上的源文件git clone https://github.c

2021-07-28 23:48:30 1254

原创【运维问题】datax中elasticsearchwriter组件的扩展

背景公司的数据同步工具使用datax，包括从hdfs、sqlserver、clickhouse上等进行同步。由于业务的增加，需要将数据从hdfs同步到elasticsearch，但公司原有的datax中并没有elasticsearch这个组件。处理过程1、之前都是使用现成datax，对于datax的安装并不是很了解。老思路，上github，找官方提供已有的相关东西。2、梳理一下，datax的添加组件的步骤可以归纳如下：a. 下载git上的源文件git clone https://github.c

2021-07-28 23:02:35 1191

原创【clickhouse踩坑记录】建表报错：format_version.txt, errno: 2, strerror: No such file or directory

背景今天clickhouse在执行相关的脚本时不定时的出现超时报错。报错内容：Code: 458, e.displayText() = DB::Exception: There was an error on [oser406581.cn.wal-mart.com:9000]: Code: 458, e.displayText() = DB::ErrnoException: Cannot unlink file /u/ssd2/app/clickhouse/store/7b4/7b45ba2c-4b

2021-07-08 22:59:59 2054 5

原创【clickhouse踩坑记录】clickhouse宕机，optimize table超时报错 distributed_ddl_task_timeout

背景今天clickhouse在执行相关的脚本时不定时的出现超时报错。报错内容：DB::Exception: Watching task /clickhouse/task_queue/ddl/query-xxx is executing longer than distributed_ddl_task_timeout (=180) seconds. There are 1 unfinished hosts (0 of them are currently active), they are going

2021-06-30 03:14:20 9746 2

原创【运维问题】shell变量不一致。

背景写完shell脚本，将shell脚本发布到生产环境，通常需要修改相关的配置文件（这里将文件称为命名为.env，里面有帐号密码）。因数据库修改帐号密码，所以需要改所有项目的.env文件。但今天修改完.env文件后，发现项目执行时仍然报帐号密码出错。原因分析1、.env文件内容如下2、source .env后读取到的结果，发现好像少了什么。3、对比了一下，立马反应过来，原来是“$7”惹的祸。4、liunx中“$”是一个特殊符号。“$7”表示用来读取第七个参数。所以在这里“$7”会被计算为

2021-06-28 16:49:25 307

原创【clickhouse踩坑记录】除数为零报错，Division by zero

背景今天写个带除法的sql脚本，对分母为0的情况做判断后，仍出现了除数为0的报错。简单的Demo如下：selectif(total=0,cast(0 as Decimal(30,4)),num/total) as resfrom ( select cast(1 as Decimal(30,4)) as num,cast(0 as Decimal(30,4)) as total)a 处理过程思考着会不会是没走if判断的问题，验证想法，如下。selectif(total=0,cast

2021-06-18 22:27:01 4726

原创【运维问题】hadoop启动失败：hadoop-functions.sh:行398: 未预期的符号 `＜‘ 附近有语法错误

背景今天安装完单节点的hadoop，执行如下脚本，启动hadoop集群，出现如下报错：sh start-all.sh处理过程1、开始网上搜索各种资料，找到有个博主提示，直接执行即可。解决方案1、换其他的执行方式，都可以启动脚本。./start-all.shbash start-all.sh原因1、在其他地方找到了一个解释：/bin/sh是/bin/bash的软连接，使用sh调用执行脚本相当于打开了bash的POSIX标准模式，也就是说 /bin/sh 相当于 /bin/bash

2021-06-14 14:26:00 2538 2

原创【clickhouse踩坑记录】clickhouse数据删不掉

背景今天做数据同步时，需要进行先删除数据再写数据这一步操作。但是执行删除数据sql后，数据没被删掉，仍然还可以查询到。但执行删除语句返回的结果并没有报错。// 删除代码alter table ${db}.${table} on cluster ${cluster} delete where event_date between '2021-05-05' and '2021-06-03'// 查询代码select * from ${db}.${table} where event_date bet

2021-06-05 17:07:38 8360 5

原创【运维问题】Docker启动失败：Failed to start Docker Application Container Engine.

【运维问题】Docker启动失败：Failed to start Docker Application Container Engine.报错信息: Job for docker.service failed because the control process exited with error code. See “systemctl status docker.service” and “journalctl -xe” for details.使用命令: systemctl status doc

2021-05-18 19:15:09 774 4

weixin_44505713的博客