兰泽S-CSDN博客

原创 Python——机器学习多分类问题实例：缺陷检测分类问题

本文介绍多分类问题的建模方法，重点在于说明多分类问题与二分类问题的区别。（2）对分不准的类别的分析和特殊处理方法。（3）多分类标签的稀疏化处理。先占个位置，防止犯懒不想写~（1）数据不平衡问题。

2024-04-21 22:30:54 515 1

原创 Python——目标检测标签中的英文名转化为对应的类别编号

Yolov5中，标签数据里，类别中文名需要转换成类别编号。本文提供了相应的代码。

2024-04-21 22:07:30 598

原创 Python——详细解析目标检测xml格式标注转换为txt格式

本文简述了目标检测xml格式标注的内容，以及yolo系列模型所需的txt格式标注的内容。并提供了一个简单的，可以将xml格式标注文件转换为txt格式标注文件的python脚本。

2024-04-12 22:45:00 1619 3

原创 python——切换不同python版本的环境

之前一直用的python3.7，后来yolov5要求python版本为3.8及以上，再后来langchain要求python版本在3.10及以上。方便起见，配置了不同python版本的环境。下面记录一下使用 conda 切换环境，并在新的环境中安装包和打开jupyter notebook的方法。

2024-03-03 23:17:52 3160

原创 Python——一文详解使用yolov5进行目标检测全流程（无需gpu）

本文按步骤详细介绍了使用yolov5进行目标检测的全流程，包括：模型下载、环境配置、数据集准备和数据预处理、模型调整、模型训练、进行目标检测和检测结果分析。本文全部流程使用cpu完成（无需gpu），旨在跑通流程，模型训练过程较慢，且未能到达最优结果。需要 python版本>=3.8。

2024-03-03 16:21:51 7536 2

原创 Python——机器学习：不平衡数据集常用处理方法和实例

本文梳理了几种常用的不平衡数据集处理方法，包括过采样、欠采样，类别加权和数据加权的方法。以下通过信用卡违约实例数据进行说明。不平衡数据集，尤其长尾数据一直都是重点和难点。实际应用中，应根据具体的业务需求，确定应该尽量提高模型的哪个指标。如：对于信用卡违约这样一个对正类样本（违约）判定要求较高的场景，往往需要更高的召回率。我们采用AUC和F1得分评价模型结果，总体情况见下表。可见效果都一般，但处理后，F1值确实都有提升。（注：本文中除基模型外的模型均未进行调优，可能对处理后的数据未必合适。

2024-02-05 18:22:35 3365 4

原创 Python——机器学习分类模型实例:进阶模型融合Voting和Stacking详解

本文利用预处理后的数据集，介绍模型融合的 Statcking 和 Voting方法的原理和使用，用以提高模型预测的准确率。Stacking 方法扒了一下sklearn中的源码，其处理方法似乎和大部分原理类文章中讲的不太一样。

2024-01-24 20:00:00 1739 1

原创 Python——实现图片转字符画的exe（附原代码）

一段时间以前用于练手的一个小项目。实现的主要功能是上传一张图片，自动将其转化成字符画，下面给出python实现代码和效果。还有一些Tips：（1）适合图片主体为大面积、不同色图像；（2）可以调整字符数、字符类型，用以改进效果；（3）设置用于画图的字符时，尽量用形状更小的字符代表更浅的颜色；也可以根据生成的字符画，选择合适的字符类型（如上图中的眼泪用 ‘l’ 就比较合适）；（4）远看效果会好一些

2024-01-17 23:00:04 583

原创 Python——机器学习分类模型实例：从数据预处理到模型训练全流程

本文旨在通过一份具体的数据，演示机器学习分类任务从数据预处理到模型训练的全流程。数据预处理过程主要包括缺失值、离群值处理，哑变量化和标准化。模型训练采用随机森林模型和LightGBM模型，同时进行了重要性变量提取和参数调优。文中也对一些细节和进阶的数据处理方法，进行了相应的文字提示。

2024-01-17 09:10:26 3968 2

原创 python——机器学习：sklearn模型选择model_selection模块函数说明和应用示例

本篇文章通过具体数据做示例，总结了sklearn中模型选择model_selection模块常用函数的说明和使用方法。包括：1. 数据切分：train_test_split；2. K折交叉验证：KFold,StratifiedKFold,cross_val_score；3. 参数网格搜索GridSearchCV

2024-01-09 23:23:11 7861 2

原创其它——m4a格式录音文件转换为mp3格式

最近遇到苹果录音文件无法用安卓机播放的问题，原因是评估的录音文件为m4a格式，需要将之转换为mp3格式再播放。下面记录几种能免费实现这一转换的方法。一、免费的在线转换网址二、安装ffmpeg，进行转换三、对大量文件转换，可以用python结合ffmpeg和pydub库进行转换。

2024-01-06 21:47:39 1387 1

原创 python——机器学习：sklearn特征选择feature_selection

特征选择是机器学习中很重要的一部分，构造并选取合适的特征，能极大的提高模型的表现。sklearn中feature_selection模块提供了一些特征选择方法。包括方差阈值法、相关性过滤法、嵌入法和包装法等。本文通过鸢尾花数据集详细介绍这些方法的使用

2023-08-22 16:19:02 4443 3

原创一文整理MySQL常用基本命令

MySQL常用基本操作。工作用了一段时间MySQL，整理了一下常用的基本命令。

2023-08-18 09:48:14 201 1

原创 python——pymysql实现将txt文件数据自动导入mysql表

利用python通过pymysql实现将某账期的txt文件数据自动导入mysql的表中。此处，txt文件格式为：第一行为列名，和mysql中列名一致（不要求顺序一致）。第二行开始为数据，逗号分隔符。pymysql.connect(**config)；cur.executemany(sql_insert,data)； conn.commit()

2023-07-28 10:09:07 1152 2

原创 python——机器学习：sklearn数据预处理preprocessing连续特征离散化和类别特征编码

本篇整理通过sklearn的preprocessing模块，进行连续特征离散化和离散特征编码的方法。为数据预处理的一部分。

2023-07-11 10:09:35 1176 3

原创 python——对多个Excel文件的多个sheet表分别合并

工作中遇到需要合并多个sheet表的逐月数据的excel文件。即对多月数据，依据sheet表进行合并，最终形成年度数据。该方法不要求文件名有规律，也不要求sheet表名称有规律。

2023-07-10 14:34:45 2774 1

原创 python——机器学习：sklearn数据预处理preprocessing标准化、归一化和纠偏

前段时间参加了一个数据建模比赛，机器学习部分主要是应用python的sklearn库，现整理一下自己当时的复习内容。整个数据建模的第一部分也是最主要的部分是数据预处理。其常规顺序（不一定全需要做）为：处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理（仅针对分类问题）。本篇是数据预处理中的数据标准化或归一化和纠偏部分。

2023-05-31 23:33:06 3689 1

原创 python——python2读取csv文件中文乱码问题

csv文件中，中文gbk编码改为utf-8编码

2023-05-29 19:56:41 992 1

原创其它——Windows本地host配置

Windows本地host配置

2023-05-29 16:49:11 362 1

原创 python——csv读取文件报错：error:new-line character seen in unquoted field

使用open()函数打开文件，csv.reader()函数读取内容报错：error:new-line character seen in unquoted field

2023-02-27 14:57:06 658

原创 Shell —— windows下编辑的sh或rc脚本，在linux下运行出现的问题

最近在做开发时，在本地（Windows环境）Notepad里写好代码，直接上传到测试环境（Linux）运行出现了各种报错。如：'bash: ~/.bash_profile: No such file or directory'，'line 2: $‘\r‘: command not found'，'syntax error near unexpected token'。主要原因是在本地用Notepad编写时，默认为windows格式，需要进行Unix格式的转换。

2023-01-11 21:39:46 1920