自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Python——机器学习多分类问题实例:缺陷检测分类问题

本文介绍多分类问题的建模方法,重点在于说明多分类问题与二分类问题的区别。(2)对分不准的类别的分析和特殊处理方法。(3)多分类标签的稀疏化处理。先占个位置,防止犯懒不想写~(1)数据不平衡问题。

2024-04-21 22:30:54 168 1

原创 Python——目标检测标签中的英文名转化为对应的类别编号

Yolov5中,标签数据里,类别中文名需要转换成类别编号。本文提供了相应的代码。

2024-04-21 22:07:30 413

原创 Python——详细解析目标检测xml格式标注转换为txt格式

本文简述了目标检测xml格式标注的内容,以及yolo系列模型所需的txt格式标注的内容。并提供了一个简单的,可以将xml格式标注文件转换为txt格式标注文件的python脚本。

2024-04-12 22:45:00 740

原创 python——切换不同python版本的环境

之前一直用的python3.7,后来yolov5要求python版本为3.8及以上,再后来langchain要求python版本在3.10及以上。方便起见,配置了不同python版本的环境。下面记录一下使用 conda 切换环境,并在新的环境中安装包和打开jupyter notebook的方法。

2024-03-03 23:17:52 1261

原创 Python——一文详解使用yolov5进行目标检测全流程(无需gpu)

本文按步骤详细介绍了使用yolov5进行目标检测的全流程,包括:模型下载、环境配置、数据集准备和数据预处理、模型调整、模型训练、进行目标检测和检测结果分析。本文全部流程使用cpu完成(无需gpu),旨在跑通流程,模型训练过程较慢,且未能到达最优结果。需要 python版本>=3.8。

2024-03-03 16:21:51 5846 2

原创 Python——机器学习:不平衡数据集常用处理方法和实例

本文梳理了几种常用的不平衡数据集处理方法,包括过采样、欠采样,类别加权和数据加权的方法。以下通过信用卡违约实例数据进行说明。不平衡数据集,尤其长尾数据一直都是重点和难点。实际应用中,应根据具体的业务需求,确定应该尽量提高模型的哪个指标。如:对于信用卡违约这样一个对正类样本(违约)判定要求较高的场景,往往需要更高的召回率。我们采用AUC和F1得分评价模型结果,总体情况见下表。可见效果都一般,但处理后,F1值确实都有提升。(注:本文中除基模型外的模型均未进行调优,可能对处理后的数据未必合适。

2024-02-05 18:22:35 1900 1

原创 Python——机器学习分类模型实例:进阶模型融合Voting和Stacking详解

本文利用预处理后的数据集,介绍模型融合的 Statcking 和 Voting方法的原理和使用,用以提高模型预测的准确率。Stacking 方法扒了一下sklearn中的源码,其处理方法似乎和大部分原理类文章中讲的不太一样。

2024-01-24 20:00:00 1152 1

原创 Python——实现图片转字符画的exe(附原代码)

一段时间以前用于练手的一个小项目。实现的主要功能是上传一张图片,自动将其转化成字符画,下面给出python实现代码和效果。还有一些Tips:(1)适合图片主体为大面积、不同色图像;(2)可以调整字符数、字符类型,用以改进效果;(3)设置用于画图的字符时,尽量用形状更小的字符代表更浅的颜色;也可以根据生成的字符画,选择合适的字符类型(如上图中的眼泪用 ‘l’ 就比较合适);(4)远看效果会好一些

2024-01-17 23:00:04 433

原创 Python——机器学习分类模型实例:从数据预处理到模型训练全流程

本文旨在通过一份具体的数据,演示机器学习分类任务从数据预处理到模型训练的全流程。数据预处理过程主要包括缺失值、离群值处理,哑变量化和标准化。模型训练采用随机森林模型和LightGBM模型,同时进行了重要性变量提取和参数调优。文中也对一些细节和进阶的数据处理方法,进行了相应的文字提示。

2024-01-17 09:10:26 2245 2

原创 python——机器学习:sklearn模型选择model_selection模块函数说明和应用示例

本篇文章通过具体数据做示例,总结了sklearn中模型选择model_selection模块常用函数的说明和使用方法。包括:1. 数据切分:train_test_split;2. K折交叉验证:KFold,StratifiedKFold,cross_val_score;3. 参数网格搜索GridSearchCV

2024-01-09 23:23:11 3702 1

原创 其它——m4a格式录音文件转换为mp3格式

最近遇到苹果录音文件无法用安卓机播放的问题,原因是评估的录音文件为m4a格式,需要将之转换为mp3格式再播放。下面记录几种能免费实现这一转换的方法。一、免费的在线转换网址二、安装ffmpeg,进行转换三、对大量文件转换,可以用python结合ffmpeg和pydub库进行转换。

2024-01-06 21:47:39 441 1

原创 python——机器学习:sklearn特征选择feature_selection

特征选择是机器学习中很重要的一部分,构造并选取合适的特征,能极大的提高模型的表现。sklearn中feature_selection模块提供了一些特征选择方法。包括方差阈值法、相关性过滤法、嵌入法和包装法等。本文通过鸢尾花数据集详细介绍这些方法的使用

2023-08-22 16:19:02 2167 3

原创 一文整理MySQL常用基本命令

MySQL常用基本操作。工作用了一段时间MySQL,整理了一下常用的基本命令。

2023-08-18 09:48:14 86 1

原创 python——pymysql实现将txt文件数据自动导入mysql表

利用python通过pymysql实现将某账期的txt文件数据自动导入mysql的表中。此处,txt文件格式为:第一行为列名,和mysql中列名一致(不要求顺序一致)。第二行开始为数据,逗号分隔符。pymysql.connect(**config);cur.executemany(sql_insert,data); conn.commit()

2023-07-28 10:09:07 745 2

原创 python——机器学习:sklearn数据预处理preprocessing连续特征离散化和类别特征编码

本篇整理通过sklearn的preprocessing模块,进行连续特征离散化和离散特征编码的方法。为数据预处理的一部分。

2023-07-11 10:09:35 591 3

原创 python——对多个Excel文件的多个sheet表分别合并

工作中遇到需要合并多个sheet表的逐月数据的excel文件。即对多月数据,依据sheet表进行合并,最终形成年度数据。该方法不要求文件名有规律,也不要求sheet表名称有规律。

2023-07-10 14:34:45 2069 1

原创 python——机器学习:sklearn数据预处理preprocessing标准化、归一化和纠偏

前段时间参加了一个数据建模比赛,机器学习部分主要是应用python的sklearn库,现整理一下自己当时的复习内容。整个数据建模的第一部分也是最主要的部分是数据预处理。其常规顺序(不一定全需要做)为:处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理(仅针对分类问题)。本篇是数据预处理中的数据标准化或归一化和纠偏部分。

2023-05-31 23:33:06 2839 1

原创 python——python2读取csv文件中文乱码问题

csv文件中,中文gbk编码改为utf-8编码

2023-05-29 19:56:41 713

原创 其它——Windows本地host配置

Windows本地host配置

2023-05-29 16:49:11 156 1

原创 python——csv读取文件报错:error:new-line character seen in unquoted field

使用open()函数打开文件,csv.reader()函数读取内容报错:error:new-line character seen in unquoted field

2023-02-27 14:57:06 363

原创 Shell —— windows下编辑的sh或rc脚本,在linux下运行出现的问题

最近在做开发时,在本地(Windows环境)Notepad里写好代码,直接上传到测试环境(Linux)运行出现了各种报错。如:'bash: ~/.bash_profile: No such file or directory','line 2: $‘\r‘: command not found','syntax error near unexpected token'。主要原因是在本地用Notepad编写时,默认为windows格式,需要进行Unix格式的转换。

2023-01-11 21:39:46 1608

原创 Python包中模块、类、函数等的查看方法

在参加考试等情况下,可能无法直接上网搜索python相关函数和用法。可以通过以下方法进行辅助查看。

2022-11-09 14:16:45 3318

原创 hive-sql保留n位小数

hive-sql保留n位小数,round方法和cast as decimal方法比较。

2022-11-01 18:19:57 3909

原创 DBeaver使用——excel、csv数据导入中文乱码问题

DBeaver数据导入中文乱码问题

2022-09-27 14:34:26 21756 7

原创 jupyter notebook添加目录功能

jupyter notebook添加目录功能。通过 Jupyter NbExtensions Configurator 扩展工具进行安装。

2022-06-09 15:44:31 269 1

用于目标检测的遥感图像数据集

目标检测遥感数据集。包括训练集、验证集和测试集共1400张遥感图像及相应标注。已处理为适用yolov5的格式。

2024-05-07

用于预测用户是否为5G用户的分类数据集

用于预测用户是否为5G用户的分类数据集

2024-04-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除