- 博客(25)
- 收藏
- 关注
原创 Python——机器学习多分类问题实例:缺陷检测分类问题
本文介绍多分类问题的建模方法,重点在于说明多分类问题与二分类问题的区别。(2)对分不准的类别的分析和特殊处理方法。(3)多分类标签的稀疏化处理。先占个位置,防止犯懒不想写~(1)数据不平衡问题。
2024-04-21 22:30:54 231 1
原创 Python——详细解析目标检测xml格式标注转换为txt格式
本文简述了目标检测xml格式标注的内容,以及yolo系列模型所需的txt格式标注的内容。并提供了一个简单的,可以将xml格式标注文件转换为txt格式标注文件的python脚本。
2024-04-12 22:45:00 1104 2
原创 python——切换不同python版本的环境
之前一直用的python3.7,后来yolov5要求python版本为3.8及以上,再后来langchain要求python版本在3.10及以上。方便起见,配置了不同python版本的环境。下面记录一下使用 conda 切换环境,并在新的环境中安装包和打开jupyter notebook的方法。
2024-03-03 23:17:52 1846
原创 Python——一文详解使用yolov5进行目标检测全流程(无需gpu)
本文按步骤详细介绍了使用yolov5进行目标检测的全流程,包括:模型下载、环境配置、数据集准备和数据预处理、模型调整、模型训练、进行目标检测和检测结果分析。本文全部流程使用cpu完成(无需gpu),旨在跑通流程,模型训练过程较慢,且未能到达最优结果。需要 python版本>=3.8。
2024-03-03 16:21:51 6612 2
原创 Python——机器学习:不平衡数据集常用处理方法和实例
本文梳理了几种常用的不平衡数据集处理方法,包括过采样、欠采样,类别加权和数据加权的方法。以下通过信用卡违约实例数据进行说明。不平衡数据集,尤其长尾数据一直都是重点和难点。实际应用中,应根据具体的业务需求,确定应该尽量提高模型的哪个指标。如:对于信用卡违约这样一个对正类样本(违约)判定要求较高的场景,往往需要更高的召回率。我们采用AUC和F1得分评价模型结果,总体情况见下表。可见效果都一般,但处理后,F1值确实都有提升。(注:本文中除基模型外的模型均未进行调优,可能对处理后的数据未必合适。
2024-02-05 18:22:35 2461 1
原创 Python——机器学习分类模型实例:进阶模型融合Voting和Stacking详解
本文利用预处理后的数据集,介绍模型融合的 Statcking 和 Voting方法的原理和使用,用以提高模型预测的准确率。Stacking 方法扒了一下sklearn中的源码,其处理方法似乎和大部分原理类文章中讲的不太一样。
2024-01-24 20:00:00 1300 1
原创 Python——实现图片转字符画的exe(附原代码)
一段时间以前用于练手的一个小项目。实现的主要功能是上传一张图片,自动将其转化成字符画,下面给出python实现代码和效果。还有一些Tips:(1)适合图片主体为大面积、不同色图像;(2)可以调整字符数、字符类型,用以改进效果;(3)设置用于画图的字符时,尽量用形状更小的字符代表更浅的颜色;也可以根据生成的字符画,选择合适的字符类型(如上图中的眼泪用 ‘l’ 就比较合适);(4)远看效果会好一些
2024-01-17 23:00:04 474
原创 Python——机器学习分类模型实例:从数据预处理到模型训练全流程
本文旨在通过一份具体的数据,演示机器学习分类任务从数据预处理到模型训练的全流程。数据预处理过程主要包括缺失值、离群值处理,哑变量化和标准化。模型训练采用随机森林模型和LightGBM模型,同时进行了重要性变量提取和参数调优。文中也对一些细节和进阶的数据处理方法,进行了相应的文字提示。
2024-01-17 09:10:26 2758 2
原创 python——机器学习:sklearn模型选择model_selection模块函数说明和应用示例
本篇文章通过具体数据做示例,总结了sklearn中模型选择model_selection模块常用函数的说明和使用方法。包括:1. 数据切分:train_test_split;2. K折交叉验证:KFold,StratifiedKFold,cross_val_score;3. 参数网格搜索GridSearchCV
2024-01-09 23:23:11 5384 1
原创 其它——m4a格式录音文件转换为mp3格式
最近遇到苹果录音文件无法用安卓机播放的问题,原因是评估的录音文件为m4a格式,需要将之转换为mp3格式再播放。下面记录几种能免费实现这一转换的方法。一、免费的在线转换网址二、安装ffmpeg,进行转换三、对大量文件转换,可以用python结合ffmpeg和pydub库进行转换。
2024-01-06 21:47:39 499 1
原创 python——机器学习:sklearn特征选择feature_selection
特征选择是机器学习中很重要的一部分,构造并选取合适的特征,能极大的提高模型的表现。sklearn中feature_selection模块提供了一些特征选择方法。包括方差阈值法、相关性过滤法、嵌入法和包装法等。本文通过鸢尾花数据集详细介绍这些方法的使用
2023-08-22 16:19:02 2997 3
原创 python——pymysql实现将txt文件数据自动导入mysql表
利用python通过pymysql实现将某账期的txt文件数据自动导入mysql的表中。此处,txt文件格式为:第一行为列名,和mysql中列名一致(不要求顺序一致)。第二行开始为数据,逗号分隔符。pymysql.connect(**config);cur.executemany(sql_insert,data); conn.commit()
2023-07-28 10:09:07 904 2
原创 python——机器学习:sklearn数据预处理preprocessing连续特征离散化和类别特征编码
本篇整理通过sklearn的preprocessing模块,进行连续特征离散化和离散特征编码的方法。为数据预处理的一部分。
2023-07-11 10:09:35 815 3
原创 python——对多个Excel文件的多个sheet表分别合并
工作中遇到需要合并多个sheet表的逐月数据的excel文件。即对多月数据,依据sheet表进行合并,最终形成年度数据。该方法不要求文件名有规律,也不要求sheet表名称有规律。
2023-07-10 14:34:45 2212 1
原创 python——机器学习:sklearn数据预处理preprocessing标准化、归一化和纠偏
前段时间参加了一个数据建模比赛,机器学习部分主要是应用python的sklearn库,现整理一下自己当时的复习内容。整个数据建模的第一部分也是最主要的部分是数据预处理。其常规顺序(不一定全需要做)为:处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理(仅针对分类问题)。本篇是数据预处理中的数据标准化或归一化和纠偏部分。
2023-05-31 23:33:06 3158 1
原创 python——csv读取文件报错:error:new-line character seen in unquoted field
使用open()函数打开文件,csv.reader()函数读取内容报错:error:new-line character seen in unquoted field
2023-02-27 14:57:06 425
原创 Shell —— windows下编辑的sh或rc脚本,在linux下运行出现的问题
最近在做开发时,在本地(Windows环境)Notepad里写好代码,直接上传到测试环境(Linux)运行出现了各种报错。如:'bash: ~/.bash_profile: No such file or directory','line 2: $‘\r‘: command not found','syntax error near unexpected token'。主要原因是在本地用Notepad编写时,默认为windows格式,需要进行Unix格式的转换。
2023-01-11 21:39:46 1695
原创 jupyter notebook添加目录功能
jupyter notebook添加目录功能。通过 Jupyter NbExtensions Configurator 扩展工具进行安装。
2022-06-09 15:44:31 300 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人