自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Day19 评价问题介绍

1.赋权方法:熵权法﹣﹣客观方法,我们还有一些主观方法:AHP 层次分析法的上半部分、自己定权重也可以。2.排序方法:TOPSIS 方法\灰色关联度分析\AHP 下半部分。二、作业:尝试对day18提到的回归问题应用该方法来实现下。3.评价问题的创新思路:联合权重(主观+客观)、联合排序。

2025-12-07 22:39:29 167

原创 Day18 回归问题与置信区间

5.回归问题和分类问题的转化:如果你的回归问题表现很差,可以退而求其次转化为分类问题,往往会有好的指标。4.置信区间与bootstrap思想﹣﹣手动得到置信区间,把点估计变成区间估计。c. 用MultiOutputRegressor 包装单输出。二、作业:对加州房价数据进行处理。a. 直接用单回归器做n次。b.用原生支持多回归的模型。1.回归器和分类器的差别。2.回归任务的评估指标。

2025-12-06 23:07:45 325

原创 Day17 多分类问题

1.sklearn自带的三类数据集:小数据(自带)、大数据(自动下载)、数据集构造。2.原生多分类和OVR策略:二者绘制出来的roc图也不同,且OVR必须要二值化标签。3.多分类的工业应用:可以阈值和不为 1,取每个类别对应最优阈值。尝试对 sklearn 自带的红酒数据集完成机器学习多分类流程。5.KS指标(0到1之间)和MCC指标(-1到1之间)4.多分类的评估指标:宏平均、微平均、加权平均。6.环境环境变量的本质。

2025-12-05 11:41:22 128

原创 Day16 ROC曲线和PR曲线

并且打印他们的roc和pr曲线,从今天课上的视角去理解他们的能力。作业:对于信贷数据,仔细观察每个模型的。

2025-12-04 21:16:34 157

原创 Day15 不平衡的数据处理

在机器学习任务中(不包含深度学习),数据不平衡指的是分类问题中,不同类别数目不同导致模型会侧重于学习多数类的信息,而忽略少数类信息的学习。. 选择对不平衡数据鲁棒的方法,比如集成学习方法,尤其是Adaboost,为了不平衡数据而诞生。2.算法层面:不改变数据,而是调整模型训练过程或使用对不平衡数据鲁棒的算法。处理不平衡数据的方法主要分为三大类:数据层面、算法层面和评估指标层面。过采样:增加少数类的样本数目--smote插值、随机过采样.欠采样:删除多数类的样本--ENN 数据清洗、随机欠采样·

2025-12-03 22:47:42 207

原创 Day14 多目标优化算法

2.粒子群多目标(MOPSO)是需要采取 Pbest 和 Gbest 的策略(比如随机选、基于密度选)1.遗传算法多目标(NSGA-II)基于 rank 和拥挤距离。b. 多目标:保留N个帕累托最优点,不同算法筛选的策略不同。3.利用旧解产生新解(各种策略均可,GA\PSO等)a.单目标:直接排序,保留最优的N个解。1.初始化N个解(个体)2.计算函数值(适应度)

2025-12-02 17:44:47 190

原创 Day13 启发式算法

1、思想:遗传算法、粒子群算法、退火算法。

2025-12-01 16:19:46 197

原创 Day12 随机森林原理和贝叶斯优化可使

2.简单的解包思想:通过items方法解包字典,将集合元素分散到变量中3.随机森林的基础思想和关键参数。1.字典的items 方法,注意和enumerate (iterable)的区别。二作业:对其他模型尝试贝叶斯可视化,并且选择一个模型试着去理解它背后的思想。

2025-11-30 23:31:52 191

原创 Day11 常见的调参方式

3.贝叶斯优化﹣--﹣基于代理模型的思想,用简单的模型(高斯回归、决策树、神经网络)来替代复杂且计算成本高的模型,实现形式多样(sklearn、贝叶斯优化库、optuna)4. time库的计时模块,方便后人查看代码运行时长。2.随机搜索﹣--﹣基于采样的思想,大幅减少搜索的点。6.如何给AI提问?---﹣最小mvp法则。

2025-11-29 19:40:38 212

原创 Day10 机器学习建模与评估

3.机器学习的流程顺序﹣---﹣不要数据泄露(归一化器在划分数据集后)1.异常值的处理﹣-﹣箱线图去除异常值的思想和迭代问题。二、作业:尝试对心脏病数据集采用机器学习模型建模和评估。4.机器学习模型建模的三行代码。5.机器学习模型分类问题的评估。6.如何理解分类报告。

2025-11-28 22:53:10 167

原创 Day9 热力图和子图的绘制

(1)fig是容器,负责管理整个绘图区域的大小、分辨率、总标题(fig.suptitle())以及子图的布局。(2)axes是内容,对应实际的绘图区域,所有具体的绘图操作(如 plot(), scatter(),set_title(), set_xlabel()) 都是在这个对象上进行的。fig指的是整个画布对象,axes指的是里面的子图对象(坐标轴对象,可以在轴上绘图所以叫坐标轴对象)。3.介绍了 enumerate()函数。1. 介绍了热力图的绘制方法。4.介绍了子图的绘制方法。

2025-11-27 21:25:02 135

原创 知识回顾-查漏补缺

2、pandas:series只有一列的表格,dataframe不止一列的表格。4、object=str=字符串类型。1、路径前加上r,r是防转移字符。3、head()查看前五行。

2025-11-26 15:46:37 262

原创 Day8 标签编码与连续变量处理

在 Python 中,字典(dict) 是一种内置的、非常核心的可变映射类型,用来存储键值对(key-value pairs)连续变量处理的原因:不同特征的量纲和数值范围差异很大,会影响模型训练效果,需要进行归一化或标准化处理。键的不可变性: 键必须是不可变类型(如字符串、数字、元组),不能用列表做键。键的唯一性: 字典中的键必须是唯一的,重复的键会被覆盖。值的任意性: 值可以是任何数据类型,可以重复。3、连续变量的处理:归一化和标准化。2、标签编码(字典的映射)

2025-11-13 20:37:59 219

原创 Day7 复习日+如何查看函数参数

利用电脑插件的大模型功能(解释)来解读,比翻译效果好(我是夸克网盘的,其他软件也有很多类似的功能)鼠标悬停(适合已经熟悉这个函数,只是参数有些忘记了)查看官方文档(适合能力强,我们后面会说)直接发给AI,让AI帮你解读(最推荐)jupyter魔法命令。Ctrl进入内部查看。

2025-11-12 16:10:16 255

原创 Day6 数据可视化

1、Seaborn 是一个功能强大且易于使用的数据可视化库,特别适合用于统计分析和数据探索。它的高级接口和美观的默认样式使得创建专业级别的图表变得非常简单。去针对其他特征绘制单特征图和特征和标签的关系图,并且试图观察出一些有意思的结论。单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图。内容回顾:数据初步可视化。箱线图美化--->直方图。特征和标签关系可视化。

2025-11-11 12:22:52 123

原创 Day5 离散特征的处理(独热编码)

注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看。现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。先按照示例代码过一遍,然后完成下列题目。对独热编码后的变量转化为int类型。对离散变量进行one-hot编码。1、题目:离散特征的独热编码。填补缺失值(离散+连续)

2025-11-10 17:00:53 217

原创 Day4 认识pandas

1、dataframe里单独的一列是series。1、题目:初识pandas库与缺失数据的补全。打开数据(csv文件、excel文件)去尝试补全信贷数据集中的数值型缺失值。查看数据(尺寸信息、查看列名等方法)利用循环补全所有列的空值。众数、中位数填补空值。

2025-11-08 18:17:47 110

原创 Day3 列表、循环和判断语句

初始化两个变量:excellent_count 用于记录分数大于等于 90 的个数,初始值为 0;total_score 用于累加所有分数,初始值为 0。定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。循环结束后,计算平均分 average_score(总分除以分数的个数)。使用 for 循环遍历 scores 列表中的每一个分数。将当前分数累加到 total_score 变量上。所有分数的平均分(结果包含3位小数)。优秀分数(>=90)的个数。

2025-11-06 23:06:33 199

原创 Day2字符串与比较运算

的所有字符(包括汉字、全角标点、空格、制表符、emoji 等)都会被原样当作字符串内容,Python 只认最外层的那个英文双引号。定义两个字符串变量,str1 赋值为 "Hello",str2 赋值为 "Python"。将这两个字符串拼接起来(中间加一个空格),存储在变量 greeting 中。计算 greeting 字符串的长度,存储在变量 length 中。提取中间的5个字符(nProg),存储在变量 middle 中。提取前6个字符(Python),存储在变量 part1 中。

2025-11-05 23:44:05 456

原创 Day1变量与格式化字符串

计算这两个变量的和,并将结果存储在一个新的变量 a 中;计算这两个变量的商,叫做b;计算这两个变量的余数,叫做c。然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。(ps:转义字符是以反斜杠 `\` 开头的特殊字符,用于表示一些无法直接输入的字符或特殊功能。计算折扣后的价格,并将结果存储在变量。函数将每个变量的值单独打印出来,每个值占一行。参数,表示多个输出值之间使用换行符分隔。如果想在输出的姓名两边加上引号,例如。存储你所在的城市(字符串,例如。

2025-11-04 22:06:21 678

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除