自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 python打卡day18

如你想聚类消费者购买习惯,那么他过去的消费记录、购买记录、购买金额等等,这些特征都与消费者购买习惯有关,你可以使用这些特征来确定簇含义,一些其他的特征,如消费者年龄,工作行业则不考虑。------适用于你本身就有构造某些明确含义的特征的情况。2. 最开始用全部特征来聚类,把其余特征作为 x,

2025-05-07 22:38:35 337

原创 python打卡day17

知识点聚类的指标聚类常见算法:kmeans聚类、dbscan聚类、层次聚类三种算法对应的流程实际在论文中聚类的策略不一定是针对所有特征,可以针对其中几个可以解释的特征进行聚类,得到聚类后的类别,这样后续进行解释也更加符合逻辑。聚类的流程标准化数据------聚类前的一般操作选择合适的算法,根据评估指标调参( )将聚类后的特征添加到原数据中原则t-sne或者pca进行2D或3D可视化KMeans 和层次聚类的参数是K值,选完k指标就确定。

2025-05-06 23:25:22 542

原创 python打卡day16

因为前天说了shap,这里涉及到数据形状尺寸问题,所以需要在这一节说清楚,后续的神经网络我们将要和他天天打交道。知识点:numpy数组的创建:简单创建、随机创建、遍历、运算numpy数组的索引:一维、二维、三维SHAP值的深入理解作业:今日知识点比较多,好好记忆下NumPy 数组的维度或称为轴 (Axis)的概念,与我们日常理解的维度非常相似。直观判断:数组的维度层数通常可以通过打印输出时中括号 `[]` 的嵌套层数来初步确定:一层 `[]`:一维数组。两层 `[]`:二维数组。

2025-05-05 22:20:43 1157

原创 python打卡day15

尝试找到一个kaggle或者其他地方的结构化数据集,用之前的内容完成一个全新的项目,这样你也是独立完成了一个专属于自己的项目。对于数据的认识,很重要的一点是,很多数据并非是为了某个确定的问题收集的,这也意味着一份数据你可以完成很多不同的研究,同一个问题,特征加工上,是否对数据进一步加工得出了新的结论-----你的加工被证明是有意义的。研究问题的选择上,同一个数据你找到了有意思的点,比如更换了因变量,做出了和别人不同的研究问题。数据的质量上,是否有好的研究主题但是你这个数据很难获取,所以你这个研究有价值。

2025-05-04 23:56:02 650

原创 python打卡day14

SHAP图介绍今日作业偏思考类型,有一定难度参考上述文档补全剩余的几个图尝试确定一下shap各个绘图函数对于每一个参数的尺寸要求,如shap.force_plot力图中的数据需要满足什么形状?确定分类问题和回归问题的数据如何才能满足尺寸,分类采取信贷数据集,回归采取单车数据集。

2025-05-03 23:44:14 1034

原创 python打卡day13

过采样是把少的类别补充和多的类别一样多(增加数据),欠采样是把多的类别减少和少的类别一样(减少数据),一般都是缺数据,所以很少用欠采样。目的: 在不改变已训练好的模型的情况下,根据业务需求调整精确率(Precision)和召回率(Recall)之间的权衡。作用机制:修改模型的损失函数。:移动决策边界,当给橙子(少数类)加大权重后,边界会向苹果方向移动,更多区域被划为橙子(提高橙子的识别率);1. 对于少数类中的每个样本,计算它与少数类中其他样本的距离,得到其k近邻(一般k取5或其他合适的值)。

2025-05-02 23:44:53 912

原创 python打卡day12

这个过程就像在一个复杂的地形(参数空间)上寻找最高峰(最佳性能),启发式算法就是一群聪明的“探险家”,它们用不同的策略(模仿自然、物理现象等)来寻找这个最高峰,而不需要知道地形每一处的精确梯度(导数)。初始化阶段:模拟生物进化的“种群”概念,每个超参数就是每个基因,每个个体是一组超参数的组合,先设定每个超参数取值范围即设置好参数空间,再随机生成多个个体组成初始化种群。的思路为主,尝试检索资料、视频、文档,用尽可能简短但是清晰的语言看是否能说清楚这三种算法每种算法的实现逻辑,帮助更深入的理解。

2025-05-01 23:47:00 727

原创 python打卡day11

2.执行网格搜索时,模型的实例化和训练都被封装在这个网格搜索对象里面了,通过这个对象的 best_estimator_ 属性可直接获取训练好的最优模型,无需重新训练但要预测。2.和上面网格搜索的参数空间相比,贝叶斯优化需要参数分布范围,而非网格搜索那样的固定值列表,Integer() 表示在范围内连续采样整数,贝叶斯优化会动态调整采样点。通常,用相对较少的迭代次数(如 50-100)就能找到相当好的参数。- 需要定义参数的搜索空间,与随机搜索类似,当搜索空间非常大时,它通常比网格搜索和随机搜索更有效。

2025-04-30 22:43:03 994

原创 python打卡day10

原因是drop方法默认是按行删除,传入一个标签'Credit Default'时,它会尝试在索引中查找该标签并删除对应的行,但数据中不存在名为'Credit Default'的行索引,就会导致报错。对于评估,测试集的预测值和测试集的真实值进行对比,得到混淆矩阵,基于混淆矩阵计算准确率、召回率、F1值,这些都是。对比一下就会发现,调用不同模型进行训练和之后的评估指标计算,代码没什么太大不同,堪称模板,这不很好记吗。,然后计算每个阈值对应FPR和TPR,将这些点连成线,最后求曲线下的面积,得到AUC值。

2025-04-29 22:41:03 931

原创 python打卡day9

之前的学习都是单个图的绘制,在数据可视化中,子图是指在一个整体的绘图区域(画布)中,被划分成多个较小的、相对独立的绘图区域,每个这样的小绘图区域就是一个子图。通过子图,可以在一个页面或一个可视化对象中展示多个相关但又有区别的数据集或可视化内容,方便进行对比和分析。通过计算变量之间的相关系数,并将其以颜色编码的方式呈现出来,可以快速直观地看出哪些变量之间存在较强的正相关或负相关关系,哪些变量之间相关性较弱。enumerate() 函数确实很有用,但写代码的过程中仍旧不由自主用循环来遍历索引,乐。

2025-04-28 23:33:26 368

原创 python打卡day8

很显然这个变量的数据类型是字符串,对于字符串类型,就两个类别,我们也要映射成整数类型,这里不要理解为标签编码或者独热编码,二分类的问题不需要独热编码,比如性别这个特征,男女不需要变成2个特征,性别男 性别女。标签编码需要用到映射关系,这个映射关系用字典来表现,调用 map() 函数,传入的参数就是这个映射关系。可以去b站找个视频或者 csdn找个帖子看下字典的简单介绍锻炼下自学能力,但是目前我们只会用到映射这个用法,他需要传入的是字典,因为字典的键值对,,现在介绍对于存在顺序和大小关系的离散特征,做好。

2025-04-27 23:35:38 1005

原创 python打卡day7

先分别找出连续变量和离散变量,这里有个麻烦的点就是数据都是数值型,不能像前面学习的内容通过数据类型来判断是不是离散,自己看看每个变量具体的值判断一下,离散变量通常只有有限的几个不同的值,可以使用 data['列名'].nunique() 来查看每列的唯一值数量。选取离散变量'sex'画图,虽然是离散变量可以用histplot()画直方图但画出来的效果对于类别型变量(如性别)确实不如countplot()直观。之后可以选取离散变量里的无序变量进行独热编码了,有序变量用标签编码,这里不做处理。

2025-04-26 19:31:08 916

原创 python打卡day6

箱线图可以展示数据的五个关键统计量:最小值(下边缘)、第一四分位数(Q1,箱子的下边界)、中位数(Q2,箱子中间的线)、第三四分位数(Q3,箱子的上边界)、最大值(上边缘),还可以显示异常值(超出1.5倍四分位距的点。可视化的方法很多,大致分为离散变量可视化和连续变量可视化,以及又提了一下连续变量与最后离散标签的关系可视化,具体用什么方法就不强求自己全部记住了。对于标签是离散的,特征是连续的情况,这个数据是个二分类问题的数据集,标签就两个类别,选用一个连续变量看看两者之间的关系,用多种方法可视化。

2025-04-25 23:45:00 406

原创 python打卡day5

(提一下:有序类别用标签编码)

2025-04-24 22:55:00 877

原创 python打卡day4

今天的内容只需要 pandas 库和 numpy 库,pandas:提供高性能、易于使用的数据结构如 DataFrame 和 Series,可方便地进行数据清洗、转换、聚合、可视化等操作,为机器学习提供高质量的数据输入。的带标签数据结构,类似于 Excel 表格或者 SQL 数据库中的表,由行和列组成,每一列可以是不同的数据类型,例如一列可以是整数,另一列可以是字符串,可看作是由多个Series 组成的。根据刚才查看空值,需要找到所有有缺失值的列,并且列的数据类型为数值的,并且遍历这些列依次填补缺失值。

2025-04-23 23:47:23 943

原创 python打卡day3

如 tech_dict = {"Python":"high-level", "Java":"general-purpose", "Go":"efficient"}创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。如 tech_tuple = ("Python", "Java", "Go")如 tech_list = ["Python", "Java", "Go"]如 tech_set = {"Python", "Java", "Go"}

2025-04-22 12:45:11 930

原创 python打卡day2

定义两个整数变量,score_a 赋值为 75,score_b 赋值为 90。比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。获取 greeting 字符串的第一个字符,存储在变量 first_char 中。表示倒数第二个元素,以此类推。

2025-04-21 18:10:48 261

原创 python打卡day1

计算这两个变量的和,并将结果存储在一个新的变量 a 中;计算这两个变量的余数,叫做c。然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。2、对于print函数,在其他的编程语言学习中直接用来输出就完事儿了,在python里第一次接触到sep 参数来设置分隔符。3、虽然其他语言也能实现类似f-string的功能,但还就python用起来最简单,在字符串前加上。计算折扣后的价格,并将结果存储在变量。函数将每个变量的值单独打印出来,每个值占一行。

2025-04-20 23:30:14 278

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除